پروژه روش های دسته بندی جریان داده

پروژه روش های دسته بندی جریان داده پژوهش کامل در حوزه کامپیوتر و IT میباشد و در 4 فصل تنظیم شده است. این پروژه با معرفی داده کاوی و خوشه بندی به روش های دسته بندی جریان داده پرداخته است. شما میتوانید فهرست مطالب پروژه را در ادامه مشاهده نمایید.

پروژه بصورت فایل قابل ویرایش ورد(WORD) در 68 صفحه برای رشته کامپیوتر و IT در پایین همین صفحه قابل دانلود میباشد. شایسته یادآوری است که پروژه از ابتدا تا پایان ویرایش وتنظیم , سکشن بندی (section) ، نوشتن پاورقی (Footnote) و فهرست گذاری اتوماتیک کامل شده وآماده تحویل یا کپی برداری از مطالب مفید آن است.

چکیده

حجم بزرگ داده ها به تنهایی به مدیران سازمان ها در تصمیم سازی و تصمیم گیری هیچ کمکی نمی کند، بلکه باعث سردرگمی مدیران سازمان ها نیز می شود.بنابراین مدیریت داده های خام و تبدیل داده های خارجی و داخلی سازمان به اطلاعات و دانش با استفاده از تکنیک های گوناگون،نقش اساسی و محوری دارد.از تکنیک های معروف در این زمینه داده کاوی است،که می تواند بر روی بانک اطلاعاتی انجام شود و دانش مورد نیاز را بدست آورد.در فصل اول به بررسی این مفهوم پرداختیم. کاوش خوشه ها نیز یکی از تکنیک های حائز اهمیت در زمینه رو به رشد،معروف به داده کاوی اکتشافی می باشد که در رشته های گوناگون مهندسی و علمی از قبیل زیست شناسی،روان شناسی،پزشکی،بازاریابی،کامپیوتر و نقشه برداری ماهواره ای به کار گرفته شده است. این مفهوم در فصل های سوم و چهارم دنبال شده است.در فصل سوم به یکی از الگوریتم های خوشه بندی به نام CStree پرداخته شده و نقاط ضعف این الگوریتم نیز مطرح شده است .تحلیل خوشه ها،اطلاعات را بوسیله یک ساختار اساسی مختصر بدو شکل گروه بندی تنها یا گروه بندی سلسله مراتبی سازماندهی می نماید.خوشه بندی ،ابزاری برای اکتشاف ساختارهایی از درون داده هاست که نیاز به هیچ فرضی از آنها نیست.این روش در هوش مصنوعی و شناسایی الگو،یادگیری بدون ناظر نامیده می شود.الگوریتم های خوشه بندی گوناگونی برای استخراج دانش از درون مجموعه اطلاعات مختلف وجود دارد.اما عموما این الگوریتم ها حساس به داده های مورد آزمایش و برخی پارامترهای اولیه می باشند،لذا نتایج حاصل از آنها وابسته به ساختار داده ها می باشد.تاکنون الگوریتمی ارائه نشده است که بتواند هر گونه ساختار داده ای را استخراج نماید. یکی دیگر از پدیده های نوظهور در دنیای اطلاعات،داده های جریانی می باشند.این پدیده که در فصل چهارم مطرح شده است،اشاره به حجم وسیعی از اطلاعات انباشته شده دارد که محدودیت های فراوانی برای پردازش ایجاد کرده اند.اندازه این داده ها بیش از حافظه اصلی،یکی از این موانع می باشد.لذا می بایست الگوریتم های جدیدی برای برخورد با این گونه داده ها توسعه یابند.

واژه های کلیدی: داده کاوی، دسته بندی، خوشه بندی، جریان داده

فهرست مطالب

فصل اول  مقدمه ای بر داده کاوی

1-1 مقدمه. 2

2-1عامل مسبب پیدایش داده کاوی.. 2

3-1داده کاوی و مفهوم اکتشاف دانش.... 3

3-1-1 تعریف داده کاوی.. 4

3-2-1 فرایند داده‌کاوی.. 5

3-3-1 قابلیتهای داده کاوی.. 5

3-4-1 چه نوع داده‌هایی مورد کاوش قرار می گیرند. 5

انبارهای داده ها:6

4-1 وظایف داده کاوی.. 7

4-1-1 کلاس بندی.. 7

4-2-1 مراحل یک الگوریتم کلاس‌بندی.. 8

4-3-1 انواع روش‌های کلاس‌بندی.. 8

4-3-1-1 درخت تصمیم.. 8

4-3-1-1-1 کشف تقسیمات.. 9

4-3-1-2-1 دسته بندی با درخت تصمیم.. 10

4-3-1-3-1 انواع درخت‌های تصمیم.. 11

4-3-1-4-1 نحوه‌ی هرس کردن درخت... 11

4-3-2-1 بیزی.. 12

4-3-2-1-1 تئوری بیز. 13

4-4-1 ارزیابی روش‌های کلاس‌بندی.. 14

5-4-1 پیش بینی.. 15

6-4-1 انواع روش‌های پیش بینی.. 15

6-4-1-1 رگرسیون.. 15

6-4-1-1-1 رگرسیون خطی.. 15

6-4-1-1-2 رگرسیون منطقی.. 16

7-4-1 تخمین.. 17

فصل دوم  خوشه بندی

2-1-تعریف فرایند خوشه‌بندی.. 19

2-2 روش ها و الگوریتم‌های خوشه‌بندی.. 20

2-3 روش و الگوریتم سلسله مراتبی.. 20

2-3-1-روش های سلسله‌مراتبی.. 20

2-3-2-الگوریتم های سلسله مراتبی.. 21

2-3-3- الگوریتم خوشه بندی.. 21

2-3-4-الگوریتم‌های تفکیک... 25

2-3-5روش‌های متکی برچگالی.. 25

2-3-6 روش‌های متکی بر گرید. 25

2-3-7 روش‌‌های متکی بر مدل.. 26

منابع.. 27

فصل سوم  خوشه بندی CS tree

3-1مقدمه. 29

3-2 مروری بر روش های خوشه بندی جریان داده. 29

3-3 خوشه بندی توری جریان داده. 31

3-3-1 مروری بر روش خوشه بندی توری CS tree. 32

3-3-2 بررسی نقاط ضعف الگوریتم CS tree. 33

3-4 الگوریتم پیشنهادی.. 36

3-4-1 بازتعریف مفهوم همسایگی و رفع مشکل تقسیم بی معنی خوشه ها37

3-5 اصلاح روند بروز رسانی خوشه ها39

3-6 اصلاح ساختار نمایش خوشه ها39

منابع.. 41

فصل چهارم  جریان داده و مدل های ان

4-1 مقدمه. 43

4-2 کاربردهای داده های جریانی.. 44

4-2-1 شبکه های حسگر. 44

4-2-2 تحلیل ترافیک شبکه. 44

4-2-3 محرک های مالی.. 45

4-2-4 تحلیل تراکنش ها45

4-3 مدل داده های جریانی.. 45

4-4 زیربنای نظری.. 46

4-4-1 تکنیک های مبتنی بر داده. 46

4-4-1-1 نمونه برداری.. 47

4-4-1-2 پراکنده ساختن بار. 47

4-4-1-3 طراحی اولیه. 47

4-4-1-4 ساختمان داده خلاصه. 47

4-4-1-5 انبوه سازی.. 48

4-4-2 تکنیک های مبتنی بر وظیفه. 48

4-4-2-1 الگوریتم های تخمین.. 48

4-4-2-2 الگوریتم های مبتنی بر پنجره. 48

4-4-2-3 الگوریتم های دانه دانه سازی نتایج.. 49

4-5 خوشه بندی داده های جریانی.. 49

4-5-1 بهبود روش های سنتی.. 49

4-5-1-1 الگوریتم CLARANS. 50

4-5-1-2 الگوریتم BIRCH.. 51

4-5-2 ظهور تکنیک های جدید. 53

4-5-2-1 الگوریتم مبتنی بر چگالی DBSCAN.. 53

4-5-2-2 الگوریتم مبتنی بر گریدSTING.. 55

4-6 بحث در مورد الگوریتم ها56

4-6-1 ایا توسعه روش های سنتی درست است... 56

4-6-2 روش های جدید چه پیشنهاداتی دارند. 57

منابع.. 59

فهرست شکل ها

شکل1-1 فرایند داده کاوی.. 5

شکل1-2 نمونه یک درخت تصمیم.. 8

شکل 1-3 یک تقسیم بندی خوب ، درجه خلوص را برای فرزندان افزایش می دهد. 9

شکل2-1- مسافت شهرها22

شکل2-2- MDTO.. 23

شکل2-3- خوشه ی BA/NA/RM... 24

شکل2-4- خوشه ی BA/FI/NA/RM... 24

شکل2-5- خوشه ی نهایی.. 25

شکل 3-1 تقسیم خوشه های با معنی به زیر خوشه های بی معنی.. 34

شکل3-2 خطاهای روش Cs tree در ترکیب خوشه های یک بعدی و ایجاد خوشه های چند بعدی.. 35

شکل3-3روی هم افتادگی خوشه ها در بروز رسانی به روش Cs tree. 35

شکل3-4 ذخیره سازی اطلاعات سلول ها با ساختار B+tree. 36

شکل3-5 ساختار ذخیره سازی خوشه ها در فضای چند بعدی.. 38

شکل3-6 نحوه نمایش یک خوشه. 40

شکل4-1 مدل پردازش داده های جریانی.. 46

شکل 4-2 الگوریتم خوشه بندی CLARA.. 50

شکل 4-3 الگوریتم خوشه بندی CLARANS. 51

شکل 4-4 الگوریتم خوشه بندی BIRCH.. 52

شکل4-5 الگوریتم خوشه بندی DBSCAN.. 54

شکل 4-6 الگوریتم خوشه بندیSTING.. 56


خرید و دانلود پروژه روش های دسته بندی جریان داده

پروژه مقایسه دقت تکنیکهای کلاسه بندی در داده کاوی با استفاده از دیتاست پزشکی

پروژه مقایسه دقت تکنیکهای کلاسه بندی در داده کاوی با استفاده از دیتاست پزشکی  پژوهش کامل در حوزه کامپیوتر و پزشکی میباشد و در 5 فصل تنظیم شده است.این پروژه با معرفی داده کاوی به تکنیک های کلاسه بندی در داده کاوی پرداخته است.شما میتوانید فهرست مطالب پروژه را در ادامه مشاهده نمایید.

پروژه بصورت فایل قابل ویرایش ورد(WORD) در 57 صفحه برای رشته کامپیوتر و IT در پایین همین صفحه قابل دانلود میباشد. شایسته یادآوری است که پروژه از ابتدا تا پایان ویرایش وتنظیم , سکشن بندی (section) ، نوشتن پاورقی (Footnote) و فهرست گذاری اتوماتیک کامل شده وآماده تحویل یا کپی برداری از مطالب مفید آن است.

چکیده

در این مطالعه ، 5 روش کلاسه بندی متداول ، درخت تصمیم ، بیزین ، نزدیکترین همسایه ، شبکه های عصبی و ماشین بردار پشتیبان بر روی شش مجموعه ی داده ی پزشکی سرطان سینه ، هپاتیت ، تیروئید ، دیابت ، تومور اولیه و بیماری قلبی مورد تست و ارزیابی قرار گرفتند.معیار ارزیابی میزان دقت هر روش بوده و برای تست هر روش از نرم افزار weka با مقادیر پیش فرض استفاده گردید.نتایج حاصله نشان می دهد .که اگر چه بعضی از کلاسه بندی ها نسبت به بقیه بهتر عمل می کنند ولی بطور کلی هیچ روش کلاسه بندی وجود ندارد که روی تمام مجموعه داده های مذکور از دقت بهتری برخوردار باشد و برای هر مجموعه داده یک روش کلاسه بندی خاص نسبت به سایر روش ها از دقت مطلوبی برخوردار می باشد.

واژه های کلیدی:

داده کاوی ، کلاسه بندی ، داده کاوی پزشکی ، الگوریتم های کلاسه بندی ، کشف دانش ،استخراج دانش ،نرم افزار weka ، Data mining ، classification

فهرست مطالب

مقدمه. 1

فصل یکم  مفاهیم داده کاوی

1-1- مروری بر کشف دانش و داده کاوی.. 4

1-2 عوامل پیدایش داده کاوی.. 5

1-3 مراحل کشف دانش.... 7

1-3-1 استخراج داده ها7

1-3-2 اماده کردن داده ها8

1-3-3 مهندسی الگوریتم و تعیین استراتژ ی های کاوش... 9

1-3-3 اجرای الگوریتم کاوش و ارزیابی نتایج.. 10

1-4 جایگاه داده کاوی در میان علوم مختلف... 12

1-5 داده کاوی چه کارهایی نمی تواند انجام دهد. 13

1-6 داده کاوی و انباره داده ها13

1-7 داده کاوی و OLAP. 14

1-8 کاربرد یادگیری ماشین و امار در داده کاوی.. 15

1-9 روش های یادگیری.. 15

1-10 روش های کاوش... 16

فصل دوم  کلاسه بندی و پیشگویی

2-1 کلاسه بندی.. 19

2-2 انواع روش های کلاسه بندی.. 21

2-3 ارزیابی روش های کلاسه بندی.. 22

فصل سوم  تکنیک های کلاسه بندی معروف

3-1 درخت تصمیم.. 24

3-2 بیزین.. 25

3-2-1 تئوری بیز. 25

3-2-2 نحوه کلاسه بندی به روش بیز ساده. 25

3-3 روش کلاسه بندی نزدیکترین k- همسایه. 27

3-4 روش کلاسه بندی شبکه های عصبی.. 29

3-5 روش کلاسه بندی ماشین بردار پشتیبان.. 32

فصل چهارم  مقایسه و ارزیابی تکنیک های کلاسه بندی

4-1 مجموعه داده های مورد استفاده. 35

4-1-1 مجموعه داده سرطان سینه. 35

4-1-2 مجموعه داده هپاتیت... 35

4-1-3 مجموعه داده هیپوتیروئید. 35

4-1-4 مجموعه داده دیابت... 36

4-1-5 مجموعه داده تومور اولیه. 36

4-1-6 مجموعه داده بیماری قلبی.. 36

4-2 نرم افزار Weka. 37

4-2-1 معرفی نرم افزار weka. 37

4-3 تست روشها38

فصل پنجم  نتیجه گیری

پیوست... 42

پیوست ب- روش ارزیابی k- تکه برابر. 45

منابع.. 47

Abstract:47

 فهرست شکل ها

شکل 1-1-داده کاوی به عنوان یک مرحله از فرایند کشف دانش... 5

شکل1-2-سیر تکاملی صنعت پایگاه داده6

شکل 1-3-معماری یک نمونه از سیستم داده کاوی. 10

شکل 1-4-استخراج داده ها از انبار داده ها14

شکل 1-5-استخراج داده ها از چند پایگاه داده14

شکل 1-6- انواع یادگیری استنتاجی. 16

شکل 2-1-مثالی از فرایند دو مرحله ای کلاسه بندی. 20

شکل 2-2-عملکرد کلاسه بندی. 21

شکل 3-1-نمونه ای از یک درخت تصمیم. 24

شکل 3-2- محدوده همسایگی. 28

شکل 3-3- شبکه عصبی با یک لایه نهان. 29

شکل 3-4- الگوریتم Backpropagation. 30

شکل 3-5- یک گره در لایه نهان یا خروجی. 30

شکل 3-6-مثالی از کلاسه بندی SVM.. 33

جدول4-1–تست روش نزدیکترین Kهمسایه به ازای مقادیر مختلف K.. 38

جدول4-2 –درصد میزان دقت روشهای کلاسه بندی تست شده بر روی مجموعه داده ها39

شکل 1- weka در وضعیت انتخاب واسط.. 42

شکل 2- نمایی از Weka Explorer43

شکل 3 –پنجره ی weka explorer پس از انتخاب مجموعه داده43

شکل 4- انتخاب الگوریتم کلاسه بندی. 44

شکل 5-نمایی از پنجره weka Explorer پس از انتخاب یکی از الگوریتم های کلاسه بندی. 44

شکل 6- پارامتر های پیش فرض در نرم افزار weka. 45

شکل 7-نتایج حاصل از تست مجموعه داده در قسمت classifier output45

شکل 8-روش ارزیابی تکه برابر46

 


خرید و دانلود پروژه مقایسه دقت تکنیکهای کلاسه بندی در داده کاوی با استفاده از دیتاست پزشکی

تشخیص تقلب درسیستمهای پرداخت الکترونیکی بانکها با استفاده از داده کاوی

یکی از چالشهای تشخیص تقلب در حوزه سیستم های پرداخت الکترونیکی، تنوع و تغییر مداوم شیوههای تقلب است لذا نیاز به روش های تشخیص تقلب با کارایی و دقت بالا به روشنی قابل درک است. در این پژوهش روش داده کاوی رگرسیون لجستیک، شبکه عصبی BP و شبکه عصبی GMDH برای ساخت مدلهایی جهت شناسایی تقلب در تراکنشهای مالی دستکاه خودپرداز یک بانک پیاده سازی شدند. در ادامه، این روشها برروی دادههای واقعی آزمایش و کارایی هر روش سنجیده شد. روش شبکه عصبی GMDH با دقت 37.19 درصد در شناسایی تقلب یا غیرتقلب بودن تراکنشهای مالی بهترین کارایی را در مقایسه با دو روش رگرسیون لجستیک با دقت کلی 63.98 و شبکه عصبی BP 34 داشت. باتوجه به نتایج بدست آمده روش پیشنهادی در تشخیص تقلب نسبت به دو روش دیگر با دقت .. با دقت کلی 0 بیشتری عمل کرده است.


خرید و دانلود تشخیص تقلب درسیستمهای پرداخت الکترونیکی بانکها با استفاده از داده کاوی

یک روش جدید مبتنی بر تکنیک های داده کاوی به منظور کشف انواع حملات و بهبود نرخ تشخیص درست در سیستمهای تشخیص نفوذ

امروزه با گسترش روزافزن اینترنت و درنتیجه سیستمهای کامپیوتری مبتنی بر شبکه و نقش مهم آنها در ارتباطات و انتقال اطلاعات، تامین امنیت این شبکههای کامپیوتری، به عنوان یک ضرورت و چالش اساسی برای مدیران امنیتی شبکهها مطرح بوده است. سیستم-
های تشخیص نفوذ، یکی از زمینههای مهم تحقیقاتی در امنیت شبکههای کامپیوتری هستند. هدف سیستم تشخیص نفوذ، کشف و
شناسایی حملات و تشخیص اشکالات امنیتی در شبکههای کامپیوتری و اعلام آن به مدیران امنیتی میباشد. در این مقاله به منظور
تشخیص تعداد بیشتری از کلاسهای حملات، بهبود نرخ تشخیص درست و به حداقل رساندن نرخ تشخیص اشتباه، با استفاده از
روشهای داده کاوی انتخاب ویژگی و درخت تصمیم C5.4 ، یک روش جدید تشخیص نفوذ ارائه میشود. برای ارزیابی روش
پیشنهادی، از مجموعهداده KDD Cup 99 مجموعه داده استاندارد رایج و بزرگ برای ارزیابی سیستمهای تشخیص نفوذ، استفاده
2 دست یافته است.


خرید و دانلود یک روش جدید مبتنی بر تکنیک های داده کاوی به منظور کشف انواع حملات و بهبود نرخ تشخیص درست در سیستمهای تشخیص نفوذ

روشی نوین برای استفاده از داده کاوی جهت تشخیص نفوذ در شبکه

در امنیت اطلاعات، تشخیص نفوذ عبارت است از تشخیص فعالیت هایی که باعث به خطر افتادن محرمانگی، یکپارچگی یا موجود بودن یک منبع می شوند. البته به طور کلی تشخیص نفوذ جلوگیری از آن را در بر نمی گیرد. در این مقاله تمرکز روی روش های داده کاوی می باشد، که برای تشخیص نفوذ در شبکه ها استفاده می شوند. هدف این مقاله دست یابی به روشی نوین برای کمک گرفتن از داده کاوی در سیستم های تشخیص نفوذ می باشد که تا حد زیادی معایب روش های پیشین را برطرف نموده باشد و کارایی آن توسط تحقیقات میدانی به اثبات رسیده باشد. ایده ی این مقاله استفاده از روش خوشه بندی دوگانه به عنوان ابزاری برای تحلیل ترافیک شبکه و بهبود IDS است. خوشه های دوگانه به دست آمده می توانند روش مؤثری برای خلاصه سازی و جداسازی فرآیند های مشابه و تحلیل آن ها به صورت گروهی باشد. IDS های کنونی معمولا برای تشخیص دادن حمله های شناخته شده در شبکه تنظیم شده اند. این امر باعث می شود که نسبت به حمله های بدیع و خلافانه آسیب پذیر باشند. در روش پیشنهاد شده این مشکل با استفاده از تکنیک خوشه بندی دوگانه مرتفع گردیده و از آن برای دسته بندی داده های جدید که از شبکه به دست می آیند استفاده می شود.در امنیت اطلاعات، تشخیص نفوذ عبارت است از تشخیص فعالیت هایی که باعث به خطر افتادن محرمانگی، یکپارچگی یا موجود بودن یک منبع می شوند. البته به طور کلی تشخیص نفوذ جلوگیری از آن را در بر نمی گیرد. در این مقاله تمرکز روی روش های داده کاوی می باشد، که برای تشخیص نفوذ در شبکه ها استفاده می شوند. هدف این مقاله دست یابی به روشی نوین برای کمک گرفتن از داده کاوی در سیستم های تشخیص نفوذ می باشد که تا حد زیادی معایب روش های پیشین را برطرف نموده باشد و کارایی آن توسط تحقیقات میدانی به اثبات رسیده باشد. ایده ی این مقاله استفاده از روش خوشه بندی دوگانه به عنوان ابزاری برای تحلیل ترافیک شبکه و بهبود IDS است. خوشه های دوگانه به دست آمده می توانند روش مؤثری برای خلاصه سازی و جداسازی فرآیند های مشابه و تحلیل آن ها به صورت گروهی باشد. IDS های کنونی معمولا برای تشخیص دادن حمله های شناخته شده در شبکه تنظیم شده اند. این امر باعث می شود که نسبت به حمله های بدیع و خلافانه آسیب پذیر باشند. در روش پیشنهاد شده این مشکل با استفاده از تکنیک خوشه بندی دوگانه مرتفع گردیده و از آن برای دسته بندی داده های جدید که از شبکه به دست می آیند استفاده می شود.


خرید و دانلود روشی نوین برای استفاده از داده کاوی جهت تشخیص نفوذ در شبکه