پـــایان نامه روش های دسته بندی جریان داده

چکیده

حجم بزرگ داده ها به تنهایی به مدیران سازمان ها در تصمیم سازی و تصمیم گیری هیچ کمکی نمی کند، بلکه باعث سردرگمی مدیران سازمان ها نیز می شود.بنابراین مدیریت داده های خام و تبدیل داده های خارجی و داخلی سازمان به اطلاعات و دانش با استفاده از تکنیک های گوناگون،نقش اساسی و محوری دارد.از تکنیک های معروف در این زمینه داده کاوی است،که می تواند بر روی بانک اطلاعاتی انجام شود و دانش مورد نیاز را بدست آورد.در فصل اول به بررسی این مفهوم پرداختیم. کاوش خوشه ها نیز یکی از تکنیک های حائز اهمیت در زمینه رو به رشد،معروف به داده کاوی اکتشافی می باشد که در رشته های گوناگون مهندسی و علمی از قبیل زیست شناسی،روان شناسی،پزشکی،بازاریابی،کامپیوتر و نقشه برداری ماهواره ای به کار گرفته شده است. این مفهوم در فصل های سوم و چهارم دنبال شده است.در فصل سوم به یکی از الگوریتم های خوشه بندی به نام CStree پرداخته شده و نقاط ضعف این الگوریتم نیز مطرح شده است .تحلیل خوشه ها،اطلاعات را بوسیله یک ساختار اساسی مختصر بدو شکل گروه بندی تنها یا گروه بندی سلسله مراتبی سازماندهی می نماید.خوشه بندی ،ابزاری برای اکتشاف ساختارهایی از درون داده هاست که نیاز به هیچ فرضی از آنها نیست.این روش در هوش مصنوعی و شناسایی الگو،یادگیری بدون ناظر نامیده می شود.الگوریتم های خوشه بندی گوناگونی برای استخراج دانش از درون مجموعه اطلاعات مختلف وجود دارد.اما عموما این الگوریتم ها حساس به داده های مورد آزمایش و برخی پارامترهای اولیه می باشند،لذا نتایج حاصل از آنها وابسته به ساختار داده ها می باشد.تاکنون الگوریتمی ارائه نشده است که بتواند هر گونه ساختار داده ای را استخراج نماید. یکی دیگر از پدیده های نوظهور در دنیای اطلاعات،داده های جریانی می باشند.این پدیده که در فصل چهارم مطرح شده است،اشاره به حجم وسیعی از اطلاعات انباشته شده دارد که محدودیت های فراوانی برای پردازش ایجاد کرده اند.اندازه این داده ها بیش از حافظه اصلی،یکی از این موانع می باشد.لذا می بایست الگوریتم های جدیدی برای برخورد با این گونه داده ها توسعه یابند

 

تعداد صفحات 112 word

 

 

فهرست مطالب

تقدیم به: 3

تقدیر و تشکر. 4

فصل اول مقدمه ای بر داده کاوی. 1

1-1 مقدمه 2

1-2عامل مسبب پیدایش داده کاوی. 2

1-3داده کاوی و مفهوم اکتشاف دانش (K.D.D) 3

1-3-1 تعریف داده کاوی. 5

2-3-1 فرایند داده‌کاوی. 6

1-3-3 قابلیتهای داده کاوی. 7

4-3-1 چه نوع داده‌هایی مورد کاوش قرار می گیرند؟ 8

4-1 وظایف داده کاوی. 9

1-4-1 کلاس بندی. 10

2-4-1 مراحل یک الگوریتم کلاس‌بندی. 11

3-4-1 انواع روش‌های کلاس‌بندی. 11

1-3-4-1 درخت تصمیم. 12

1-1-3-4-1 کشف تقسیمات.. 13

2-1-3-4-1 دسته بندی با درخت تصمیم. 15

3-1-3-4-1 انواع درخت‌های تصمیم. 17

4-1-3-4-1 نحوه‌ی هرس کردن درخت.. 17

2-3-4-1 بیزی. 18

1-2-3-4-1 تئوری بیز. 20

2-2-3-4-1 دسته بندی ساده بیزی. 22

4-4-1 ارزیابی روش‌های کلاس‌بندی. 28

4-1-6 انواع روش‌های پیش بینی. 29

1-4-6-1 رگرسیون. 29

1-4-6-1-1 رگرسیون خطی. 29

1-4-6-1-2 رگرسیون منطقی. 31

1-4-7 تخمین. 32

فصل دوم خوشه بندی. 34

2 1-تعریف فرایند خوشه‌بندی. 35

2-2 روش ها و الگوریتم‌های خوشه‌بندی. 36

2-3 روش و الگوریتم سلسله مراتبی. 37

2 3-1-روش های سلسله‌مراتبی. 37

2 3-2-الگوریتم های سلسله مراتبی. 38

2-3-3- الگوریتم خوشه بندی single-linkage. 39

2 3-4-الگوریتم‌های تفکیک... 45

3-5-2روش‌های متکی برچگالی. 46

3-7-2 روش‌‌های متکی بر مدل. 47

فصل سوم خوشه بندی CS tree. 48

3-1مقدمه 49

3-2 مروری بر روش های خوشه بندی جریان داده 50

3-3 خوشه بندی توری جریان داده 52

3-1-3 مروری بر روش خوشه بندی توری CS tree. 53

3-2- 3 بررسی نقاط ضعف الگوریتم CS tree. 56

3-4 الگوریتم پیشنهادی. 60

3-1-4 بازتعریف مفهوم همسایگی و رفع مشکل تقسیم بی معنی خوشه ها 63

3-5 اصلاح روند بروز رسانی خوشه ها 66

3-6 اصلاح ساختار نمایش خوشه ها 67

فصل چهارم جریان داده و مدل های ان. 69

4-1 مقدمه 70

4-2 کاربردهای داده های جریانی. 71

4-2-1 شبکه های حسگر. 71

4-2-2 تحلیل ترافیک شبکه 72

4-2-3 محرک های مالی. 73

4-2-4 تحلیل تراکنش ها 73

4-3 مدل داده های جریانی. 74

4-4 زیربنای نظری. 75

4-4-1 تکنیک های مبتنی بر داده 76

4-4-1-1 نمونه برداری. 76

4-4-1-2 پراکنده ساختن بار 77

4-4-1-3 طراحی اولیه 77

4-4-1-4 ساختمان داده خلاصه 78

4-4-1-5 انبوه سازی. 78

4-4-2 تکنیک های مبتنی بر وظیفه 78

4-4-2-1 الگوریتم های تخمین. 79

4-4-2-2 الگوریتم های مبتنی بر پنجره 79

4-4-2-3 الگوریتم های دانه دانه سازی نتایج. 80

4-5 خوشه بندی داده های جریانی. 80

4-5-1 بهبود روش های سنتی. 81

4-5-1-1 الگوریتم CLARANS. 82

4-5-1-2 الگوریتم BIRCH.. 84

4-5-2 ظهور تکنیک های جدید. 87

4-5-2-1 الگوریتم مبتنی بر چگالی DBSCAN.. 87

4-5-2-2 الگوریتم مبتنی بر گریدSTING.. 90

4-6 بحث در مورد الگوریتم ها 93

4-6-1 ایا توسعه روش های سنتی درست است؟ 93

4-6-2 روش های جدید چه پیشنهاداتی دارند؟ 94

منابع. 96

 

فهرست اشکال

شکل 1-1 فرآینده داده کاوی.. 7

شکل1-2 نمونه یک درخت تصمیم.. 13

شکل 1-3 یک تقسیم بندی خوب ، درجه خلوص را برای فرزندان افزایش می دهد. 15

شکل 3-1 تقسیم خوشه های با معنی به زیر خوشه های بی معنی.. 58

شکل3-2 خطاهای روش Cs tree در ترکیب خوشه های یک بعدی و ایجاد خوشه های چند بعدی- قسمت A خطا در تعداد خوشه ها ، قسمت B خطا در شکل خوشه ها، قسمت C خطا در مرز خوشه ها59

شکل3 -3 روی هم افتادگی خوشه ها در بروز رسانی به روش Cs tree. 60

شکل 4-2 الگوریتم خوشه بندیCLARA.. 82

شکل 4-3 الگوریتم خوشه بندیCLARANS . 84

شکل 4-4 الگوریتم خوشه بندیBIRCH.. 86

شکل 4-6 الگوریتم خوشه بندی.STING.. 92

 


خرید و دانلود پـــایان نامه روش های دسته بندی جریان داده

بهینه سازی خوشه ها با استفاده از الگوریتم های تکاملی برای شخصی سازی وب

عنوان تحقیق: بهینه سازی خوشه ها با استفاده از الگوریتم های تکاملی برای شخصی سازی وب

فرمت فایل: word

تعداد صفحات: 77

شرح مختصر:

گرانبار شدن اطلاعات یک مشکل عمده در وب کنونی به شمار می­رود. برای مقابله با این مشکل، سیستم‌های شخصی­سازی وب ارائه شده­اند که محتوا و سرویس­های یک وب­سایت را با افراد براساس علایق و رفتار گردشی آن­ها سازگار می­کنند. یک مؤلفه­ی اساسی در هر سیستم شخصی­سازی وب، مدل کاربر آن است. هدف از شخصی سازی وب، مهیا ساختن محتوا و سرویس­های مورد نیاز کاربران به وسیله دانش به دست آمده از تعاملات قبلی کاربران در صفحات وب است. در حال حاضر، برای شخصی­سازی وب چندین متد خوشه­بندی در دسترس است. روش­هایی که تاکنون ارائه شده­اند، در مواردی دارای اشکالاتی بودند. البته تکنیک­های جدیدی در رفع این مشکلات و بهبود آنها ارائه شده است. اما در بیشتر این تکنیک­ها، مسائل افزونگی داده و مقیاس­بندی بالا وجود دارد. با توجه به اینکه افزایش کاربران وب منجر به افزایش اندازه‌ی خوشه می‌گرد، نیاز به بهینه‌سازی خوشه‌ها اجتناب‌ناپذیر خواهد بود. در تحقیق، یک متدولوژی بهینه­سازی خوشه بر اساس سیستم فازی ارائه شده است. به منظور افزایش دقت نهایی خوشه­بندی، برای تنظیم پارامترهای توابع عضویت از الگوریتم ژنتیک استفاده شده است. نتایج حاصل از شبیه‌سازی نشان می‌دهد که روش پیشنهادی دقت خوشه­بندی صفحات وب را تا حد قابل توجهی افزایش می­دهد.

کلید واژه­ها: شخصی ­سازی صفحات وب- خوشه ­بندی- کاربرد وب ­کاوی- الگوریتم فازی سی مینز- پایگاه داده یاندکس.

فهرست مطالب

چکیده.............................................................................................. 1

فصل اول........................................................................ 2

1-1-مقدمه.......................................................................... 3

1-2-تعریف مسئله.................................................................................. 4

1-3-اهمیت و ضرورت تحقیق........................................................... 5

1-4-شیوه پژوهش........................................................ 8

1-5-چارچوب پایان‏نامه........................................................................... 8

مراجع........................................................................................ 10

فصل دوم:............................................. 11

2-1-مقدمه....................................................................................12

2-2-مروی بر کارهای انجام شده....................................... 12

مراجع.............................................................................. 21

فصل سوم:.................................................. 24

3-1-مقدمه.................................................. 25

3-2-مراحل وب کاوی....................................................... 26

3-2-1-انواع وب‌کاوی............................................................ 27

3-3-شخصی‌سازی وب................................................. 28

3-3-1-دلایل نیاز به شخصی‌سازی وب............................ 28

3-3-2-مراحل شخصی سازی وب.................................. 29

3-3-2-1-جمع‌آوری داده............................................... 30

3-3-2-2-پردازش داده....................................................... 31

3-3-2-3-کشف الگو.................................... 31

3-3-2-4-تحلیل دانش....................31

3-3-3-تکنیک های مدل­سازی کاربر در شخصی‌سازی وب............................. 31

3-3-3-1-تکنیک tf-idf............................................ 32

3-3-3-2-تکنیک متا مدل و ابزار OLAP.............................................. 32

3-3-3-3-تکنیک براساس محتوای وب............................................... 33

3-3-3-4-تکنیک براساس فراهم کردن داده‌های موثر (ODP)............................ 34

3-3-3-5-شخصی­سازی وب با استفاده از روش­های ترکیبی......................... 34

3-3-3-6-شخصی­سازی وب براساس الگوریتم استقرایی و تکنولوژی tf-idf............ 35

3-3-3-7-شخصی­سازی وب با استفاده از کندوکاو الگوی ترتیبی و درخت الگو............... 35

3-4-خوشه‌بندی برای شخصی‌سازی وب................... 35

3-4-1-خوشه­بندی فازی....................... 36

3-4-1-1-الگوریتم پایه‌ای خوشه‌بندی فازی................. 36

3-4-1-2-الگوریتم فازی کا-مینز............... 36

3-4-1-3-خوشه­بندی صفحات وب با استفاده از خوشه­بندی فازی k-means...37

3-4-2-الگوریتم ژنتیک................. 39

3-4-2-1-بهینه‌سازی خوشه‌بندی فازی با استفاده از الگوریتم ژنتیک.................. 40

3-4-3-روش پیشنهادی در این تحقیق......................... 42

3-4-4-شمای کلی سیستم پیشنهادی........................ 42

3-4-5-مثالی از سیستم پیشنهادی............................................. 43

3-4-6-شبه کد روش پیشنهادی............................................. 50

3-5-جمع­بندی..................................... 51

مراجع............................................. 53

فصل چهارم:......................... 55

4-1-مقدمه......................................... 56

4-2-مجموعه داده­ها.................................................. 56

4-2-1-دیتاست YANDEX.......................... 57

4-2-1-1-پیش پردازش انجام شده با مجموعه داده­های خام قبل از انتشار.............. 57

4-3-پارامترهای ارزیابی........................................................ 60

4-4-آزمایشات انجام شده..................................................... 61

4-4-1-سخت افزار مورد استفاده............................... 62

4-4-2-نتایج آزمایشات...................... 62

4-5-جمع­بندی........................................ 64

مراجع:............................................ 65

فصل پنجم:.................... 66

5-1-مقدمه.................................................. 67

5-2-نتایج و دستاوردهای پروژه............................... 68

5-3-پیشنهادات..................... 68

مراجع..................... 70

فهرست اشکال

شکل 3- 1: فرآیند شخصی‌سازی وب.. 29

شکل 3-2: مجموعه داده پروانه‌ای.38

شکل 3-3:خوشه بندی فازی داده.39

شکل 3-4: مراحل اصلی الگوریتم ژنتیک.40

شکل 3-5: شمای کلی سیستم پیشنهادی.. 42

شکل 3-6: خوشه­بندی داده­های آموزشی.. 47

شکل 3-7: خوشه­بندی داده­های تست.. 49

شکل 4-8: مقایسه روش‌های پیشنهادی با روش ارائه شده در (Varghese, & John, 2012).64

فهرست جداول

جدول4-1: نتایج آزمایشات انجام شده بر روی 100 جلسه‌ی تصادفی.. 62

جدول4-2: مقایسه نتایج سیستم پیشنهادی با سایر روش‌ها62

جدول 4-3: مقایسه نتایج سیستم پیشنهادی با روش ارائه شده در (Varghese, & John, 2012).63


خرید و دانلود بهینه سازی خوشه ها با استفاده از الگوریتم های تکاملی برای شخصی سازی وب

پروژه وب کاوی

عنوان پروژه: وب کاوی

قالب بندی: word

تعداد صفحات: 41

فهرست مطالب:

1- مقدمه

2- مراحل وب کاوی

3- وب کاوی و زمینه های تحقیقاتی مرتبط

3-1- وب کاوی و داده کاوی

3-2- وب کاوی و بازیابی اطلاعات

3-3- وب کاوی و استخراج اطلاعات

3-4- وب کاوی و یادگیری ماشین

4- انواع وب کاوی

5- چالش های وب کاوی

6- کاوش محتوای وب

6-1- انواع کاوش محتوا در وب

6-1-1- طبقه بندی

6-1-2- خوشه بندی

6-1-3- سایر انواع کاوش محتوا در وب

6-2- رویکردهای کاوش محتوا در وب

6-3- الگوریتم های کاوش محتوا در وب

6-3-1- درخت تصمیم

6-3-2- شبکه عصبی

6-3-3- سایر الگوریتم های کاوش

7- کاوش ساختار وب

7-1- مدل های بازنمایی ساختار وب

7-1-1- مدل های مبتنی بر گراف

7-1-2- مدل های مارکو

7-2- الگوریتم های کاوش ساختار وب

7-2-1- HITS

7-2-2- Page Rank

7-2-3- الگوریتم جریان بیشینه

7-2-4- Average Clicks

7-3- کاربردهای کاوش ساختار وب

7-3-1- تشخیص اجتماعات وب

7-3-2- پیمایش وب

8- کاوش استفاده از وب

8-1- انواع داده های استفاده از وب

8-1-1- داده های سرورهای وب

8-1-2- داده های سرورهای پراکسی

8-1-3- داده های کلاینت

8-2- پیش پردازش داده های استفاده از وب

8-2-1- پاکسازی داده

8-2-2- تشخیص و بازسازی نشست

8-2-3- بازیابی ساختار و محتوا

8-2-4- قالب بندی داده

8-3- روش های کاوش استفاده از وب

8-3-1- قوانین انجمنی

8-3-2- الگوهای ترتیبی

8-3-3- خوشه بندی

8-4- کاربردهای کاوش استفاده از وب

8-4-1- خصوصی سازی محتوای وب

8-4-2- پیش بازیابی

8-4-3- بهبود طراحی سایت های وب

9- کاربردهای وب کاوی

9-1- تجارت الکترونیکی

9-2- موتورهای جستجو

9-3- حراجی در وب

نتیجه گیری

فهرست منابع


خرید و دانلود پروژه وب کاوی

تحقیق زمانبندی گراف وظایف با هدف دستیابی به نزدیکترین زمان شروع اجرا برای گره ها

انجام زمانبندی خوب برای برنامه های موازی بهترین و مهمترین راه افزایش سرعت اجرا در سیستم های موازی می باشد. ازاین رو تلا ش های زیادی برای طراحی الگوریتمهای زمانبندی مناسب انجام شده است . در این مقاله الگوریتمی برای زمانبندی برنامه های موازی روی سیستم های چند کامپیوتری با تعداد نامحدود پردازنده ی همسان که در یک شبکه به طور کامل با هم ارتباط دارند، ارائه شده است . الگوریتم پیشنهادی از نوع الگوریتم های خوشه بندی بوده و با هدف جلو کشیدن زمان شروع اجرای گره های گراف وظایف به توزیع گره ها در بین خوشه ها می پردازد. این الگوریتم در مسیر رسیدن به جواب ، تمام جوانب را در نظر گرفته و درمقایسه با الگوریتم های دیگر توازن بهتری بین جنبه های مختلف یک الگوریتم زمانبندی برقرار نموده است.

سیستم های موازی با هدف افزایش کاریی و بالا بردن سرعت درانجام محاسبات پیچیده روی داده های زیاد به وجود آمده اند. در این سیستم ها چندین پردازنده همزمان باهم کار پردازش داده ها را انجام1 یا MIMD-DM می دهند. در بین انواع سیستم های موازی مدل سیستم چند کامپیوتری 2 قدرتمندترین مدل کامپیوتر موازی می باشد که بیشترین کاربرد های صنعتی را به خود اختصاص داده .در این مدل هر پردازنده یک حافظه ی محلی مخصوص به خود داردو یک بخش از برنامه ی موازی را روی داده های مربوط به خود اجرا.[ می کند [ 1در سیستم های

و.............. با تخفیف ویژه


خرید و دانلود تحقیق زمانبندی گراف وظایف با هدف دستیابی به نزدیکترین زمان شروع اجرا برای گره ها

تحلیل مشکلات شعب بانک آینده در سراسر کشور با استفاده از روش داده کاوی

عنوان مقاله: تحلیل مشکلات شعب بانک آینده در سراسر کشور با استفاده از روش داده کاوی

قالب بندی: pdf

شرخ مختصر: بسیاری از بانکهای کشور به منظور مدیریت مشکلات و شکایات مشتریان و شعب خود، بخشی از واحد مدیریت ارتباط با مشتریان را به شرکت هایی مانند مراکز تماس ، برون سپاری میکنند. با توجه به اینکه این واحد مهم در خارج از بانکها مدیریت میشود ، لذا تحلیل دادههای آن و ارزیابی عملکرد مراکز تماس از اهمیت بسیاری برخوردار است . از سوی دیگر، بسیاری از بانکها توانایی تحلیل و چگونگی استفاده از الگوهای پنهان موجود در دادهها شعب بانک را براساس ،RFS را ندارند، به همین منظور در این مقاله سعی داریم تا با ارائة مدل میزان S فرکانس یا تعداد مشکلات و F ، به معنای تازگی اعلام مشکل R شباهت فاکتورهای رضایت شعب از مرکز تماس، خوش هبندی کرده و ارتباط میان فاکتورهای موجود با نوع می توان توانایی مرکز تماس را ،S مشکلات اعلام شده را بیابیم. همچنین با بررسی فاکتور برای رفع مشکلات شعب هر خوشه ارزیابی کرد. شعب بر اساس الگوی رفتارشان در چهار خوشة بهینه توزیع شده، نتایج تحلیل شدند و در پایان پیشنهادهایی به منظور بهبود عملکرد مرکز تماس، ارائه شده است.


خرید و دانلود تحلیل مشکلات شعب بانک آینده در سراسر کشور با استفاده از روش داده کاوی