چکیده
در تاریخ در حال توسعه اینترنت، اطلاعات متنی نقش فوق العاده مهمی را بازی می کند. امروزه هنوز هم اطلاعات متنی اساسی ترین و فرم اصلی اطلاعات در اینترنت هستند. بنابراین تقاضای نظارت، مدیریت اطلاعات متنی و استفاده از آن به عنوان منابع با ارزش زیاد، به سرعت در حال افزایش یافتن است. امروزه تجزیه و تحلیل جریان متن دارای اهمیت فراوان است و کاربردهای مختلف از جمله فیلترینگ گروههای خبری، تشخیص و ردیابی موضوع، جریان آهسته متن، شبکه- های حسگر، سازماندهی اسناد و شناسایی کاربر دارد. خوشه بندی یکی از مهم ترین روش های تجزیه و تحلیل جریان متن است. مسئله خوشه بندی جریان متن نسبت به خوشه بندی جریانهای عددی در آغاز راه است و به تازگی مورد توجه محققان بیشتری قرار گرفته است. در این پایان نامه به بررسی الگوریتم های ارائه شده برای خوشه بندی جریانهای داده متنی پرداخته و سیر پیشرفت این الگوریتم ها در راستای افزایش کارایی و بهبود کیفیت خوشه بندی متون بررسی شده است.
تعداد صفحات 93 word
فصل اول. 1
1- 1 مقدمه. 2
1-2 تعریف داده کاوی.. 3
1-3 کاربردهای داده کاوی.. 4
1-4 مراحل داده کاوی.. 5
1- 5 تکنیکها و روشهای داده کاوی.. 6
1-6 مقدمهای بر خوشهبندی.. 7
1-7 کلاستر چیست؟. 10
1-8 انواع کلاسترها 10
1-9 خوشهبندی در مقابل طبقهبندی.. 10
1-10 یادگیری با نظارت در مقابل یادگیری بدوننظارت.. 11
1-11 کاربردها 12
1-12 مسائل درگیر با روشهای خوشهبندی موجود 13
1-13 خوشهبندی در مقابل چندیسازی برداری.. 13
1-14 ویژگی های الگوریتم های خوشه بندی.. 14
1-15 روشهای خوشهبندی.. 14
1-15-1 خوشهبندی انحصاری و خوشهبندی با همپوشی. 15
1-15-1-1 خوشه بندی فازی.. 15
1-15-2 خوشهبندی سلسله مراتبی و خوشهبندی مسطح. 16
1-15-3 روشهای خوشهبندی سلسله مراتبی. 17
1-15-3-1 خوشهبندی با روش Single-Link. 18
1-15-3-2 خوشهبندی با روش Complete-Link. 19
1-15-3-3 خوشهبندی با روش Average-Link. 20
1-15-3-4 خوشهبندی با روش Group Average Link. 21
1-15-3-5 خوشهبندی با روش Median Distance. 22
1-15-3-6 خوشهبندی با روش Ward. 23
1-15-3-7 الگوریتم خوشهبندی پایین به بالای عمومی. 23
1-15-4 روش خوشهبندی K-Means (C-Means یا C-Centeriod) 24
1-15-4-1 مشکلات روش خوشهبندی K-Means. 26
1-15-5 الگوریتم خوشهبندی LBG.. 26
1-15-6 خوشهبندی بر اساس چگالی. 28
1-16 خوشه بندی متن. 34
1-16-1 الگوریتم خوشه بندی Bi-Section-K Means. 35
1-16-2 خوشه بندی مستندات متنی به کمک انتولوژی.. 36
1-16-3 کامپایل کردن دانش پس زمینه درون متن. 37
1-16-4 استراتژی های استفاده از کلمه در مقابل مفهوم 38
1-17 خوشه بندی جریانهای داده 38
1-17-1 الگوریتم های خوشه بندی جریان داده 39
1-17-2 مقایسه الگوریتم های خوشه بندی جریان داده 42
1-18 جریان داده متنی. 43
فصل دوم 45
( بررسی الگوریتم های خوشه بندی جریان های داده متنی) 45
2-1 مقدمه. 46
2-1-1TF-ICF. 47
2-2-2 الگوریتم STREAMING OSKM.. 49
2-2-2-1 K-means کروی انلاین. 49
2-2-2-2 پیاده سازی کارامد oskm.. 50
2-2-2-3 خوشه بندی مقیاس پذیر. 51
2-2-2-4STREAMING OSKM.. 53
2-2-2-5 ارزیابی و مقایسه. 53
2-2-3 الگوریتم OCTS. 53
2-2-3-1 تعاریف اولیه. 54
2-2-3-3 الگوریتم خوشه بندی انلاین OCTS. 59
2-2-3-4 الگوریتم OCTS. 62
2-2-4 ویژگی های Bursty. 66
2-2-4-1 ارائه ویژگی bursty. 69
تعریف6 ویژگی bursty. 69
2-2-5 الگوریتم خوشه بندی جریان متن بر اساس انتخاب ویژگی انطباقی.71
2- طراحی پردازش جریان. 73
1 معایب الگوریتم TSC-AFS. 76
2-3 معیارهای ارزیابی کیفیت خوشه بندی.. 76
فصل سوم : جمع بندی و پیشنهادات.. 78
فهرست منابع. 85
شکل1-2:a) در طبقهبندی با استفاده یک سری اطلاعات اولیه دادهها به دستههای معلومی نسبت داده میشوند.b) در خوشهبندی دادهها با توجه به الگوریتم انتخاب شده به خوشههایی نسبت داده میشوند 15
شکل 1-3 مجموعه داده پروانه ای.. 20
شکل 1-4 : شمایی از روشهای خوشهبندی بالا به پایین و روشهای پایین به بالا. 22
شکل1-5 : شباهت بین دو خوشه در روش.. 23
شکل 1-6: شباهت بین دو خوشه در روش Complete-Linkبرابر است با بیشترین فاصلة بین دادههای دو خوشه. 24
شکل 1-7 : شباهت بین دو خوشه در روش Average-Linkبرابر است با میانگین فاصلة بین دادههای دو خوشه 25
شکل1-8 : شباهت بین دو خوشه در روش Group Average Linkبرابر است با فاصله بین میانگین نقاط دو خوشه 26
شکل (2-1) تفاوت بین خوشه بندی جریان های متنی و سنتی. 51
شکل 2-2 ایجاد مدلVSMایستا از داده خام 72
شکل 2-3 شمایی از ارائه ویژگی bursty. 73
شکل 2-4 الگوریتم TSC-AFS. 79
این تحقیق بصورت PowerPoint و با موضوع مقدمه ای بر داده کاوی انجام گرفته است. برای رشته های مهندسی کامپیوتر و IT مناسب است و در 33 اسلاید کامل می باشد. در ادامه سر تیتر های تحقیق آمده است . این پاورپوینت را می توانید بصورت کامل و آماده تحویل از پایین همین صفحه دانلود نمایید. لازم به توضیح است که فونت های بکار رفته را نیز به همراه فایل دانلود خواهید کرد.
فهرست اسلایدها
چرا داده کاوی- رشد نمایی حجم داده
رشد نمایی حجم داده در سالهای آتی
تاثیرگذارترین تا ده سال آینده
چرا داده کاوی
تعریف داده کاوی
تفاوت داده کاوی و بازیابی داده
تفاوت داده کاوی و آمار
تعریف داده کاوی به صورت جوک
آنچه که داده کاوی نیست
وظایف داده کاوی
فرآیند داده کاوی ( crisp )
چالش های داده کاوی
شبکه اجتماعی و داده کاوی
کاربرد داده کاوی
مثالهایی از کاربردهای داده کاوی
کلان داده
ابزارهای برتر از دیدگاه گارتنر 2014