پروژه پیاده سازی و بررسی روش های متن کاوی پژوهش کامل در حوزه متن کاوی و داده کاوی میباشد و در 2 فصل تنظیم شده است.این پروژه به بررسی روشهای انتخاب ویژگی و روشهاوالگوریتم های فرا اکتشافی پرداخته است.شما میتوانید فهرست مطالب پروژه را در ادامه مشاهده نمایید.
پروژه بصورت فایل قابل ویرایش ورد(WORD) در 75 صفحه برای رشته کامپیوتر و IT در پایین همین صفحه قابل دانلود میباشد. شایسته یادآوری است که پروژه از ابتدا تا پایان ویرایش وتنظیم , سکشن بندی (section) ، نوشتن پاورقی (Footnote) و فهرست گذاری اتوماتیک کامل شده وآماده تحویل یا کپی برداری از مطالب مفید آن است.
رشد فزاینده پایگاه داده ها در زمینه های مختلف از فعالیت انسان باعث شده است که نیاز به ابزارهای قدرتمند جدید، برای تغییر دادن داده به دانش مفید، افزایش یابد. جهت برآوردن این نیاز، محققان به کاوش در زمینه های مختلف برای یافتن روش ها و ایده های مناسب پرداختند. متن کاوی یکی از زمینه های است که به دنبال استخراج اطلاعات مفید، از داده های متنی بدون ساختار، به وسیله شناسایی و اکتشاف الگوها می باشد. ایده اصلی متن کاوی، یافتن قطعات کوچک اطلاعات ازحجم زیاد داده های متنی، بدون نیاز به خواندن تمام آن است. در این مقاله با توجه به اهمیت این روش مختصراً به متن کاوی، زمینه های مرتبط با آن و برخی روش های رایج طبقه بندی و خوشه بندی پرداخته شده است. اگرچه بیان همه روش ها و کاربردها ممکن نیست، اما این پژوهش می تواند دید کلی از متن کاوی را در ذهن خواننده ایجاد کرده و در صورت علاقه برای مطالعه بیشتر، فرد را به منابع مناسب هدایت کند.
واژه های کلیدی: بازیابی اطلاعات، خوشه بندی، طبقه بندی، متن کاوی
فهرست مطالب
1-2- روش های مبتنی بر استخراج ویژگی.. 3
1-4- دسته بندی و تشریح الگوریتم های مختلف انتخاب ویژگی.. 12
1-5- تابع ارزیابی مبتنی بر فاصله - تابع تولید کننده کامل.. 14
1-6- تابع ارزیابی مبتنی بر اطلاعات - تابع تولید کننده مکاشفه ای.. 16
1-7- تابع ارزیابی مبتنی بر اطلاعات - تابع تولید کننده کامل.. 20
1-8- تابع ارزیابی مبتنی بر وابستگی - تابع تولید کننده مکاشفه ای.. 21
1-9- تابع ارزیابی مبتنی بر سازگاری - تابع تولید کننده کامل.. 22
1-10- تابع ارزیابی مبتنی بر سازگاری - تابع تولید کننده تصادفی.. 27
1-11- تابع ارزیابی مبتنی بر خطای طبقه بندی کننده- تابع تولید کننده مکاشفه ای.. 29
1-12- تابع ارزیابی مبتنی بر خطای طبقه بندی کننده - تابع تولید کننده کامل.. 31
1-13- تابع ارزیابی مبتنی بر خطای طبقه بندی کننده - تابع تولید کننده تصادفی.. 31
1-14- جمع بندی روش های انتخاب ویژگی.. 34
بررسی روشهاوالگوریتم های فرا اکتشافی
2-3- انواع الگوریتمهای مکاشفهای.. 36
2-4- پیادهسازی الگوریتم های فرا اکتشافی.. 38
2-5- ویژگی های مشترک روش های فرا اکتشافی.. 38
2-6- دستهبندی الگوریتمهای فرا اکتشافی.. 39
2-7- الگوریتم ژنتیک (Genetic Algorithm)40
2-8- روش های پیاده سازی عملگر ترکیب... 47
2-10- الگوریتم ژنتیک برای انتخاب ویژگی.. 51
2-11- الگوریتم بهینه سازی جمعیت مورچگان (ACO)53
2-12- الگوریتم ACO برای انتخاب ویژگی.. 56
2-13- الگوریتم بهینه سازی انبوه ذرات (PSO)57
2-14- الگوریتم PSO برای انتخاب ویژگی.. 58
2-15- الگوریتم جستجوی ممنوعه 62
2-16- استراتژیهای پیشرفته جستجوی ممنوعه. 63
2-17- حافظه ها در جستجوی ممنوعه. 64
2-18- الگوریتم جستجوی ممنوعه برای انتخاب ویژگی.. 65
فهرست شکل ها
شکل1-1 فرایند انتخاب ویژگی.. 6
شکل 1-2 مقایسه توابع ارزیابی مختلف... 11
شکل 1-4 الگوریتم Branch and Bound. 16
شکل 1-5 الگوریتم درخت تصمیم.. 18
شکل 1-6 مثالی از گراف Bayesian Network. 20
شکل 1-7 الگوریتم روش MDLM... 21
شکل 1-9 الگوریتم روش Focus. 23
شکل 1-10 الگوریتمی دیگر از روش Focus. 24
شکل 1-12 کلاسهای مورد بررسی در الگوریتم Focus. 25
شکل 1-13 روند الگوریتم Focus. 26
شکل 1-14 حل ناسازگاری در الگوریتم Focus. 26
شکل 1-16 طبقهبندی روشهای مختلف انتخاب ویژگی.. 33
شکل 2-1 بهینه محلی و بهینه کلی.. 42
شکل 2-6 چگونگی ترکیب تک نقطه ای.. 47
شکل2-8 چگونگی ترکیب دو نقطهای.. 48
شکل 2-10 چگونگی ترکیب یکنواخت... 48
شکل 2-11 چگونگی ترکیب یکنواخت... 49
شکل 2- 13 مرحله اول پیاده کردن کوتاه ترین مسیر. 53
شکل 2- 14 مرحله دوم پیاده کردن کوتاه ترین مسیر. 53
شکل 2- 15 مرحله سوم پیاده کردن کوتاه ترین مسیر. 53
شکل 2- 16 مرحله چهارم پیاده کردن کوتاه ترین مسیر. 53
چکیده
در این مطالعه ، 5 روش کلاسه بندی متداول ، درخت تصمیم ، بیزین ، k نزدیکترین همسایه ، شبکه های عصبی و ماشین بردار پشتیبان بر روی شش مجموعه ی داده ی پزشکی سرطان سینه ، هپاتیت ، تیروئید ، دیابت ، تومور اولیه و بیماری قلبی مورد تست و ارزیابی قرار گرفتند.معیار ارزیابی میزان دقت هر روش بوده و برای تست هر روش از نرم افزار weka با مقادیر پیش فرض استفاده گردید.نتایج حاصله نشان می دهد .که اگر چه بعضی از کلاسه بندی ها نسبت به بقیه بهتر عمل می کنند ولی بطور کلی هیچ روش کلاسه بندی وجود ندارد که روی تمام مجموعه داده های مذکور از دقت بهتری برخوردار باشد و برای هر مجموعه داده یک روش کلاسه بندی خاص نسبت به سایر روش ها از دقت مطلوبی برخوردار می باشد.
مقدمه
استفاده از داده کاوی در پزشکی یکی از زمینه های پرکاربرد داده کاوی محسوب می شود که در سال های اخیر تحقیقات و مطالعات زیادی پیرامون ان انجام شده است. دسته مهمی از مسائل در علم پزشکی مربوط به تشخیص بیماری ها می باشد که بر اساس ازمایشات مختلف بر روی بیمار انجام می گیرد. هنگامی که تعداد پارامترها در تشخیص بیماری زیاد شود ممکن است تشخیص بیماری حتی برای یک متخصص خبره پزشکی نیز به سختی امکانپذیر باشد. همین دلیل موجب شده است که در چند دهه اخیر ابزار تشخیص کامپیوتری با هدف کمک به پزشک مورد استفاده قرار گیرد تا به نحوی بی نظمی را از داده ها خارج کند.
در این پژوهش 5 روش متداول کلاسه بندی بر روی شش مجموعه داده ی پزشکی مورد تست و ارزیابی قرار می گیرد.معیار ارزیابی روش های کلاسه بندی میزان دقت هر روش می باشد.در تست روش ها از نرم افزار داده کاوی weka با مقادیر پیش فرض برای هر الگوریتم استفاده می گردد.
تعداد صفحات 82 word
فهرست مطالب
فصل یکم مفاهیم داده کاوی.. 1
مقدمه. 2
1-1- مروری بر کشف دانش و داده کاوی.. 3
1-2 عوامل پیدایش داده کاوی.. 4
1-3 مراحل کشف دانش.... 7
1-3-1 استخراج داده ها 8
1-3-2 اماده کردن داده ها 9
1-3-3 مهندسی الگوریتم و تعیین استراتژ ی های کاوش... 10
1-3-3 اجرای الگوریتم کاوش و ارزیابی نتایج.. 11
1-4 جایگاه داده کاوی در میان علوم مختلف... 15
1-5 داده کاوی چه کارهایی نمی تواند انجام دهد. 17
1-6 داده کاوی و انباره داده ها 18
1-7 داده کاوی و OLAP. 20
1-8 کاربرد یادگیری ماشین و امار در داده کاوی.. 21
1-9 روش های یادگیری.. 22
1-10 روش های کاوش... 23
فصل دوم کلاسه بندی و پیشگویی.. 25
2-1 کلاسه بندی.. 26
2-2 انواع روش های کلاسه بندی.. 30
2-3 ارزیابی روش های کلاسه بندی.. 31
فصل سوم تکنیک های کلاسه بندی معروف.. 33
3-1 درخت تصمیم.. 34
3-2 بیزین.. 35
3-2-1 تئوری بیز. 36
3-2-2 نحوه کلاسه بندی به روش بیز ساده. 37
3-3 روش کلاسه بندی نزدیکترین k- همسایه. 41
3-4 روش کلاسه بندی شبکه های عصبی.. 43
3-5 روش کلاسه بندی ماشین بردار پشتیبان.. 50
فصل چهارم مقایسه و ارزیابی تکنیک های کلاسه بندی.. 52
4-1 مجموعه داده های مورد استفاده. 53
4-1-1 مجموعه داده سرطان سینه Wisconsin. 53
4-1-2 مجموعه داده هپاتیت... 54
4-1-3 مجموعه داده هیپوتیروئید( پرکاری تیروئید) 54
4-1-4 مجموعه داده دیابت... 55
4-1-5 مجموعه داده تومور اولیه. 55
4-1-6 مجموعه داده بیماری قلبی.. 56
4-2 نرم افزار Weka. 56
4-2-1 معرفی نرم افزار weka. 57
4-3 تست روشها 59
فصل پنجم نتیجه گیری.. 62
نتیجه. 63
پیوست... 64
پیوست الف - اموزش نرم افزار weka. 64
یوست ب- روش ارزیابی k- تکه برابر. 71
منابع.. 72
فهرست اشکال
شکل 1-1-داده کاوی به عنوان یک مرحله از فرایند کشف دانش.... 4
شکل1-2-سیر تکاملی صنعت پایگاه داده. 5
شکل 1-3-معماری یک نمونه از سیستم داده کاوی.. 13
شکل 1-4-استخراج داده ها از انبار داده ها 19
شکل 1-5-استخراج داده ها از چند پایگاه داده. 19
شکل 1-6- انواع یادگیری استنتاجی.. 22
شکل 2-1-مثالی از فرایند دو مرحله ای کلاسه بندی.. 28
شکل 2-2-عملکرد کلاسه بندی.. 29
شکل 3-1-نمونه ای از یک درخت تصمیم.. 34
شکل 3-3- شبکه عصبی با یک لایه نهان.. 44
شکل 3-4- الگوریتم Backpropagation. 45
شکل 3-5- یک گره در لایه نهان یا خروجی.. 46
شکل 3-6-مثالی از کلاسه بندی SVM... 51
چکیده:
در دو دهه قبل تواناییهای فنی بشر برای تولید و جمعآوری دادهها به سرعت افزایش یافته است. عواملی نظیر استفاده گسترده از بارکد برای تولیدات تجاری، به خدمت گرفتن کامپیوتر در کسبوکار، علوم، خدمات دولتی و پیشرفت در وسائل جمعآوری داده، از اسکن کردن متون و تصاویر تا سیستمهای سنجش از دور ماهوارهای، در این تغییرات نقش مهمی دارند.
بطور کلی استفاده همگانی از وب و اینترنت به عنوان یک سیستم اطلاع رسانی جهانی ما را مواجه با حجم زیادی از داده و اطلاعات میکند. این رشد انفجاری در دادههای ذخیره شده، نیاز مبرم وجود تکنولوژیهای جدید و ابزارهای خودکاری را ایجاد کرده که به صورت هوشمند به انسان یاری رسانند تا این حجم زیاد داده را به اطلاعات و دانش تبدیل کند. دادهکاوی به عنوان یک راه حل برای این مسائل مطرح می باشد. در یک تعریف غیر رسمی دادهکاوی فرآیندی است، خودکار برای استخراج الگوهایی که دانش را بازنمایی میکنند، که این دانش به صورت ضمنی در پایگاه دادههای عظیم، انبارهداده و دیگر مخازن بزرگ اطلاعات، ذخیره شده است.
به لحاظ اینکه در چند سال اخیر مبحث دادهکاوی و اکتشاف دانش موضوع بسیاری از مقالات و کنفرانسها قرار گرفته و نرمافزارهای آن در بازار به شدت مورد توجه قرار گرفته، از اینرو در مقاله سعی بر آن شده تا گذری بر آن داشته باشیم.
در این مقاله درفصل مروری بر دادهکاوی خواهیم داشت . که به طور عمده به تاریخچه ، تعاریف، کاربردها وارتباط آن با انبار داده و OLAP خواهیم پرداخت. در پایان فصل مراحل فرایند کشف دانش از پایگاه دادهها را ذکر کردیم که دادهکاوی یکی از مراحل آن است.
در فصل 2 یکی از شیوههای دادهکاوی که از سبد خرید گرفته شده است توضیح داده شده است . در این فصل به شرح قوانین ارتباطی خواهیم پرداخت که در آن بعد از دستهبندی الگوریتمها ، الگوریتم Apriori ( که یک الگوریتم پایه در این زمینه است ) و الگوریتم FP-Growth ( یک الگوریتم جدید میباشد) را با شرح یک مثال توضیح میدهیم و در آخر آن دو را با هم مقایسه میکنیم .
در فصل 3 مباحث وبکاوی و متنکاوی را که در بسیاری از مراجع جزء کاربردهای دادهکاوی به حساب میآید شرح داده خواهد شد.