پروژه مقایسه دقت تکنیکهای کلاسه بندی در داده کاوی با استفاده از دیتاست پزشکی پژوهش کامل در حوزه کامپیوتر و پزشکی میباشد و در 5 فصل تنظیم شده است.این پروژه با معرفی داده کاوی به تکنیک های کلاسه بندی در داده کاوی پرداخته است.شما میتوانید فهرست مطالب پروژه را در ادامه مشاهده نمایید.
پروژه بصورت فایل قابل ویرایش ورد(WORD) در 57 صفحه برای رشته کامپیوتر و IT در پایین همین صفحه قابل دانلود میباشد. شایسته یادآوری است که پروژه از ابتدا تا پایان ویرایش وتنظیم , سکشن بندی (section) ، نوشتن پاورقی (Footnote) و فهرست گذاری اتوماتیک کامل شده وآماده تحویل یا کپی برداری از مطالب مفید آن است.
در این مطالعه ، 5 روش کلاسه بندی متداول ، درخت تصمیم ، بیزین ، نزدیکترین همسایه ، شبکه های عصبی و ماشین بردار پشتیبان بر روی شش مجموعه ی داده ی پزشکی سرطان سینه ، هپاتیت ، تیروئید ، دیابت ، تومور اولیه و بیماری قلبی مورد تست و ارزیابی قرار گرفتند.معیار ارزیابی میزان دقت هر روش بوده و برای تست هر روش از نرم افزار weka با مقادیر پیش فرض استفاده گردید.نتایج حاصله نشان می دهد .که اگر چه بعضی از کلاسه بندی ها نسبت به بقیه بهتر عمل می کنند ولی بطور کلی هیچ روش کلاسه بندی وجود ندارد که روی تمام مجموعه داده های مذکور از دقت بهتری برخوردار باشد و برای هر مجموعه داده یک روش کلاسه بندی خاص نسبت به سایر روش ها از دقت مطلوبی برخوردار می باشد.
واژه های کلیدی:
داده کاوی ، کلاسه بندی ، داده کاوی پزشکی ، الگوریتم های کلاسه بندی ، کشف دانش ،استخراج دانش ،نرم افزار weka ، Data mining ، classification
فهرست مطالب
1-1- مروری بر کشف دانش و داده کاوی.. 4
1-2 عوامل پیدایش داده کاوی.. 5
1-3-3 مهندسی الگوریتم و تعیین استراتژ ی های کاوش... 9
1-3-3 اجرای الگوریتم کاوش و ارزیابی نتایج.. 10
1-4 جایگاه داده کاوی در میان علوم مختلف... 12
1-5 داده کاوی چه کارهایی نمی تواند انجام دهد. 13
1-6 داده کاوی و انباره داده ها13
1-8 کاربرد یادگیری ماشین و امار در داده کاوی.. 15
2-2 انواع روش های کلاسه بندی.. 21
2-3 ارزیابی روش های کلاسه بندی.. 22
فصل سوم تکنیک های کلاسه بندی معروف
3-2-2 نحوه کلاسه بندی به روش بیز ساده. 25
3-3 روش کلاسه بندی نزدیکترین k- همسایه. 27
3-4 روش کلاسه بندی شبکه های عصبی.. 29
3-5 روش کلاسه بندی ماشین بردار پشتیبان.. 32
فصل چهارم مقایسه و ارزیابی تکنیک های کلاسه بندی
4-1 مجموعه داده های مورد استفاده. 35
4-1-1 مجموعه داده سرطان سینه. 35
4-1-2 مجموعه داده هپاتیت... 35
4-1-3 مجموعه داده هیپوتیروئید. 35
4-1-5 مجموعه داده تومور اولیه. 36
4-1-6 مجموعه داده بیماری قلبی.. 36
4-2-1 معرفی نرم افزار weka. 37
فصل پنجم نتیجه گیری
پیوست ب- روش ارزیابی k- تکه برابر. 45
فهرست شکل ها
شکل 1-1-داده کاوی به عنوان یک مرحله از فرایند کشف دانش... 5
شکل1-2-سیر تکاملی صنعت پایگاه داده6
شکل 1-3-معماری یک نمونه از سیستم داده کاوی. 10
شکل 1-4-استخراج داده ها از انبار داده ها14
شکل 1-5-استخراج داده ها از چند پایگاه داده14
شکل 1-6- انواع یادگیری استنتاجی. 16
شکل 2-1-مثالی از فرایند دو مرحله ای کلاسه بندی. 20
شکل 3-1-نمونه ای از یک درخت تصمیم. 24
شکل 3-3- شبکه عصبی با یک لایه نهان. 29
شکل 3-4- الگوریتم Backpropagation. 30
شکل 3-5- یک گره در لایه نهان یا خروجی. 30
شکل 3-6-مثالی از کلاسه بندی SVM.. 33
جدول4-1–تست روش نزدیکترین Kهمسایه به ازای مقادیر مختلف K.. 38
جدول4-2 –درصد میزان دقت روشهای کلاسه بندی تست شده بر روی مجموعه داده ها39
شکل 1- weka در وضعیت انتخاب واسط.. 42
شکل 2- نمایی از Weka Explorer43
شکل 3 –پنجره ی weka explorer پس از انتخاب مجموعه داده43
شکل 4- انتخاب الگوریتم کلاسه بندی. 44
شکل 5-نمایی از پنجره weka Explorer پس از انتخاب یکی از الگوریتم های کلاسه بندی. 44
شکل 6- پارامتر های پیش فرض در نرم افزار weka. 45
شکل 7-نتایج حاصل از تست مجموعه داده در قسمت classifier output45
چکیده:
در دو دهه قبل تواناییهای فنی بشر برای تولید و جمعآوری دادهها به سرعت افزایش یافته است. عواملی نظیر استفاده گسترده از بارکد برای تولیدات تجاری، به خدمت گرفتن کامپیوتر در کسبوکار، علوم، خدمات دولتی و پیشرفت در وسائل جمعآوری داده، از اسکن کردن متون و تصاویر تا سیستمهای سنجش از دور ماهوارهای، در این تغییرات نقش مهمی دارند.
بطور کلی استفاده همگانی از وب و اینترنت به عنوان یک سیستم اطلاع رسانی جهانی ما را مواجه با حجم زیادی از داده و اطلاعات میکند. این رشد انفجاری در دادههای ذخیره شده، نیاز مبرم وجود تکنولوژیهای جدید و ابزارهای خودکاری را ایجاد کرده که به صورت هوشمند به انسان یاری رسانند تا این حجم زیاد داده را به اطلاعات و دانش تبدیل کند. دادهکاوی به عنوان یک راه حل برای این مسائل مطرح می باشد. در یک تعریف غیر رسمی دادهکاوی فرآیندی است، خودکار برای استخراج الگوهایی که دانش را بازنمایی میکنند، که این دانش به صورت ضمنی در پایگاه دادههای عظیم، انبارهداده و دیگر مخازن بزرگ اطلاعات، ذخیره شده است.
به لحاظ اینکه در چند سال اخیر مبحث دادهکاوی و اکتشاف دانش موضوع بسیاری از مقالات و کنفرانسها قرار گرفته و نرمافزارهای آن در بازار به شدت مورد توجه قرار گرفته، از اینرو در مقاله سعی بر آن شده تا گذری بر آن داشته باشیم.
در این مقاله درفصل مروری بر دادهکاوی خواهیم داشت . که به طور عمده به تاریخچه ، تعاریف، کاربردها وارتباط آن با انبار داده و OLAP خواهیم پرداخت. در پایان فصل مراحل فرایند کشف دانش از پایگاه دادهها را ذکر کردیم که دادهکاوی یکی از مراحل آن است.
در فصل 2 یکی از شیوههای دادهکاوی که از سبد خرید گرفته شده است توضیح داده شده است . در این فصل به شرح قوانین ارتباطی خواهیم پرداخت که در آن بعد از دستهبندی الگوریتمها ، الگوریتم Apriori ( که یک الگوریتم پایه در این زمینه است ) و الگوریتم FP-Growth ( یک الگوریتم جدید میباشد) را با شرح یک مثال توضیح میدهیم و در آخر آن دو را با هم مقایسه میکنیم .
در فصل 3 مباحث وبکاوی و متنکاوی را که در بسیاری از مراجع جزء کاربردهای دادهکاوی به حساب میآید شرح داده خواهد شد.