پروژه پیاده سازی و بررسی روش های متن کاوی

پروژه پیاده سازی و بررسی روش های متن کاوی پژوهش کامل در حوزه  متن کاوی و داده کاوی میباشد و در 2 فصل تنظیم شده است.این پروژه به بررسی روشهای انتخاب ویژگی و روشهاوالگوریتم های فرا اکتشافی پرداخته است.شما میتوانید فهرست مطالب پروژه را در ادامه مشاهده نمایید.

پروژه بصورت فایل قابل ویرایش ورد(WORD) در 75 صفحه برای رشته کامپیوتر و IT در پایین همین صفحه قابل دانلود میباشد. شایسته یادآوری است که پروژه از ابتدا تا پایان ویرایش وتنظیم , سکشن بندی (section) ، نوشتن پاورقی (Footnote) و فهرست گذاری اتوماتیک کامل شده وآماده تحویل یا کپی برداری از مطالب مفید آن است.

چکیده

رشد فزاینده پایگاه داده ها در زمینه های مختلف از فعالیت انسان باعث شده است که نیاز به ابزارهای قدرتمند جدید، برای تغییر دادن داده به دانش مفید، افزایش یابد. جهت برآوردن این نیاز، محققان به کاوش در زمینه های مختلف برای یافتن روش ها و ایده های مناسب پرداختند. متن کاوی یکی از زمینه های است که به دنبال استخراج اطلاعات مفید، از داده های متنی بدون ساختار، به وسیله شناسایی و اکتشاف الگوها می باشد. ایده اصلی متن کاوی، یافتن قطعات کوچک اطلاعات ازحجم زیاد داده های متنی، بدون نیاز به خواندن تمام آن است. در این مقاله با توجه به اهمیت این روش مختصراً به متن کاوی، زمینه های مرتبط با آن و برخی روش های رایج طبقه بندی و خوشه بندی پرداخته شده است. اگرچه بیان همه روش ها و کاربردها ممکن نیست، اما این پژوهش می تواند دید کلی از متن کاوی را در ذهن خواننده ایجاد کرده و در صورت علاقه برای مطالعه بیشتر، فرد را به منابع مناسب هدایت کند.

واژه های کلیدی: بازیابی اطلاعات، خوشه بندی، طبقه بندی، متن کاوی

فهرست مطالب

فصل اول

بررسی روشهای انتخاب ویژگی

1-1- مقدمه. 2

1-2- روش های مبتنی بر استخراج ویژگی.. 3

1-3- روش های انتخاب ویژگی.. 4

1-4- دسته بندی و تشریح الگوریتم های مختلف انتخاب ویژگی.. 12

1-5- تابع ارزیابی مبتنی بر فاصله - تابع تولید کننده کامل.. 14

1-6- تابع ارزیابی مبتنی بر اطلاعات - تابع تولید کننده مکاشفه ای.. 16

1-7- تابع ارزیابی مبتنی بر اطلاعات - تابع تولید کننده کامل.. 20

1-8- تابع ارزیابی مبتنی بر وابستگی - تابع تولید کننده مکاشفه ای.. 21

1-9- تابع ارزیابی مبتنی بر سازگاری - تابع تولید کننده کامل.. 22

1-10- تابع ارزیابی مبتنی بر سازگاری - تابع تولید کننده تصادفی.. 27

1-11- تابع ارزیابی مبتنی بر خطای طبقه بندی کننده- تابع تولید کننده مکاشفه ای.. 29

1-12- تابع ارزیابی مبتنی بر خطای طبقه بندی کننده - تابع تولید کننده کامل.. 31

1-13- تابع ارزیابی مبتنی بر خطای طبقه بندی کننده - تابع تولید کننده تصادفی.. 31

1-14- جمع بندی روش های انتخاب ویژگی.. 34

فصل دوم

بررسی روشهاوالگوریتم های فرا اکتشافی

2-1- روش های فرا اکتشافی.. 35

2-2- روش های مکاشفه ای.. 35

2-3- انواع الگوریتم‌های مکاشفه‌ای.. 36

2-4- پیاده‌سازی الگوریتم های فرا اکتشافی.. 38

2-5- ویژگی های مشترک روش های فرا اکتشافی.. 38

2-6- دسته‌بندی الگوریتم‌های فرا اکتشافی.. 39

2-7- الگوریتم ژنتیک (Genetic Algorithm)40

2-8- روش های پیاده سازی عملگر ترکیب... 47

2-9- انواع روش های جهش.... 50

2-10- الگوریتم ژنتیک برای انتخاب ویژگی.. 51

2-11- الگوریتم بهینه سازی جمعیت مورچگان (ACO)53

2-12- الگوریتم ACO برای انتخاب ویژگی.. 56

2-13- الگوریتم بهینه سازی انبوه ذرات (PSO)57

2-14- الگوریتم PSO برای انتخاب ویژگی.. 58

2-15- الگوریتم جستجوی ممنوعه 62

2-16- استراتژی‌های پیشرفته‌ جستجوی ممنوعه. 63

2-17- حافظه ها در جستجوی ممنوعه. 64

2-18- الگوریتم جستجوی ممنوعه برای انتخاب ویژگی.. 65

فهرست منابع و مراجع.. 68

 

فهرست شکل ها

شکل1-1 فرایند انتخاب ویژگی.. 6

شکل 1-2 مقایسه توابع ارزیابی مختلف... 11

شکل 1-3 الگوریتم Relief. 13

شکل 1-4 الگوریتم Branch and Bound. 16

شکل 1-5 الگوریتم درخت تصمیم.. 18

شکل 1-6 مثالی از گراف Bayesian Network. 20

شکل 1-7 الگوریتم روش MDLM... 21

شکل 1-8 الگوریتم (POE1ACC)22

شکل 1-9 الگوریتم روش Focus. 23

شکل 1-10 الگوریتمی دیگر از روش Focus. 24

شکل 1-11 الگوریتم Focus-2. 24

شکل 1-12 کلاسهای مورد بررسی در الگوریتم Focus. 25

شکل 1-13 روند الگوریتم Focus. 26

شکل 1-14 حل ناسازگاری در الگوریتم Focus. 26

شکل 1-15 الگوریتم روش LVF. 28

شکل 1-16 طبقهبندی روشهای مختلف انتخاب ویژگی.. 33

شکل 2-1 بهینه محلی و بهینه کلی.. 42

شکل 2-2 کدینگ باینری.. 44

شکل 2-3 کدینگ جهشی.. 44

شکل 2-4 کدینگ ارزشی.. 45

شکل 2-5 کدینگ درختی.. 45

شکل 2-6 چگونگی ترکیب تک نقطه ای.. 47

شکل 2-7 ترکیب تک نقطهای.. 47

شکل2-8 چگونگی ترکیب دو نقطهای.. 48

شکل 2-9 ترکیب دو نقطهای.. 48

شکل 2-10 چگونگی ترکیب یکنواخت... 48

شکل 2-11 چگونگی ترکیب یکنواخت... 49

شکل 2-12 جهش باینری.. 50

شکل 2- 13 مرحله اول پیاده کردن کوتاه ترین مسیر. 53

شکل 2- 14 مرحله دوم پیاده کردن کوتاه ترین مسیر. 53

شکل 2- 15 مرحله سوم پیاده کردن کوتاه ترین مسیر. 53

شکل 2- 16 مرحله چهارم پیاده کردن کوتاه ترین مسیر. 53

شکل 2-17 فرایند انتخاب ویژگی در ACO.. 55

شکل 2-18 نمودار جریان الگوریتم جستجوی ممنوعه. 64


خرید و دانلود پروژه پیاده سازی و بررسی روش های متن کاوی

مقایسه دقت تکنیکهای کلاسه بندی در داده کاوی با استفاده از دیتاست پزشکی

چکیده

در این مطالعه ، 5 روش کلاسه بندی متداول ، درخت تصمیم ، بیزین ، k نزدیکترین همسایه ، شبکه های عصبی و ماشین بردار پشتیبان بر روی شش مجموعه ی داده ی پزشکی سرطان سینه ، هپاتیت ، تیروئید ، دیابت ، تومور اولیه و بیماری قلبی مورد تست و ارزیابی قرار گرفتند.معیار ارزیابی میزان دقت هر روش بوده و برای تست هر روش از نرم افزار weka با مقادیر پیش فرض استفاده گردید.نتایج حاصله نشان می دهد .که اگر چه بعضی از کلاسه بندی ها نسبت به بقیه بهتر عمل می کنند ولی بطور کلی هیچ روش کلاسه بندی وجود ندارد که روی تمام مجموعه داده های مذکور از دقت بهتری برخوردار باشد و برای هر مجموعه داده یک روش کلاسه بندی خاص نسبت به سایر روش ها از دقت مطلوبی برخوردار می باشد.

مقدمه

استفاده از داده کاوی در پزشکی یکی از زمینه های پرکاربرد داده کاوی محسوب می شود که در سال های اخیر تحقیقات و مطالعات زیادی پیرامون ان انجام شده است. دسته مهمی از مسائل در علم پزشکی مربوط به تشخیص بیماری ها می باشد که بر اساس ازمایشات مختلف بر روی بیمار انجام می گیرد. هنگامی که تعداد پارامترها در تشخیص بیماری زیاد شود ممکن است تشخیص بیماری حتی برای یک متخصص خبره پزشکی نیز به سختی امکانپذیر باشد. همین دلیل موجب شده است که در چند دهه اخیر ابزار تشخیص کامپیوتری با هدف کمک به پزشک مورد استفاده قرار گیرد تا به نحوی بی نظمی را از داده ها خارج کند.

در این پژوهش 5 روش متداول کلاسه بندی بر روی شش مجموعه داده ی پزشکی مورد تست و ارزیابی قرار می گیرد.معیار ارزیابی روش های کلاسه بندی میزان دقت هر روش می باشد.در تست روش ها از نرم افزار داده کاوی weka با مقادیر پیش فرض برای هر الگوریتم استفاده می گردد.

 

تعداد صفحات 82 word 

 

فهرست مطالب

فصل یکم مفاهیم داده کاوی.. 1

مقدمه. 2

1-1- مروری بر کشف دانش و داده کاوی.. 3

1-2 عوامل پیدایش داده کاوی.. 4

1-3 مراحل کشف دانش.... 7

1-3-1 استخراج داده ها 8

1-3-2 اماده کردن داده ها 9

1-3-3 مهندسی الگوریتم و تعیین استراتژ ی های کاوش... 10

1-3-3 اجرای الگوریتم کاوش و ارزیابی نتایج.. 11

1-4 جایگاه داده کاوی در میان علوم مختلف... 15

1-5 داده کاوی چه کارهایی نمی تواند انجام دهد. 17

1-6 داده کاوی و انباره داده ها 18

1-7 داده کاوی و OLAP. 20

1-8 کاربرد یادگیری ماشین و امار در داده کاوی.. 21

1-9 روش های یادگیری.. 22

1-10 روش های کاوش... 23

فصل دوم کلاسه بندی و پیشگویی.. 25

2-1 کلاسه بندی.. 26

2-2 انواع روش های کلاسه بندی.. 30

2-3 ارزیابی روش های کلاسه بندی.. 31

فصل سوم تکنیک های کلاسه بندی معروف.. 33

3-1 درخت تصمیم.. 34

3-2 بیزین.. 35

3-2-1 تئوری بیز. 36

3-2-2 نحوه کلاسه بندی به روش بیز ساده. 37

3-3 روش کلاسه بندی نزدیکترین k- همسایه. 41

3-4 روش کلاسه بندی شبکه های عصبی.. 43

3-5 روش کلاسه بندی ماشین بردار پشتیبان.. 50

فصل چهارم مقایسه و ارزیابی تکنیک های کلاسه بندی.. 52

4-1 مجموعه داده های مورد استفاده. 53

4-1-1 مجموعه داده سرطان سینه Wisconsin. 53

4-1-2 مجموعه داده هپاتیت... 54

4-1-3 مجموعه داده هیپوتیروئید( پرکاری تیروئید) 54

4-1-4 مجموعه داده دیابت... 55

4-1-5 مجموعه داده تومور اولیه. 55

4-1-6 مجموعه داده بیماری قلبی.. 56

4-2 نرم افزار Weka. 56

4-2-1 معرفی نرم افزار weka. 57

4-3 تست روشها 59

فصل پنجم نتیجه گیری.. 62

نتیجه. 63

پیوست... 64

پیوست الف - اموزش نرم افزار weka. 64

یوست ب- روش ارزیابی k- تکه برابر. 71

منابع.. 72

 

فهرست اشکال

شکل 1-1-داده کاوی به عنوان یک مرحله از فرایند کشف دانش.... 4

شکل1-2-سیر تکاملی صنعت پایگاه داده. 5

شکل 1-3-معماری یک نمونه از سیستم داده کاوی.. 13

شکل 1-4-استخراج داده ها از انبار داده ها 19

شکل 1-5-استخراج داده ها از چند پایگاه داده. 19

شکل 1-6- انواع یادگیری استنتاجی.. 22

شکل 2-1-مثالی از فرایند دو مرحله ای کلاسه بندی.. 28

شکل 2-2-عملکرد کلاسه بندی.. 29

شکل 3-1-نمونه ای از یک درخت تصمیم.. 34

شکل 3-3- شبکه عصبی با یک لایه نهان.. 44

شکل 3-4- الگوریتم Backpropagation. 45

شکل 3-5- یک گره در لایه نهان یا خروجی.. 46

شکل 3-6-مثالی از کلاسه بندی SVM... 51


خرید و دانلود مقایسه دقت تکنیکهای کلاسه بندی در داده کاوی با استفاده از دیتاست پزشکی

پایان نامه داده کاوی Data Mining

چکیده:

در دو دهه قبل توانایی­های فنی بشر برای تولید و جمع­آوری داده‌ها به سرعت افزایش یافته است. عواملی نظیر استفاده گسترده از بارکد برای تولیدات تجاری، به خدمت گرفتن کامپیوتر در کسب­و­کار، علوم، خدمات­ دولتی و پیشرفت در وسائل جمع­آوری داده، از اسکن کردن متون و تصاویر تا سیستمهای سنجش از دور ماهواره­ای، در این تغییرات نقش مهمی دارند.

بطور کلی استفاده همگانی از وب و اینترنت به عنوان یک سیستم اطلاع رسانی جهانی ما را مواجه با حجم زیادی از داده و اطلاعات می‌کند. این رشد انفجاری در داده‌های ذخیره شده، نیاز مبرم وجود تکنولوژی­های جدید و ابزارهای خودکاری را ایجاد کرده که به صورت هوشمند به انسان یاری رسانند تا این حجم زیاد داده را به اطلاعات و دانش تبدیل کند. داده­کاوی به عنوان یک راه حل برای این مسائل مطرح می باشد. در یک تعریف غیر رسمی داده­کاوی فرآیندی است، خودکار برای استخراج الگوهایی که دانش را بازنمایی می­کنند، که این دانش به صورت ضمنی در پایگاه داده­های عظیم، انباره­داده و دیگر مخازن بزرگ اطلاعات، ذخیره شده است.

به لحاظ اینکه در چند سال اخیر مبحث داده­کاوی و اکتشاف دانش موضوع بسیاری از مقالات و کنفرانسها قرار گرفته و نرم­افزار­های آن در بازار به شدت مورد توجه قرار گرفته، از اینرو در مقاله سعی بر آن شده تا گذری بر آن داشته باشیم.

در این مقاله درفصل مروری بر داده­کاوی خواهیم داشت . که به طور عمده به تاریخچه ، تعاریف، کاربردها وارتباط آن با انبار داده و OLAP خواهیم پرداخت. در پایان فصل مراحل فرایند کشف دانش از پایگاه داده­ها را ذکر کردیم که داده­کاوی یکی از مراحل آن است.

در فصل 2 یکی از شیوه­های داده­کاوی که از سبد خرید گرفته شده­ است توضیح داده شده است . در این فصل به شرح قوانین ارتباطی خواهیم پرداخت که در آن بعد از دسته­بندی الگوریتمها ، الگوریتم Apriori ( که یک الگوریتم پایه در این زمینه است ) و الگوریتم FP-Growth ( یک الگوریتم جدید میباشد) را با شرح یک مثال توضیح می­دهیم و در آخر آن دو را با هم مقایسه می­کنیم .

در فصل 3 مباحث وب­کاوی و متن­کاوی را که در بسیاری از مراجع جزء کاربردهای داده­کاوی به حساب می­آید شرح داده خواهد شد.