عنوان پروژه: بررسی معماری جویشگر google
درس: پایگاه داده پیشرفته
قالب بندی:word
تعداد صفحات: 37
قسمتی از متن:
پیدایش وب، چالشهای جدیدی را برای بازیابی اطلاعات بوجود آورده است. میزان اطلاعات عرضه شده در وب بسیار زیاد است و این مقدار با روند فزایندهای درحال افزایش است. از سوی دیگر تعداد کاربران وب و بهطبع آن، تعداد کاربران غیر حرفهای نیز درحال افزایش است. اغلب کاربران تمایل به پیمایش وب از طریق ساختار پیوندی[1] آن بکمک جویشگرها یا نمایه[2]های تولید شده توسط متخصصین نظیر Yahoo Directory هستند. البته شایان ذکر است که تولید لیستها یا نمایههای دستی از اطلاعات وب، دارای مشکلات متعددی از جمله هزینهبر بودن در مراحل تولید و بهنگامسازی، کندی ایجاد و نیز وابستگی به علایق و نظرات تولیدکنندگان در طبقهبندی اطلاعات هستند و در عین حال قادر به پوشش همه اطلاعات نیستند. از سوی دیگر جویشگرهایی که بر اساس انطباق کلیدواژه[3]های دریافتی از کاربران عمل میکنند، غالباً عملکرد نامطلوبی دارند و نتایجی با کیفیت بسیار پائین تولید میکنند. ضمناً بایستی توجه داشت که برخی سایتهای تبلیغات که میل به جلب نظر بازدیدکنندگان دارند، میکوشند تا با گمراه کردن جویشگرها، خود را مرتبط با پرسوجوی کاربر نشان دهند. در جویشگر Google کوشیده شده تا با ترکیب اطلاعات متن و پیوند بین صفحات، بر این مشکلات فائق آید. شایان توجه است که اسم این جویشگر بر گرفته شده از کلمه Googol که به معنی «یک عدد یک و صد صفر جلوی آن» است که توسط میلتون سیروتا[4] پسر خواهر ادوارد کاسنر[5] ریاضیدان آمریکایی اختراع شدهاست. این موضوع «یک عدد یک و صد صفر جلوی آن»، نوعی شعار و در واقع مقصود موضوع است. بدین معنی که گوگل قصد دارد تا سرویسها، اهداف و اطلاعرسانی و اطلاعات خود را تا آن مقدار در وب در جهان گسترش دهد. در ادامه مختصری از روند فعالیت جویشگرهای منتهی به عرضه جویشگر Google بطور مطرح میشود.
فهرست مطالب:
1.1. سیر تحول تاریخی ابزارهای جستجو درمحیط وب.. 5
1.2. تاریخچه جویشگر Google. 7
1.3. اهداف طراحی Google. 8
1.3.1. مقیاسپذیری در وب.. 8
1.3.2. بهبود کیفیت جستجو. 10
1.3.3. امکان تحقیق آکادمیک در حوزه جویشگرهای وب.. 10
2.1. الگوریتم PageRank. 11
2.2. متن لنگری.. 14
2.3. دیگر ویژگیهای جویشگر Google. 14
3.1. کلیات معماری جویشگر Google. 15
3.2. ساختارهای داده اصلی.. 17
3.2.1. فایلهای بزرگ.. 17
3.2.2. مخزن. 18
3.2.3. نمایه اسناد. 18
3.2.4. واژهنامه. 19
3.2.5. لیستهای برخورد. 19
3.2.6. نمایههای روبهجلو. 21
3.2.7. نمایههای معکوس.. 22
3.3. عملیات خزش در وب.. 22
3.4. نمایهسازی اطلاعات وب.. 24
3.4.1. تجزیه. 24
3.4.2. نمایهسازی اسناد در مخازن. 24
3.4.3. مرتبسازی.. 25
3.5. جستجو. 25
3.5.1. سیستم رتبهبندی.. 26
3.5.2. بازخورد. 28
5.1. مراحل پردازش یک پرسوجو در جویشگر Google. 30
5.2. استفاده از نسخههای کپی برای ایجاد ظرفیت و تحملپذیری خطا32
5.3. روش استفاده از تجهیزات محاسباتی.. 33
5.4. مساله تامین برق تجهیزات.. 34
9. فهرست منابع 37