مدلی‌مبتنی ‌بر آنتروپی ‌و ‌اتوماتاهای یادگیر برای حل بازی های تصادفی

عنوان مقاله:مدلی‌مبتنی ‌بر آنتروپی‌و ‌اتوماتاهای یادگیر برای حل بازی های تصادفی

قالب بندی: word

تعداد صفحات: 23

شرح مختصر:

بازی های غیر قطعی(تصادفی) به عنوان توسعه ای از فرآیندهای تصادفی مارکوف با چندین عامل در سیستمهای چند عامله و مدل سازی آنها حائز اهمیت بوده و به عنوان چارچوبی مناسب در تحقیقات یادگیری‌تقویتی ‌چند‌عامله به‌کار‌رفته‌اند. در حال حاضراتوماتاهای‌یادگیر به عنوان ابزاری ارزشمند در طراحی الگوریتمهای یادگیری چند عامله به کار رفته اند. در این مقاله مدلی مبتنی براتوماتای یادگیر و مفهوم آنتروپی برای حل بازی های غیر قطعی و پیدا کردن سیاست بهینه در این بازیها ارائه شده است. در مدل پیشنهادی به ازای هر عامل در هر حالت از محیط بازی یک اتوماتای یادگیربا ساختار متغیر ازنوع S قرارداده شده است که اعمال بهینه را در هر حالت یاد می گیرند. تعداد اعمال هر اتوماتا با توجه به همسایگان مجاور هر حالت تعیین شده و ترکیب اعمال اتوماتاها حالت بعدی محیط را انتخاب می‌کند. در مدل پیشنهادی از آنتروپی بردار احتمالات اتوماتای یادگیر حالت جدید برای کمک به پاداش دهی اتوماتاها و بهبود یادگیری استفاده شده است. برای بررسی و تحلیل رفتار الگوریتم یادگیری پارامتری به نام آنتروپی‌کلی تعریف گردیده که میزان همگرایی را در الگوریتم یادگیری بیان می کند. در نهایت الگوریتمی اصلاح یافته با ایجاد تعادل بین جستجوو استناد بر تجربیات پیشنهاد شده است. نتایج آزمایش ها نشان می دهد الگوریتم­ ارائه شده از کارایی مناسبی از هر دو جنبه هزینه و سرعت رسیدن به راه­حل بهینه برخوردار است.


 


خرید و دانلود مدلی‌مبتنی ‌بر آنتروپی ‌و ‌اتوماتاهای یادگیر برای حل  بازی های تصادفی