صفحه محصول - پاورپوینت یادگیری تقویتی

توضیحات

پاورپوینت یادگیری تقویتی (pptx) 79 اسلاید

دسته بندی : پاورپوینت

نوع فایل : PowerPoint (.pptx) ( قابل ویرایش و آماده پرینت )

تعداد اسلاید: 79 اسلاید

قسمتی از متن PowerPoint (.pptx) :

یادگیری تقویتی 2 یادگیری تقویتی در یک مسئله یادگیری تقویتی با عاملی روبرو هستیم که از طریق سعی و خطا با محیط تعامل کرده و یاد میگیرد تا عملی بهینه را برای رسیدن به هدف انتخاب نماید . 3 یادگیری تقویتی یادگیری تقویتی از اینرو مورد توجه است که راهی برای آموزش عاملها برای انجام یک عمل از طریق دادن پاداش و تنبیه است بدون اینکه لازم باشد نحوه انجام عمل را برای عامل مشخص نمائیم . دو استراتژی اصلی برای اینکار وجود دارد : یکی استفاده از الگوریتم های ژنتیکی است که در آن در فضای رفتارها عملی جستجو میگردد که در محیط بتواند هدف مورد نظر را بر آورده نماید. و دیگری استفاده از روشهای آماری و dynamic programming در این درس روش دوم مد نظر است . 4 مقایسه RL با یادگیری با ناظر یادگیری تقویتی از دو جنبه با یادگیری با ناظر تفاوت دارد : مثالهائی یادگیری بصورت زوج > ورودی/ خروجی < مطرح نمیشوند . بلکه بعد از اینکه عامل عملی را انجام داد پاداشی را دریافت میکند و به مرحله بعدی میرود . عامل هیچ گونه اطلاعی در مورد اینکه در هر حالت بهترین عمل چیست را ندارد . بلکه این وظیفه عامل است که در طول زمان تجربه کافی در مورد حالتها، عمل های ممکن، انتقال و پاداش جمع آوری نموده و عملکرد بهینه را یاد بگیرد . تفاوت دیگر در اینجاست که سیستم باید کارائی آنلاین بالائی داشته باشد . زیرا اغلب ارزیابی سیستم با عمل یادگیری بطور همزمان صورت می پذیرد . 5 Supervised Learning: Example Class Reinforcement Learning: Situation Reward Situation Reward … مقایسه RL با یادگیری با ناظر یادگیری با ناظر Supervised Learning System Inputs Outputs Training Info = desired (target) outputs Error = (target output – actual output) 6 یادگیری تقویتی RL System Inputs Outputs (“actions”) Training Info = evaluations (“rewards” / “penalties”) هدف: جمع کردن حداکثر پاداش ممکن هیچگونه اطلاعات مربوط به گرادیان خطا موجود نیست. حالت بعدی از روی عمل فعلی تعیین میشود. یادگیری مبتنی بر سعی و خطاست. 7 مشخصه های اصلی یادگیری تقویتی به یادگیر گفته نمی شود که چه عملی را باید انجام دهد جستجو بر اساس سعی و خطا انجام میشود. یادگیر سعی میکند اعمالی را یادبگیرد که بیشترین پاداش را تولید میکنند. پاداش از نوع تاخیری است: از اینرو دست آوردهای کوتاه مدت فدای مزایای بلند مدت تر میشوند. باید بین کاوش موارد جدید و استفاده از دانش قبلی تناسب ایجاد نمود. explore or exploit مسئله را بصورت یک عامل هدفمند که با یک محیط نامعین در ارتباط است می بیند. 8 ساختار کلی مسئله یادگیری تقویتی در یک مسئله RL استاندارد با اجزای اصلی زیر روبرو هستیم: عامل که قرار است یادگیری را از طریق تعامل با محیط انجام دهد. برای اینکار باید اعمالی که عامل میتواند در محیط انجام دهد مشخص باشند. محیط برای محیط باید مشخصه های زیر تعیین شوند: وضعیت پاداش عامل میتواند از طریق ورودیهایش تشخیص دهد که در چه وضعیتی قرار دارد. عامل در وضعیت S t عمل a t را انجام میدهد. اینکار باعث میشود وضعیت محیط به S t+1 تغییر نماید. در اثر این تغییر وضعیت عامل سیگنال reinforcement و یا پاداش r t+1 را از محیط دریافت می نماید. عمل یادگیری عبارت است ازیاد گرفتن یک سیاست که در واقع نگاشتی از وضعیت به عمل است به نحوی که استفاده از این سیاست برای انتخاب اعمال منجر به دریافت پاداش حداکثر از محیط گردد. 9 سیاست 10 محیط در RL عامل یادگیر بطور سعی و خطا با یک محیط پویا درگیر شده و یاد می گیرد که برای هر موقعیت چه عملی را انجام دهد . این محیط باید قابل مشاهده ویا حداقل تا قسمتی قابل مشاهده برای عامل باشد . (partially observable) مشاهده محیط ممکن است از طریق خواندن اطلاعات یک سنسور، توضیح سمبلیک و غیره باشد . در حالت ایده ال عامل باید بطور کامل قادر به مشاهده محیط باشد زیرا اغلب تئوریهای مربوطه بر اساس این فرض بنا شده اند .