محققان دانشگاه کالیفرنیا با استفاده از الگوریتم هوش مصنوعی در یک سگ رباتیک، این ربات چهار پا را ساختند که فرآیند راه رفتن را از ابتدا، بدون شبیهسازی رایانهای مرسوم و به شیوهای خودآموز، یاد بگیرد.
طبق ویدئوی منتشر شده، ربات مورد نظر ابتدا مانند سوسک به پشت دراز می کشد و فقط پاهای خود را در هوا حرکت می دهد، اما پس از عبور 10 دقیقه مبارزه این است که یاد بگیری چگونه روی پای خود بایستی و با بخشش یک ساعت این ربات توانست با اطمینان دیجیتالی در محیط آزمایشگاه راه برود.
برای ایجاد یادگیری خودکار در این ربات، دانشمندان از تکنیک هوش مصنوعی به نام “مطالعه کردن تقویت کردن(یادگیری تقویتی) بهره مند شده اند. در این تکنیک، الگوریتم های موجود با استفاده از پاداش برای انجام توابع مورد نظر آموزش داده می شوند.
یک الگوریتم یادگیری تقویتی در یک سگ رباتیک
ربات ها به طور سنتی قبل از انجام هر کاری ابتدا در یک محیط واقعی کار می کنند شبیه ساز کامپیوتر آنها آموزش دیده اند. به عنوان مثال، یک جفت پای رباتیک به نام «کاسی» توانستند با استفاده از یادگیری تقویتی راه رفتن را یاد بگیرند، اما این کار در یک شبیه ساز انجام شد.
به گفته یکی از محققان این پروژه به نام هفنر، یکی از مشکلات اصلی شبیه سازهای کامپیوتری این است که هرگز دقت دنیای واقعی را ندارند، بنابراین همیشه یک عامل دنیای واقعی وجود دارد که باید در شبیه ساز گنجانده شود.

اکنون این الگوریتمی که دانشمندان نام برده اندرویاپرداز“شما برای آن انتخاب کرده اید، می تواند با استفاده از تجربه قبلی یک مثال شبیه سازی شده از محیط اطراف ایجاد کند. تخیل همچنین به ربات ها اجازه می دهد تا فرآیند یادگیری آزمون و خطا را در یک شبیه ساز کامپیوتری به جای در دنیای واقعی، همانطور که می تواند پیش بینی کند، انجام دهند. نتایج احتمالی حرکات او
استفاده از این الگوریتم نه تنها روند یادگیری را سریعتر می کند، بلکه به طور مداوم ادامه خواهد داشت. این بدان معناست که به عنوان مثال، پس از یادگیری راه رفتن، ربات می تواند یاد بگیرد که خود را با شرایط غیرمنتظره مانند ضربه و افتادن سازگار کند.

مزایا و معایب استفاده از الگوریتم «یادگیری تقویتی».
حذف شبیه سازی از روند آموزش ربات مزایای زیادی دارد. استفاده از الگوریتم یادگیری تقویتی نه تنها به رباتها میآموزد که چگونه مهارتهای جدید را در مقابل دنیای واقعی بیاموزند، بلکه به رباتها اجازه میدهد تا در صورت بروز نقص فنی، با آن سازگار شوند.
به عنوان مثال، با فرض اینکه یک ربات به دلیل نقص فنی در موتور یکی از پاهای خود با مشکل راه رفتن مواجه شود، همان ربات یاد می گیرد که چگونه با استفاده از الگوریتم فوق الذکر با نقص حرکتی موجود سازگار شود.
به گفته استفانو آلبرشت، استادیار هوش مصنوعی در دانشگاه ادینبورگ در اسکاتلند، یکی دیگر از مزایای این الگوریتم در موارد پیچیده تر مانند اتومبیل های بدون راننده ظاهر می شود، زیرا این فناوری به شبیه سازهای بسیار پیچیده و گران قیمت نیاز دارد.

اما در استفاده از الگوریتم مذکور مشکلاتی وجود دارد. یکی از مشکلات یادگیری تقویتی این است که مهندسان باید به وضوح در کد خود تعریف کنند که چه رفتاری خوب است و پاداش خواهد گرفت و چه رفتاری نامطلوب است.
این تعیین جنبههای رفتاری فرآیندی زمانبر است و همچنین دشواری برنامهنویسی برای شرایط غیرمنتظره، دشواری استفاده از این الگوریتم را دوچندان میکند.
با این حال، به گفته هفنر، استفاده از این الگوریتم در آینده آسان تر خواهد شد. او همچنین اظهار داشت که او و تیمش قصد دارند دوربینی را به سگ رباتیک خود وصل کنند تا در آن بینایی ایجاد کند تا ربات بتواند در محیط های پیچیده تر حرکت کند یا توانایی یافتن اشیا را داشته باشد.