گوگل ریسرچ به تازگی از دو پروژه جدید خود با یک ربات تنیس روی میز رونمایی کرد. تیم رباتیک در گوگل به یک بازوی رباتی آموزش داد که بیش از ۳۰۰ شوت رالی با افراد دیگر بازی کند و سرویسها را با دقت «انسانهای آماتور» بازگرداند.ا
گرچه این ممکن است با توجه به اینکه برخی افراد در تنیس روی میز چقدر بد هستند، چندان چشمگیر به نظر نرسد، میتوان از همین تکنیکها برای آموزش رباتها برای انجام سایر «وظایف پویا و با شتاب بالا» استفاده کرد که به تعامل نزدیک انسان و ربات نیاز دارند.
تنیس روی میز یک کار جالب برای یادگیری رباتها به دلیل دو ویژگی مکمل است: این کار به حرکات سریع و دقیق در یک بازی ساختاریافته نیاز دارد که در یک محیط ثابت و قابل پیش بینی رخ میدهد. الگوریتم یادگیری که ربات برای تصمیمگیری به آن تکیه میکند، باید سخت کار کند تا به نتیجه برسد، بازی تنیس روی میز فعالیتی دو طرفه است: ربات میتواند با یک ربات دیگر (یا شبیه سازی) بازی کند یا با یک انسان واقعی برای آموزش. همه اینها آن را به مجموعهای عالی برای بررسی تعامل انسان و ربات و تکنیکهای یادگیری تقویتی تبدیل میکند.
مهندسان گوگل دو پروژه مجزا را با استفاده از یک ربات طراحی کردند. Iterative-Sim۲Real که اواخر امسال در CoRL ارائه خواهد شد و GoalsEye که هفته آینده در IROS ارائه خواهد شد. Iterative-Sim۲Real برنامهای است که به ربات آموزش میدهد تا در مسابقات ۳۰۰ تیری با انسانها بازی کند، در حالی که GoalsEye به آن اجازه میدهد تا سرویسها را به نقطه هدف خاصی روی میز با دقتی شبیه به انسان آماتور بازگرداند.
Iterative-Sim۲Real تلاشی برای غلبه بر «مشکل مرغ و تخم مرغ» آموزش ماشینها برای تقلید از رفتارهای انسانی است. تیم تحقیقاتی توضیح میدهد اگر برای شروع یک خط مشی خوب برای ربات (مجموعهای از قوانین برای ربات) نداشته باشید، نمیتوانید دادههای با کیفیت بالا در مورد نحوه تعامل مردم با آن جمعآوری کنید. اما بدون یک مدل رفتار انسانی برای شروع، نمیتوانید در وهله اول سیاست ربات را ارائه کنید. یک راه حل جایگزین آموزش انحصاری رباتها در دنیای واقعی است.
با این حال، این فرآیند اغلب آهسته، هزینه بر است و چالشهای مرتبط با ایمنی را به همراه دارد که با مشارکت مردم تشدید میشود؛ به عبارت دیگر، زمان زیادی طول میکشد و مردم میتوانند توسط بازوهای رباتی که خفاشهای تنیس روی میز را به اطراف میچرخانند، آسیب ببینند.
Iterative-Sim۲Real با استفاده از یک مدل بسیار ساده از رفتار انسان به عنوان نقطه شروع و سپس آموزش ربات هم با شبیه سازی و هم با یک انسان در دنیای واقعی، این مشکل را رفع کند. پس از هر تکرار، هم مدل رفتار انسان و هم خط مشی ربات اصلاح میشوند. با استفاده از پنج سوژه انسانی، ربات آموزش دیده با Iterative-Sim۲Real از یک رویکرد جایگزین به نام sim-to-real plus-tuning بهتر عمل کرد. این رالی به میزان قابل توجهی کمتر بود که با کمتر از پنج شلیک به پایان رسید که میانگین طول رالی آن ۹ درصد بیشتر بود.
از سوی دیگر، GoalsEye تصمیم گرفت تا با مجموعهای از مشکلات تمرینی مقابله کرده و به ربات آموزش دهد که توپ را به یک مکان دلخواه مانند گوشه سمت چپ پشتی یا دقیقا بالای تور در سمت راست برگرداند. یادگیری تقلید جایی که یک ربات یک استراتژی بازی برگرفته از دادههای عملکرد انسان را توسعه میدهد؛ در تنظیمات با سرعت بالا به سختی انجام میشود.
متغیرهای زیادی وجود دارد که بر نحوه برخورد انسان با توپ پینگ پنگ تاثیر میگذارد که ردیابی همه چیز لازم برای یادگیری یک ربات را عملا غیرممکن میکند. یادگیری تقویتی معمولا برای این موقعیتها خوب است، اما میتواند آهسته و ناکارآمد باشد، بهویژه در شروع، به عبارت دیگر، برای ایجاد یک استراتژی بازی نسبتا محدود به تکرارهای زیادی نیاز است.
GoalsEye تلاش میکند با استفاده از مجموعه دادههای کوچک، با ساختار ضعیف و غیرهدفمند اولیه که به ربات امکان میدهد اصول اولیه آنچه را که هنگام برخورد با توپ پینگ پنگ اتفاق میافتد، بیاموزد و سپس به او اجازه تمرین خود را بدهد، بر هر دو مجموعه مشکلات غلبه کند. به آن بیاموزد که توپ را دقیقا به نقاط خاصی بزند. ربات پس از آموزش در ۲۴۸۰ نمایش اولیه، تنها در ۹ درصد مواقع توانست توپ را به فاصله ۳۰ سانتی متری برگرداند، اما پس از خودتمرینی برای ۱۳۵۰۰ شات، در ۴۳ درصد مواقع دقیق بود.
در حالی که آموزش بازی به رباتها ممکن است بیاهمیت به نظر برسد، تیم تحقیقاتی معتقد است حل این نوع مشکلات تمرینی با تنیس روی میز کاربردهای بالقوهای در دنیای واقعی دارد. Iterative-Sim۲Real به رباتها اجازه میدهد از تعامل با انسانها بیاموزند، در حالی که GoalsEye نشان میدهد که چگونه رباتها میتوانند از دادههای بدون ساختار یاد بگیرند و در یک «محیط دقیق و پویا» تمرین کنند. بدترین سناریو این است که اگر اهداف بزرگ گوگل محقق نشود، حداقل میتوانند یک مربی ربات تنیس روی میز بسازند.
بیشتر بخوانید
منبع: popsci