Lengan robot virtual ini menjadi lebih pintar dengan melatih satu sama lain

Lengan robot virtual telah belajar memecahkan berbagai macam teka-teki - menyusun balok, mengatur meja, menyusun bidak catur — tanpa harus dilatih ulang untuk setiap tugas. Itu dilakukan dengan bermain melawan lengan robot kedua yang dilatih untuk memberikan tantangan yang semakin sulit. Self play: Dikembangkan oleh para peneliti di OpenAI , lengan robot yang identik — Alice dan Bob — belajar dengan bermain permainan melawan satu sama lain dalam simulasi, tanpa masukan manusia. Robot menggunakan pembelajaran penguatan, teknik di mana AI dilatih dengan trial and error tindakan apa yang harus diambil dalam situasi yang berbeda untuk mencapai tujuan tertentu. Gim ini melibatkan benda bergerak di sekitar meja virtual. Dengan menyusun objek dengan cara tertentu, Alice mencoba mengatur teka-teki yang sulit dipecahkan Bob. Bob mencoba memecahkan teka-teki Alice. Saat mereka belajar, Alice membuat teka-teki yang lebih kompleks dan Bob menjadi lebih baik dalam memecahkannya.
Setelah pelatihan tentang teka-teki blok yang dibuat oleh Alice, Bob dapat menggeneralisasi ke berbagai tugas, termasuk mengatur meja dan mengatur bidak catur.
Multitasking: Model pembelajaran mendalam biasanya harus dilatih ulang di antara tugas-tugas. Misalnya, AlphaZero (yang juga belajar dengan bermain melawan dirinya sendiri) menggunakan algoritme tunggal untuk belajar bermain catur, shogi, dan Go — tetapi hanya satu gim dalam satu waktu. AlphaZero yang bermain catur tidak bisa memainkan Go dan yang bermain Go tidak bisa bermain shogi. Membuat mesin yang benar-benar dapat melakukan banyak tugas adalah masalah besar yang belum terpecahkan di jalan menuju AI yang lebih umum . AI dojo: Satu masalah adalah bahwa melatih AI untuk melakukan banyak tugas membutuhkan banyak contoh. OpenAI menghindari ini dengan melatih Alice untuk membuat contoh bagi Bob, menggunakan satu AI untuk melatih AI lainnya. Alice belajar untuk menetapkan tujuan seperti membangun menara balok, lalu mengambilnya dan menyeimbangkannya. Bob belajar menggunakan properti lingkungan (virtual), seperti gesekan, untuk menangkap dan memutar objek. Realitas virtual: Sejauh ini pendekatan tersebut hanya diuji dalam simulasi tetapi para peneliti di OpenAI dan di tempat lain semakin baik dalam mentransfer model yang dilatih dalam lingkungan virtual ke yang fisik. Simulasi memungkinkan AI mengaduk-aduk kumpulan data besar dalam waktu singkat, sebelum disetel dengan baik untuk pengaturan dunia nyata. Ambisi keseluruhan: Para peneliti mengatakan bahwa tujuan akhir mereka adalah melatih robot untuk menyelesaikan tugas apa pun yang mungkin diminta oleh seseorang. Seperti GPT-3, model bahasa yang dapat menggunakan bahasa dalam berbagai cara berbeda, lengan robot ini adalah bagian dari ambisi keseluruhan OpenAI untuk membangun AI multitasking. Menggunakan satu AI untuk melatih AI lainnya bisa menjadi bagian penting dari itu.

Komentar

Postingan populer dari blog ini

Pertarungan algoritma: Mengungkap AI ofensif

Begitulah cara kami kehilangan kendali atas wajah kami

Cara menjalin hubungan yang lebih baik dengan teknisi Anda