AI belajar menipu di Q*bert dengan cara yang belum pernah dilakukan manusia sebelumnya

Sebuah AI telah berhasil menipu dengan kemanusiaan terbaik yang ditawarkan setelah menemukan eksploitasi dalam game arcade klasik Q*bert dan menjalankannya.

Meskipun versi AI sebelumnya dapat memainkan Q*bert dengan baik, pada titik tertentu saat mempelajari cara kerja game, ia menemukan eksploitasi yang memungkinkannya mengumpulkan poin-poin gila. Tentu saja, seperti yang dilakukan pemain pemburu skor lainnya, ia mengulangi proses tersebut sehingga dapat meningkatkan skornya seefektif mungkin.

Anda dapat melihat AI bekerja pada platform dalam video di bawah. Pada awalnya, sepertinya ia berpindah antar platform tanpa tujuan. Alih-alih melihat kemajuan permainan ke babak berikutnya, Q*bert malah terjebak dalam lingkaran di mana semua platformnya mulai berkedip – di sinilah AI kemudian melakukan kegilaan mencetak gol dan mengumpulkan poin besar.

BACA BERIKUTNYA: Salah satu rekor permainan paling kontroversial akhirnya didiskreditkan

Bagaimana AI memenangkan perang Q*bert

Memecahkan rekor sepanjang masa untuk judul tersebut, AI memperoleh skor yang sangat tinggi berkat pemrograman algoritma strategi evolusinya. Strategi evolusi (ES) berbeda dari pembelajaran penguatan (RL) biasa yang digunakan AI tradisional karena dianggap lebih terukur karena pembelajaran generasinya.

Setiap putaran pembelajaran disebut sebagai generasi dan melanjutkan tugasnya hingga kondisi tertentu terpenuhi (dalam hal ini, skor tinggi). Dengan setiap generasi berikutnya, AI menyerap pengetahuan dari generasi sebelumnya dan oleh karena itu lebih baik dalam mencapai tujuan yang sama dan melampauinya. Teruskan, dan Anda akan mendapatkan AI yang tugasnya benar-benar tak tertandingi. Itulah yang terjadi di sini dengan skor Q*bert.

Diuraikan dalam kertas, yang diterbitkan minggu lalu oleh para peneliti di Universitas Freiburg, Jerman, tampaknya bug tersebut tidak diketahui jumlahnya. Faktanya, meski mereka tidak terlalu terkejut saat menemukan bug tersebut, menarik untuk melihat bagaimana AI kemudian belajar untuk mengeksploitasinya setiap kali dimainkan untuk memaksimalkan potensi skornya.

BACA BERIKUTNYA: Kecerdasan buatan ini telah belajar untuk menguasai Super Mario Bros

“Untuk menemukan bug tersebut, agen harus belajar terlebih dahulu hingga hampir menyelesaikan level pertama – ini tidak dilakukan sekaligus tetapi menggunakan banyak perbaikan kecil,” jelas peneliti kepada Pendaftaran. Kami menduga bahwa pada suatu saat dalam pelatihan, salah satu solusi turunannya mengalami bug dan mendapat skor yang jauh lebih baik dibandingkan dengan saudara kandungnya, yang pada gilirannya meningkatkan kontribusinya terhadap pembaruan – bobotnya adalah yang tertinggi dalam bobot berarti. Hal ini perlahan-lahan memindahkan solusi ke ruang di mana semakin banyak keturunan yang mulai menghadapi masalah yang sama.”

“Kami tidak mengetahui secara pasti kondisi di mana bug tersebut muncul; bisa jadi hal tersebut hanya muncul jika agen mengikuti pola yang terkesan kurang optimal, [misalnya saat agen membuang-buang waktu, atau bahkan kehilangan nyawa]. Jika itu masalahnya, maka akan sangat sulit bagi RL standar untuk menemukan bug tersebut: jika Anda menggunakan hadiah tambahan, Anda akan belajar strategi yang dengan cepat menghasilkan sejumlah imbalan, daripada mempelajari strategi yang tidak menghasilkan banyak imbalan untuk sementara waktu dan kemudian tiba-tiba menang besar."

Lihat terkait 

Juara dragster Todd Rogers baru saja kehilangan mahkotanya setelah 35 tahun
Kecerdasan buatan ini telah belajar menguasai Super Mario Bros 1-2 selama 17 hari
Tonton AI ini belajar mengemudi di GTA V di Twitch

Namun, meskipun bot tersebut memberikan hasil yang luar biasa, para peneliti tidak mengatakan bahwa hal ini merupakan alasan untuk memperjuangkan pembelajaran ES dibandingkan RL. Faktanya, kedua sistem mempunyai permasalahan masing-masing dan kombinasi keduanya dipandang sebagai pilihan terbaik di masa depan.

Metode ES yang sama pada game Atari lainnya tidak memberikan hasil positif yang mendekati. Di sisi lain, RL bertanggung jawab untuk memecahkan rekor kiri, kanan dan tengah, termasuk mengalahkan pemain GO terbaik dunia. ES masih memiliki tempatnya sendiri, dan memang begitulah caranya Nvidia melakukan banyak pelatihan AI-nya karena memerlukan lebih banyak daya komputasi tetapi mencapai hasil yang lebih baik dalam jangka waktu yang lebih lama.

Terlepas dari masa depan pengembangan AI yang mana, setidaknya bot yang menipu sistem ini tidak seburuk ini sekarang dipermalukan sebagai juara dunia video game.