AI išmoksta apgauti Q*bert taip, kaip dar niekada nebuvo daręs joks žmogus

An AI sugebėjo sukčiauti su geriausia, ką žmonija gali pasiūlyti po to, kai atrado išnaudojimą klasikiniame arkadiniame žaidime Q*bert ir paleido su juo.

Nors ankstesnės AI iteracijos tinkamai žaisdavo Q*bert, tam tikru momentu, kai mokosi, kaip veikia žaidimas, jis atranda išnaudojimą, leidžiantį kaupti beprotiškus taškus. Žinoma, kaip ir bet kuris taškų medžiotojas, jis kartoja procesą, kad galėtų kuo veiksmingiausiu būdu padidinti savo rezultatą.

Žemiau esančiame vaizdo įraše galite pamatyti, kaip dirbtinis intelektas veikia platformose. Iš pradžių atrodo, kad jis be tikslo šokinėja tarp platformų. Užuot matęs žaidimo eigą į kitą etapą, Q*bertas įstrigo kilpoje, kurioje pradeda mirksėti visos jo platformos – štai čia dirbtinis intelektas gali žaibiškai siautėti ir rinkti didžiulius taškus.

SKAITYTI KITAS: Vienas kontroversiškiausių žaidimo įrašų pagaliau buvo diskredituotas

Kaip AI laimėjo Q*bert karą

Sumušęs visų laikų rekordą dėl titulo, dirbtinis intelektas surinko neįtikėtinai aukštą rezultatą dėl savo evoliucijos strategijos algoritmo programavimo. Evoliucijos strategijos (ES) skiriasi nuo įprasto mokymosi sustiprinimo (RL), kurį naudoja tradicinis AI, nes dėl kartos mokymosi jis laikomas labiau keičiamu.

Kiekviena mokymosi kilpa vadinama karta ir ji tęsia savo užduotį, kol įvykdoma nustatyta sąlyga (šiuo atveju aukštas balas). Su kiekviena sekančia karta AI įsisavina ankstesnės kartos žinias, todėl geriau pasiekia tą patį tikslą ir jį pranoksta. Tęskite ir gausite dirbtinį intelektą, kuris savo užduotyje yra visiškai neprilygstamas. Būtent taip atsitiko čia su Q*bert balu.

Nurodyta popierius, kurį praėjusią savaitę paskelbė Freiburgo universiteto (Vokietija) mokslininkai, atrodo, kad klaidos kiekis nebuvo žinomas. Tiesą sakant, nors jie ir nesistebi aptikę klaidą, įdomu pamatyti, kaip dirbtinis intelektas tada žengė į priekį ir išmoko jį išnaudoti kiekvieną kartą žaidžiant, kad maksimaliai padidintų savo taškų potencialą.

SKAITYTI KITAS: Šis dirbtinis intelektas mokėsi įvaldyti Super Mario Bros

„Norėdamas rasti klaidą, agentas pirmiausia turėjo išmokti beveik baigti pirmąjį lygį – tai nebuvo padaryta iš karto, o naudojant daug nedidelių patobulinimų“, – aiškino tyrėjai. Registras. Įtariame, kad kažkuriuo treniruotės metu vienas iš atžalos sprendimų susidūrė su klaida ir gavo daug geresnį balą palyginti su broliais ir seserimis, o tai savo ruožtu padidino jo indėlį į atnaujinimą – jo svoris buvo didžiausias svertiniame reiškia. Tai lėtai perkėlė sprendimą į erdvę, kur vis daugiau palikuonių pradėjo susidurti su ta pačia klaida.

„Mes nežinome tikslių sąlygų, kuriomis klaida atsiranda; gali būti, kad jis atsiranda tik tuo atveju, jei agentas laikosi modelio, kuris atrodo neoptimalus, [pavyzdžiui, kai agentas švaisto laiką ar net praranda gyvybę]. Jei taip būtų, standartiniam RL būtų labai sunku rasti klaidą: jei naudosite papildomus atlygius, išmoksite strategijos, kurios greitai atneša tam tikrą atlygį, o ne mokymosi strategijos, kurios kurį laiką neduoda daug naudos ir staiga laimi didelis“.

Žiūrėti susijusius 

Dragsterių čempionas Toddas Rogersas ką tik prarado karūną po 35 metų
Šis dirbtinis intelektas 17 dienų mokėsi įvaldyti Super Mario Bros 1-2
Žiūrėkite, kaip dirbtinis intelektas mokosi vairuoti GTA V sistemoje „Twitch“.

Tačiau nepaisant nuostabių roboto rezultatų, mokslininkai nesako, kad tai yra ES mokymosi prieš RL atvejis. Tiesą sakant, abi sistemos turi savo problemų ir jų derinys dažniausiai laikomas geriausiu pasirinkimu.

Tas pats ES metodas kituose „Atari“ žaidimuose nedavė tų pačių teigiamų rezultatų. Kita vertus, RL yra atsakinga už rekordų sumušimą kairėje, dešinėje ir centre, įskaitant geriausio pasaulyje GO žaidėjo įveikimą. Vis dėlto ES vis tiek turi savo vietą dalykuose, ir iš tikrųjų taip „Nvidia“ atlieka daug dirbtinio intelekto mokymų dėl to, kad jam reikia daugiau skaičiavimo galios, tačiau per ilgesnį laiką pasiekiami geresni rezultatai.

Nepriklausomai nuo to, koks būdas taps AI plėtros ateitimi, bent jau šis robotas, apgaudinėjantis sistemą, nėra toks blogas kaip šis dabar sugėdintas vaizdo žaidimų pasaulio čempionas.