L'intelligenza artificiale impara a imbrogliare Q*bert in un modo che nessun essere umano ha mai fatto prima

UN AI è riuscito a imbrogliare con il meglio che l'umanità ha da offrire dopo aver scoperto un exploit nel classico gioco arcade Q*bert e averlo sfruttato.

Anche se le precedenti iterazioni dell'IA avrebbero giocato correttamente con Q*bert, a un certo punto, dopo aver appreso come funziona il gioco, scopre un exploit che gli consente di accumulare punti folli. Naturalmente, come farebbe qualsiasi giocatore a caccia di punti, ripete il processo in modo da poter aumentare il proprio punteggio nel modo più efficace possibile.

Puoi vedere l'intelligenza artificiale muoversi tra le piattaforme nel video qui sotto. All'inizio sembra che salti senza meta tra le piattaforme. Invece di vedere il gioco avanzare al turno successivo, Q*bert rimane bloccato in un loop in cui tutte le sue piattaforme iniziano a lampeggiare: è qui che l'IA può quindi scatenarsi in una frenesia accumulando punti enormi.

LEGGI SUCCESSIVO: Uno dei record di gioco più controversi è stato finalmente screditato

Come l'intelligenza artificiale ha vinto la guerra di Q*bert

Battendo il record di tutti i tempi per il titolo, l'IA ha ottenuto un punteggio incredibilmente alto grazie alla programmazione dell'algoritmo della strategia di evoluzione. Le strategie di evoluzione (ES) differiscono dal consueto apprendimento di rinforzo (RL) utilizzato dall’intelligenza artificiale tradizionale poiché è considerato più scalabile grazie al suo apprendimento generazionale.

Ogni ciclo di apprendimento viene definito generazione e continua il suo compito finché non viene soddisfatta una determinata condizione (in questo caso, un punteggio elevato). Con ogni generazione successiva, l'IA assorbe la conoscenza della generazione precedente e quindi è più brava a raggiungere lo stesso obiettivo e a superarlo. Continua e ti ritroverai con un'intelligenza artificiale che non ha rivali nel suo compito. Questo è esattamente quello che è successo qui con il punteggio Q*bert.

Delineato in la carta, pubblicato la settimana scorsa da ricercatori dell’Università di Friburgo, in Germania, sembra che il virus non fosse una quantità nota. In effetti, anche se non sono troppo sorpresi di aver trovato il bug, è interessante vedere come l’IA è poi andata avanti e ha imparato a sfruttarlo ogni volta che giocava per massimizzare il suo potenziale di punteggio.

LEGGI SUCCESSIVO: Questa intelligenza artificiale ha imparato a padroneggiare Super Mario Bros

"Per trovare il bug, l'agente ha dovuto prima imparare a completare quasi il primo livello - questo non è stato fatto subito ma utilizzando molti piccoli miglioramenti", hanno spiegato i ricercatori Il registro. Sospettiamo che ad un certo punto dell'addestramento una delle soluzioni figlie abbia riscontrato il bug e ottenuto un punteggio molto migliore rispetto ai suoi fratelli, che a loro volta hanno aumentato il loro contributo all'aggiornamento: il loro peso è risultato il più alto nella classifica ponderata Significare. Ciò ha lentamente spostato la soluzione nello spazio in cui sempre più discendenti hanno iniziato a riscontrare lo stesso bug”.

“Non conosciamo le condizioni precise in cui si manifesta il bug; è possibile che appaia solo se l'agente segue uno schema che sembra non ottimale, [ad esempio quando l'agente perde tempo o addirittura perde una vita]. Se così fosse, sarebbe estremamente difficile per RL standard trovare il bug: se usi i premi incrementali imparerai strategie che fruttano rapidamente qualche ricompensa, piuttosto che strategie di apprendimento che non danno molte ricompense per un po’ e poi all’improvviso vincono grande."

Vedi correlati 

Il campione Dragster Todd Rogers ha appena perso la corona dopo 35 anni
Questa intelligenza artificiale ha imparato a padroneggiare Super Mario Bros 1-2 in 17 giorni
Guarda questa IA imparare a guidare in GTA V su Twitch

Tuttavia, nonostante gli straordinari risultati del bot, i ricercatori non stanno dicendo che questo sia il caso di sostenere l’apprendimento ES rispetto a RL. In effetti, entrambi i sistemi hanno i propri problemi e una combinazione dei due è ampiamente vista come l’opzione migliore per il futuro.

Lo stesso metodo ES su altri giochi Atari non ha portato neanche lontanamente agli stessi risultati positivi. D'altra parte, RL è responsabile di battere i record a destra, a sinistra e al centro, incluso battere il miglior giocatore GO del mondo. Tuttavia, ES ha ancora il suo posto nelle cose, ed è effettivamente così Nvidia esegue gran parte della sua formazione sull'intelligenza artificiale perché richiede più potenza di calcolo ma ottiene risultati migliori per un periodo di tempo più lungo.

Indipendentemente da quale sarà il futuro dello sviluppo dell’intelligenza artificiale, almeno questo bot che imbroglia il sistema non è così grave ora campione del mondo di videogiochi caduto in disgrazia.