Em 2015, a DeepMind, da Google, publicou um artigo descrevendo um sistema de inteligência artificial (AI) que, com potência computacional e tempo suficientes, foi capaz de aprender a jogar. Esse sistema demonstrou excelentes habilidades, mais especificamente, em uma coleção de jogos do Atari, como Enduro, Pong e Breakout.
No entanto, o sistema teve dificuldade de terminar Montezuma’s Revenge, o complexo jogo de aventura dos anos 80. O game exige que os jogadores evitem portões de laser, pisos que desaparecem, fogueiras e outros obstáculos para vencer. A AI nem mesmo conseguiu coletar a primeira chave.
O motivo pelo qual os programas de AI tem dificuldade com jogos de aventura, é que as recompensas são distribuídas aleatoriamente. O programa não melhora sua jogabilidade até obter alguma recompensa e, então, se esforça para obter uma recompensa porque não consegue melhorar sua jogabilidade.
Mas um trabalho apresentado na última conferência da Associação para o Avanço da Inteligência Artificial (Association for the Advancement of Artificial Intelligence – AAAI), no Havaí, mostrou um novo algoritmo capaz de superar essa dificuldade.
O novo algoritmo foi desenvolvido por pesquisadores da Universidade RMIT, em Melbourne, Austrália. O software conseguiu jogar Montezuma’s Revenge com bastante habilidade. Além disso, foi capaz de aprender com seus erros e identificar sub-objetivos (como subir escadas e pular sobre buracos), o que o tornou 10 vezes mais rápido que o algoritmo da DeepMind.
Para o algoritmo aprender com seus próprios erros, foi utilizado o aprendizado por reforço. Essa técnica, usa um sistema de recompensas para direcionar os agentes a determinados objetivos. Dessa forma, esse método recompensava o sistema por ser curioso e tentar, de forma autônoma, ações e caminhos menos óbvios.
Os pesquisadores se inspiraram em outros jogos, como Pac-Man e Super Mario, para introduzir essa abordagem. O trabalho de pesquisa foi realizado pelo professor associado Fabio Zambetta, em colaboração com o professor John Thangarajah e o doutorando Michael Dann.
Zambetta acredita que a tecnologia desenvolvida com o seu trabalho pode, com o tempo, ser valiosa para alcançar objetivos no mundo real, sejam em carros autônomos ou como assistentes robóticos.