EUREKA gera funções de recompensa de nível humano em diversos robôs e tarefas. Combinado com a aprendizagem curricular, o EUREKA, pela primeira vez, desbloqueia capacidades rápidas de rotação da caneta numa mão antropomórfica de cinco dedos. Crédito: arXiv (2023). DOI: 10.48550/arxiv.2310.12931
Robôs inteligentes estão remodelando nosso universo. No Hospital Universitário Robert Wood Johnson, em Nova Jersey, robôs assistidos por IA estão trazendo um novo nível de segurança para médicos e pacientes, examinando cada centímetro das instalações em busca de bactérias e vírus nocivos e desinfetando-os com doses precisas de luz ultravioleta germicida.
Na agricultura, braços robóticos conduzidos por drones examinam vários tipos de frutas e vegetais e determinam quando estão perfeitamente maduros para serem colhidos.
O Sistema de Inteligência do Espaço Aéreo AI Flyways assume as tarefas desafiadoras e muitas vezes estressantes dos despachantes de voo que devem fazer mudanças de última hora no padrão de voo devido a condições climáticas extremas repentinas, suprimentos de combustível esgotados, problemas mecânicos ou outras emergências. Otimiza soluções, é mais seguro, economiza tempo e é econômico.
Mas esqueça essas conquistas: um robô pode realizar truques perfeitos de girar a caneta?
Uma equipe da NVIDIA Research desenvolveu um que pode. E embora a tarefa seja impressionante – alguns especialistas dizem que pode levar meses ou até um ano ou mais para os humanos dominarem a arte de girar os dedos, incluindo manipulações desafiadoras com nomes como Devil’s Sonic, Backaround, Corkscrew e Bust X2 – o que permanece O que há de mais interessante sobre o projeto da NVIDA é que o talento de girar a caneta foi ensinado por instruções geradas por IA.
Em um artigo intitulado “Eureka: Human-Level Reward Design via Coding Large Language Models” que aparece no servidor de pré-impressão arXivos pesquisadores descrevem uma “otimização evolutiva sobre o código de recompensa” na qual os robôs aprendem movimentos complexos de manipulação fina por meio de instruções geradas por IA.
Ele mantém a promessa de resolução de problemas cada vez mais eficiente com LLMs, manipulação física mais avançada e máquinas cada vez mais inteligentes em nosso futuro.
A equipe desenvolveu o Eureka, um algoritmo aplicado ao GPT-4 que estabelece um sistema de recompensa para LLMs que aprendem funções motoras avançadas. As tarefas são realizadas em um aplicativo de simulação física chamado Isaac Gym, desenvolvido pela NVIDIA. Pesquisadores da UPenn, Caltech e da Universidade do Texas em Austin também participaram do projeto.
Os resultados alcançados através do treinamento de Eureka foram superiores às instruções elaboradas por humanos em 83% dos testes. A tarefa de girar rapidamente a caneta foi uma das 29 habilidades complexas treinadas no algoritmo Eureka.
“A versatilidade e os ganhos substanciais de desempenho do Eureka sugerem que o princípio simples de combinar grandes modelos de linguagem com algoritmos evolutivos é uma abordagem geral e escalonável para o design de recompensas, uma visão que pode ser geralmente aplicável a problemas de pesquisa difíceis e abertos”, disse Anima Anandkumar, diretor sênior de pesquisa de IA da NVIDIA e autor do artigo Eureka.
A Academia Isaac simula atividade física em um ambiente tridimensional. As sessões de treinamento massivamente paralelas geram rapidamente soluções possíveis para inúmeras manipulações, muito mais rápido do que os humanos ou os primeiros sistemas de computação conseguem. A academia, dizem os pesquisadores, pode melhorar a velocidade do treinamento por um fator de 1.000.
O feedback dos operadores humanos pode ser incorporado em algoritmos de treinamento. Os pesquisadores dizem que isso atuaria como um “copiloto poderoso” em tarefas especialmente desafiadoras.
Outras tarefas realizadas através do treinamento Eureka incluem abrir armários e gavetas, manusear tesouras e lançar e pegar bolas.
Eureka compila estatísticas do progresso de cada sessão e ajusta o código para melhorar continuamente os resultados.
De acordo com Shital Shah, principal engenheiro de pesquisa da Microsoft Research, “o proverbial ciclo de feedback positivo de autoaperfeiçoamento pode estar chegando, o que nos permitirá ir além dos dados e capacidades do treinamento humano”.
Yecheng Jason Ma et al, Eureka: Design de recompensa em nível humano por meio da codificação de modelos de linguagem grande, arXiv (2023). DOI: 10.48550/arxiv.2310.12931
Site do projeto: eureka-research.github.io/
arXiv
© 2023 Science X Network
Citação: Os robôs aprendem mais rápido com o aumento de IA de Eureka (2023, 24 de outubro) recuperado em 24 de outubro de 2023 em https://techxplore.com/news/2023-10-robots-faster-ai-boost-eureka.html
Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.