A frase “a prática leva à perfeição” geralmente é reservada para humanos, mas também é uma ótima máxima para robôs recém-implantados em ambientes desconhecidos.
Imagine um robô chegando em um depósito. Ele vem embalado com as habilidades para as quais foi treinado, como colocar um objeto, e agora precisa pegar itens de uma prateleira com a qual não está familiarizado. No início, a máquina luta com isso, pois precisa se familiarizar com seu novo ambiente. Para melhorar, o robô precisará entender quais habilidades dentro de uma tarefa geral ele precisa melhorar, então especializar (ou parametrizar) essa ação.
Um humano no local poderia programar o robô para otimizar seu desempenho, mas pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) do MIT e do Instituto de IA desenvolveram uma alternativa mais eficaz. Apresentado na Conferência de Robótica: Ciência e Sistemas no mês passado, seu algoritmo “Estimate, Extrapolate, and Situate” (EES) permite que essas máquinas pratiquem por conta própria, potencialmente ajudando-as a melhorar em tarefas úteis em fábricas, lares e hospitais.
O estudo foi publicado na arXiv servidor de pré-impressão.
Avaliando a situação
Para ajudar os robôs a melhorar em atividades como varrer o chão, o EES trabalha com um sistema de visão que localiza e rastreia os arredores da máquina. Então, o algoritmo estima quão confiável o robô executa uma ação (como varrer) e se valeria a pena praticar mais. O EES prevê quão bem o robô poderia executar a tarefa geral se ele refinasse essa habilidade específica e, finalmente, ele pratica. O sistema de visão subsequentemente verifica se essa habilidade foi feita corretamente após cada tentativa.
O EES pode ser útil em lugares como um hospital, fábrica, casa ou cafeteria. Por exemplo, se você quisesse que um robô limpasse sua sala de estar, ele precisaria de ajuda para praticar habilidades como varrer. De acordo com Nishanth Kumar SM ’24 e seus colegas, no entanto, o EES poderia ajudar esse robô a melhorar sem intervenção humana, usando apenas alguns testes práticos.
“Ao iniciar este projeto, nos perguntamos se essa especialização seria possível em uma quantidade razoável de amostras em um robô real”, diz Kumar, coautor principal de um artigo que descreve o trabalho, aluno de doutorado em engenharia elétrica e ciência da computação e afiliado do CSAIL.
“Agora, temos um algoritmo que permite que os robôs melhorem significativamente em habilidades específicas em um período de tempo razoável, com dezenas ou centenas de pontos de dados, uma melhoria em relação aos milhares ou milhões de amostras que um algoritmo de aprendizado por reforço padrão exige.”
Veja a varredura Spot
O talento do EES para aprendizado eficiente ficou evidente quando implementado no quadrúpede Spot da Boston Dynamics durante testes de pesquisa no The AI Institute. O robô, que tem um braço preso às costas, completou tarefas de manipulação após praticar por algumas horas. Em uma demonstração, o robô aprendeu a colocar com segurança uma bola e um anel em uma mesa inclinada em aproximadamente três horas.
Em outro, o algoritmo guiou a máquina para melhorar a varredura de brinquedos em uma lixeira em cerca de duas horas. Ambos os resultados parecem ser uma atualização de frameworks anteriores, que provavelmente levariam mais de 10 horas por tarefa.
“Nosso objetivo era que o robô coletasse sua própria experiência para que ele pudesse escolher melhor quais estratégias funcionariam bem em sua implantação”, diz o coautor principal Tom Silver SM ’20, Ph.D. ’24, ex-aluno de engenharia elétrica e ciência da computação (EECS) e afiliado do CSAIL, que agora é professor assistente na Universidade de Princeton.
“Ao focar no que o robô sabe, buscamos responder a uma pergunta-chave: na biblioteca de habilidades que o robô possui, qual seria a mais útil para praticar agora?”
O EES poderia eventualmente ajudar a simplificar a prática autônoma para robôs em novos ambientes de implantação, mas, por enquanto, ele vem com algumas limitações. Para começar, eles usaram mesas que eram baixas em relação ao chão, o que tornou mais fácil para o robô ver seus objetos.
Kumar e Silver também imprimiram em 3D um cabo acoplável que tornou a escova mais fácil para Spot agarrar. O robô não detectou alguns itens e identificou objetos nos lugares errados, então os pesquisadores contaram esses erros como falhas.
Dando lição de casa aos robôs
Os pesquisadores observam que as velocidades de prática dos experimentos físicos poderiam ser aceleradas ainda mais com a ajuda de um simulador. Em vez de trabalhar fisicamente em cada habilidade de forma autônoma, o robô poderia eventualmente combinar a prática real e virtual. Eles esperam tornar seu sistema mais rápido com menos latência, projetando o EES para superar os atrasos de imagem que os pesquisadores experimentaram. No futuro, eles podem investigar um algoritmo que raciocine sobre sequências de tentativas de prática em vez de planejar quais habilidades refinar.
“Permitir que robôs aprendam por conta própria é incrivelmente útil e extremamente desafiador”, diz Danfei Xu, professor assistente na Escola de Computação Interativa da Georgia Tech e cientista pesquisador da NVIDIA AI, que não estava envolvido neste trabalho.
“No futuro, robôs domésticos serão vendidos para todos os tipos de lares e espera-se que executem uma ampla gama de tarefas. Não podemos programar tudo o que eles precisam saber de antemão, então é essencial que eles possam aprender no trabalho. No entanto, deixar robôs soltos para explorar e aprender sem orientação pode ser muito lento e pode levar a consequências não intencionais.
“A pesquisa de Silver e seus colegas introduz um algoritmo que permite que robôs pratiquem suas habilidades de forma autônoma e estruturada. Este é um grande passo em direção à criação de robôs domésticos que podem evoluir e melhorar continuamente por conta própria.”
Os coautores de Silver e Kumar são os pesquisadores do The AI Institute Stephen Proulx e Jennifer Barry, além de quatro membros do CSAIL: o aluno de doutorado e pesquisador visitante da Northeastern University Linfeng Zhao, o aluno de doutorado do MIT EECS Willie McClinton e os professores do MIT EECS Leslie Pack Kaelbling e Tomás Lozano-Pérez. O trabalho deles foi apoiado, em parte, pelo The AI Institute, pela US National Science Foundation, pelo US Air Force Office of Scientific Research, pelo US Office of Naval Research, pelo US Army Research Office e pelo MIT Quest for Intelligence, com recursos de computação de alto desempenho do MIT SuperCloud e do Lincoln Laboratory Supercomputing Center.
Nishanth Kumar et al, A prática leva à perfeição: planejamento para aprender políticas de parâmetros de habilidades, arXiv (2024). DOI: 10.48550/arxiv.2402.15025
arXiv
Fornecido pelo Instituto de Tecnologia de Massachusetts
Citação: Um novo algoritmo para ajudar robôs a praticar habilidades de forma independente para se adaptar a ambientes desconhecidos (2024, 8 de agosto) recuperado em 22 de agosto de 2024 de https://techxplore.com/news/2024-08-algorithm-robots-skills-independently-unfamiliar.html
Este documento está sujeito a direitos autorais. Além de qualquer uso justo para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.