Crédito: arXiv (2024). DOI: 10.48550/arxiv.2410.24221
Uma das abordagens mais promissoras para ensinar robôs a realizar tarefas manuais, como limpar pratos ou preparar alimentos, é conhecida como aprendizagem por imitação. A aprendizagem por imitação de ponta a ponta normalmente envolve o treinamento de um algoritmo de aprendizagem profunda em vídeos brutos, imagens e/ou dados de captura de movimento de humanos completando tarefas manuais.
Durante esse treinamento, o algoritmo aprende gradualmente a produzir ações de saída (isto é, movimentos articulares do robô, trajetórias, etc.) que permitiriam que um robô concluísse com sucesso as mesmas tarefas.
Embora as técnicas de aprendizagem por imitação possam melhorar a capacidade dos robôs de completar tarefas complexas de manipulação de objetos, elas muitas vezes não permitem que os robôs generalizem tarefas que não estão incluídas no conjunto de dados de treinamento. Além disso, a recolha de demonstrações de formação para uma vasta gama de tarefas pode ser um desafio e requer sensores ou equipamentos avançados.
Pesquisadores do Instituto de Tecnologia da Geórgia introduziram recentemente o EgoMimic, uma nova estrutura que poderia ser usada para coletar facilmente dados de demonstração mais variados para aprendizagem por imitação. Essa estrutura, apresentada em um artigo publicado no arXiv servidor de pré-impressão, oferece uma plataforma escalável para reunir demonstrações em vídeo de humanos completando tarefas manuais, do ponto de vista da pessoa que completa a tarefa (ou seja, egocêntrica).
“Apresentamos o EgoMimic, uma estrutura completa que dimensiona a manipulação por meio de dados de incorporação humana, especificamente vídeos humanos egocêntricos combinados com rastreamento de mãos em 3D”, escreveram Simar Kareer, Dhruv Patel e seus colegas em seu artigo.
“EgoMimic consegue isso através de: (1) um sistema para capturar dados de incorporação humana usando os óculos ergonômicos do Projeto Aria, (2) um manipulador bimanual de baixo custo que minimiza a lacuna cinemática em relação aos dados humanos, (3) técnicas de alinhamento de dados entre domínios , e (4) uma arquitetura de aprendizagem de imitação que co-treina em dados humanos e de robôs.”
O primeiro componente do framework EgoMimic, o sistema para capturar vídeos de demonstração, conta com o uso do Projeto Aria, óculos inteligentes vestíveis criados no Meta Reality Labs Research. Esses óculos são usados por humanos enquanto realizam tarefas manuais diárias, para registrar a tarefa do seu ponto de vista.
O sistema robótico bimanual que os pesquisadores usaram para realizar as mesmas tarefas realizadas por humanos consiste em dois braços robóticos Viper X integrando câmeras de pulso RealSense da Intel, que por sua vez são controladas por dois braços robóticos WidowX. Notavelmente, este robô bimanual também “usa” óculos Aria ao completar uma tarefa, pois isso minimiza a diferença entre a filmagem de demonstradores humanos completando tarefas e a visão do robô do espaço de trabalho.
“Em comparação com trabalhos anteriores que extraem apenas intenções de alto nível de vídeos humanos, nossa abordagem trata dados humanos e de robôs igualmente como dados de demonstração incorporados e aprende uma política unificada de ambas as fontes de dados”, escreveram Kareer, Patel e seus colegas.
Os pesquisadores testaram a estrutura proposta executando uma série de experimentos em seu laboratório, onde seu robô aprendeu a completar tarefas do mundo real de longo horizonte. Por exemplo, o robô aprendeu a pegar um pequeno brinquedo de pelúcia, colocá-lo em uma tigela, pegar a tigela e despejar o brinquedo sobre a mesa e depois repetir essa sequência de movimentos por 40 segundos.
Outras tarefas nas quais foi treinado incluíam dobrar camisetas de uma maneira específica e encher uma sacola de supermercado com sacos de batatas fritas. Os resultados destas experiências iniciais foram altamente promissores, uma vez que a estrutura EgoMimic produziu melhores desempenhos nestas três tarefas do que outras técnicas de aprendizagem por imitação de última geração introduzidas no passado, ao mesmo tempo que permitiu ao robô aplicar eficazmente as competências que aprendeu. a tarefas que não encontrou durante o treinamento.
“EgoMimic alcança melhorias significativas em um conjunto diversificado de tarefas de manipulação bimanual, de braço único e de longo horizonte em relação aos métodos de aprendizagem de imitação de última geração e permite a generalização para cenas inteiramente novas”, escreveram Kareer, Patel e seus colegas. “Finalmente, mostramos uma tendência de escala favorável para o EgoMimic, onde adicionar 1 hora de dados manuais adicionais é significativamente mais valioso do que 1 hora de dados adicionais do robô.”
O código dos modelos de processamento e treinamento de dados utilizados pelos pesquisadores está disponível no GitHub. No futuro, o EgoMimic ou suas adaptações poderão ser empregados por outros roboticistas em todo o mundo para melhorar o desempenho e a generalização de vários sistemas robóticos em várias tarefas cotidianas que envolvem a manipulação de objetos.
Simar Kareer et al, EgoMimic: Dimensionando a aprendizagem de imitação via vídeo egocêntrico, arXiv (2024). DOI: 10.48550/arxiv.2410.24221
arXiv
© 2024 Science X Network
Citação: Uma nova estrutura pode criar demonstrações humanas egocêntricas para aprendizagem por imitação (2024, 29 de novembro) recuperada em 29 de novembro de 2024 em https://techxplore.com/news/2024-11-framework-egocentric-human-imitation.html
Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.