A estrutura de aprendizagem por imitação aprimora as habilidades de manipulação de locomoção dos robôs quadrúpedes na natureza

WildLMa pode melhorar o desempenho de robôs quadrúpedes em tarefas de manipulação de locomotivas de longo horizonte

Um cachorro robótico pegando uma bola de tênis no gramado. Crédito: Yuchen Song/UC San Diego.

Robôs quadrúpedes integrando manipuladores poderiam potencialmente realizar tarefas que envolvem a manipulação de objetos enquanto se movem rapidamente no ambiente circundante. Isso inclui tarefas como coletar o lixo pela casa, coletar objetos específicos e trazê-los para humanos ou depositar itens alvo em locais específicos.

Muitas abordagens projetadas para treinar robôs para realizar essas tarefas com sucesso dependem do aprendizado por imitação. Isto significa que os algoritmos que planejam as ações dos robôs aprendem políticas que permitiriam ao robô completar uma tarefa processando dados de demonstração que mostram como os agentes realizaram essa tarefa.

Embora alguns métodos existentes para treinar robôs em tarefas que envolvem tanto locomoção quanto manipulação de objetos tenham alcançado resultados promissores em simulações, eles muitas vezes não funcionam tão bem “na natureza”. Isto significa essencialmente que eles não permitem que os robôs generalizem bem várias tarefas quando testados em ambientes do mundo real.

Pesquisadores da UC San Diego introduziram recentemente o WildLMa, uma nova estrutura que poderia melhorar as habilidades de manipulação de locomoção de longo prazo de robôs quadrúpedes na natureza. Este quadro, delineado num artigo sobre o arXiv servidor de pré-impressão, tem três componentes que podem aumentar coletivamente a generalização das habilidades aprendidas por meio da aprendizagem por imitação.

“O rápido progresso na aprendizagem por imitação permitiu que os robôs aprendessem com demonstrações humanas”, disse Yuchen Song, autor do artigo, ao Tech Xplore.

“No entanto, esses sistemas muitas vezes se concentram em habilidades específicas e isoladas e lutam para se adaptar a novos ambientes. Nosso trabalho visa superar essa limitação treinando robôs para adquirir habilidades generalizáveis ​​usando Modelos de Visão-Linguagem (VLMs) e, em seguida, aproveitando Grandes Modelos de Linguagem ( LLMs) para encadear essas habilidades em sequências que permitem aos robôs realizar tarefas complexas.”






Crédito: WildLMa

WildLMa, a estrutura desenvolvida por Song e seus colegas, fornece, em primeiro lugar, uma maneira simples de coletar dados de demonstração de especialistas. Isto é conseguido através de um sistema de teleoperação baseado em realidade virtual (VR), no qual agentes humanos podem aproveitar algoritmos de controle de robôs pré-treinados e usar apenas uma mão para controlar todos os movimentos do corpo do robô.

“Essas habilidades pré-treinadas são então aprimoradas por LLMs, que dividem tarefas complexas em etapas gerenciáveis ​​- semelhante a como um ser humano pode abordar um desafio (por exemplo, ‘escolher – navegar – colocar’)”, explicou Song. “O resultado é um robô capaz de executar tarefas longas e de várias etapas de forma eficiente e intuitiva.”

Uma característica que caracteriza a abordagem introduzida por esta equipe de pesquisadores é que ela também integra mecanismos de atenção. Esses mecanismos permitem que os robôs se concentrem em um objeto alvo enquanto completam tarefas específicas.

“A integração dos mecanismos de atenção desempenha um papel crítico para tornar as habilidades do robô mais adaptáveis ​​e generalizáveis”, disse Song. “As aplicações potenciais do WildLMa incluem tarefas domésticas práticas, como arrumar ou recuperar itens. Já demonstramos algumas dessas capacidades.”

Song e os seus colegas já tinham demonstrado o potencial da sua estrutura numa série de experiências no mundo real, onde treinaram com sucesso um robô de quatro patas para completar uma variedade de tarefas. Essas tarefas incluíam limpar o lixo nos corredores e espaços externos da UC San Diego, recolher as entregas de comida e reorganizar os itens em uma estante.

“Embora nosso sistema funcione bem, ele ainda pode ser afetado por distúrbios inesperados, como movimentação de pessoas”, acrescentou Song. “Nossos próximos passos envolverão tornar o sistema mais robusto em ambientes dinâmicos. Em última análise, nosso objetivo é criar robôs assistentes domésticos que sejam acessíveis e acessíveis a todos”.

Mais informações:
Ri-Zhao Qiu et al, WildLMa: Long Horizon Loco-Manipulation in the Wild, arXiv (2024). DOI: 10.48550/arxiv.2411.15131

Mais vídeos disponíveis aqui: https://wildlma.github.io/

Informações do diário:
arXiv

© 2024 Science X Network

Citação: A estrutura de aprendizagem de imitação aprimora as habilidades de manipulação de locomoção dos robôs quadrúpedes na natureza (2024, 6 de dezembro) recuperada em 6 de dezembro de 2024 em https://techxplore.com/news/2024-12-imitation-framework-quadruped-robots-loco. HTML

Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.



Deixe uma resposta