LLMs multimodais e de raciocínio ampliam os dados de treinamento para tarefas robóticas hábeis

LLMs multimodais e de raciocínio ampliam os dados de treinamento para tarefas robóticas hábeis

Crédito: Instituto de Tecnologia de Massachusetts

Para robôs, a simulação é um ótimo professor para aprender tarefas de longo horizonte (várias etapas), especialmente em comparação com o tempo necessário para coletar dados de treinamento do mundo real.

No entanto, simular ações digitais para ensinar novas tarefas aos robôs também consome tempo para os humanos. Cortando esses minutos pela metade, o Laboratório de Ciência da Computação e Inteligência Artificial do MIT (CSAIL) Ph.D. o aluno Lirui Wang e a nova estrutura “GenSim2” de seus colegas usam grandes modelos de linguagem multimodais e de raciocínio (LLMs que processam e produzem texto, imagens e outras mídias) para superdimensionar dados de treinamento para robôs.

Os pesquisadores combinaram os poderes do LLM GPT-4V multimodal (que pode fazer melhores inferências sobre texto e imagens) e o raciocínio LLM OpenAI o1 (que pode “pensar” antes de responder) para fazer 10 vídeos de tarefas do mundo real e gerar 100 novos, vídeos de ação simulados. Os resultados são publicados no arXiv servidor de pré-impressão.

O GenSim2 pode então converter nomes de tarefas em descrições de tarefas e depois em código de tarefa, que pode ser simulado em uma sequência de ações para um robô executar. A abordagem poderia eventualmente ajudar robôs domésticos em tarefas como descobrir cada etapa necessária para reaquecer seu café da manhã, incluindo abrir um micro-ondas e colocar pão em uma torradeira. Também poderia um dia ajudar em ambientes de fabricação e logística, onde uma máquina poderá precisar transportar novos materiais em várias etapas.

Esta estrutura é uma sequência do trabalho anterior de Wang, “GenSim”, que usou LLMs para codificar novas tarefas de escolha e colocação para robôs. Ele queria expandir sua abordagem para atividades mais hábeis com categorias de objetos mais complexas, como abrir uma caixa ou fechar um cofre.

“Para planear estas tarefas mais complicadas em robótica, precisamos de descobrir como resolvê-las”, diz Wang. “Esse problema de planejamento não estava presente no GenSim, pois as tarefas eram muito mais simples, então precisávamos apenas de LLMs ‘cegos’. Com o GenSim2, integramos o modelo lógico GPT-4V, que ensina modelos multimodais a ‘ver’ analisando entradas de imagem com melhores habilidades de raciocínio, agora podemos codificar a tarefa de simulação e gerar planos em segundos.”

Os detalhes básicos do GenSim2

Primeiro, você solicita que um LLM como o GPT-4 gere um novo plano de tarefas como “colocar uma bola em uma caixa”, incluindo imagens, ativos e pontos-chave (ou pontos específicos em uma imagem). A partir daí, o GPT-4V analisa esses detalhes e codifica concisamente quais poses e ações são necessárias para executar a tarefa. Os humanos podem fornecer feedback sobre este plano para o GPT-4V e então refinar seu esboço. Por fim, um planejador de movimento simula essas ações em vídeos, gerando novos dados de treinamento para o robô.

Para converter esses planos em ações, os pesquisadores também projetaram uma nova arquitetura chamada “transformador de nuvem de pontos proprioceptivos” (PPT). O PPT converte linguagem, nuvem de pontos (pontos de dados dentro de um espaço 3D) e entradas de propriocepção em uma sequência de ação final. Isso permite que um robô aprenda a imitar simulações de vídeo e generalizar para objetos que nunca viu antes.







GenSim2 usa LLMs multimodais para gerar grandes quantidades de tarefas robóticas articuladas de 6 dof em simulação para pré-treinamento de políticas multitarefa 3D generalistas. A estrutura “amplifica” tarefas e trajetórias limitadas do mundo real com modelos básicos. Crédito: GenSim2

Luzes, câmera, plano de ação!

A abordagem aprimorada do GenSim2 gerou dados para 100 tarefas articuladas com 200 objetos. Entre elas, o sistema simulou 50 tarefas de longo horizonte, como guardar ouro em um cofre e preparar o café da manhã. Comparado ao agente robótico generativo e à linha de base “RoboGen”, o GenSim2 teve uma taxa de sucesso 20% melhor na geração e planejamento de tarefas primitivas, ao mesmo tempo que foi mais confiável nas de longo horizonte. Os pesquisadores observam que ter modelos multimodais que podem raciocinar sobre informações visuais deu-lhes uma vantagem.

Outra descoberta intrigante: os humanos levaram em média apenas cerca de quatro minutos para verificar os planos robóticos – metade do tempo que levavam para projetar uma tarefa manualmente. Os esforços humanos incluíram rotular pontos-chave no planejador de movimento e fornecer feedback para ajudar o modelo de linguagem multimodal a melhorar seus planos.

Em experimentos do mundo real, o GenSim2 ajudou com sucesso a planejar tarefas para um robô, como abrir um laptop e fechar uma gaveta. Quando treinou tanto em simulação como em dados reais para desenvolver a sua política robótica, a estrutura teve uma taxa de sucesso melhor do que qualquer uma delas isoladamente. Isto reduz o esforço necessário para coletar grandes quantidades de dados no mundo real.

Embora o GenSim2 seja uma continuação mais complexa e avançada do seu antecessor, os pesquisadores observam que gostariam que ele planejasse e simulasse tarefas robóticas com ainda menos intervenção humana. Atualmente, ele se esforça para criar e codificar tarefas significativas de forma confiável por conta própria.

Wang também observa que, embora seja um avanço na geração automatizada de tarefas, os pesquisadores pretendem tornar o sistema mais avançado. Para fazer isso, eles planejam aumentar a complexidade e a diversidade das tarefas por meio de agentes multimodais avançados e gerar ativos 3D.

“Ampliar os dados do robô tem sido um grande desafio na criação de modelos generalizáveis ​​de fundação de robôs”, diz Yunzhu Li, professor assistente de Ciência da Computação na Universidade de Columbia, que não esteve envolvido no artigo.

“O GenSim2 aborda isso desenvolvendo uma estrutura escalável para geração de dados e ações, usando uma combinação de simulação, GPT-4 e transferência de sim para real. Estou animado para ver como este trabalho pode desencadear um ‘momento GPT’ para robótica, expandindo efetivamente os dados disponíveis para robôs.”

Mais informações:
Pu Hua et al, GenSim2: Escalando a geração de dados do robô com LLMs multimodais e de raciocínio, arXiv (2024). DOI: 10.48550/arxiv.2410.03645

Informações do diário:
arXiv

Fornecido pelo Instituto de Tecnologia de Massachusetts

Citação: LLMs multimodais e de raciocínio superdimensionam dados de treinamento para tarefas robóticas hábeis (2024, 22 de outubro) recuperados em 22 de outubro de 2024 em https://techxplore.com/news/2024-10-multimodal-llms-supersize-dexterous-robotic.html

Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.



Deixe uma resposta