Ensinando a um robô seus limites para concluir tarefas abertas com segurança

Ensinando a um robô seus limites para concluir tarefas abertas com segurança

Ph.D. alunos Aidan Curtis (à esquerda) e Nishanth Kumar. Para ajudar os robôs a executar tarefas abertas com segurança, os pesquisadores usaram modelos de visão para ver o que está perto da máquina e modelar suas restrições. Sua estratégia “PRoC3S” faz com que um LLM esboce um plano de ação que é verificado em um simulador para garantir que funcionará no mundo real. Crédito: Mike Grimmett/MIT CSAIL

Se alguém aconselhar você a “conhecer seus limites”, provavelmente está sugerindo que você faça coisas como exercícios com moderação. Para um robô, porém, o lema representa restrições de aprendizagem, ou limitações de uma tarefa específica dentro do ambiente da máquina, para realizar tarefas de forma segura e correta.

Por exemplo, imagine pedir a um robô para limpar sua cozinha quando ele não entende a física do ambiente. Como a máquina pode gerar um plano prático de várias etapas para garantir que o ambiente esteja impecável? Modelos de linguagem grande (LLMs) podem aproximá-los, mas se o modelo for treinado apenas em texto, é provável que perca detalhes importantes sobre as restrições físicas do robô, como até onde ele pode chegar ou se há obstáculos próximos a serem evitados. Atenha-se apenas aos LLMs e provavelmente acabará limpando manchas de massa do piso.

Para orientar os robôs na execução dessas tarefas abertas, os pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) do MIT usaram modelos de visão para ver o que está perto da máquina e modelar suas restrições. A estratégia da equipe envolve um LLM esboçando um plano que é verificado em um simulador para garantir que seja seguro e realista. Caso essa sequência de ações seja inviável, o modelo de linguagem irá gerar um novo plano, até chegar a um que o robô possa executar.

Este método de tentativa e erro, que os pesquisadores chamam de “Planejamento para Robôs via Código para Satisfação Contínua de Restrições” (PRoC3S), testa planos de longo horizonte para garantir que eles satisfaçam todas as restrições e permite que um robô execute tarefas diversas como escrever letras individuais, desenhando uma estrela e classificando e colocando blocos em diferentes posições. No futuro, o PRoC3S poderá ajudar os robôs a realizar tarefas mais complexas em ambientes dinâmicos como casas, onde podem ser solicitados a realizar uma tarefa geral composta por muitas etapas (como “preparar o café da manhã”).

“LLMs e sistemas robóticos clássicos, como planejadores de tarefas e movimentos, não podem executar esses tipos de tarefas por conta própria, mas juntos, sua sinergia torna possível a resolução de problemas abertos”, diz Ph.D. estudante Nishanth Kumar SM ’24, co-autor principal de um novo artigo sobre PRoC3S postado no arXiv servidor de pré-impressão.

“Estamos criando uma simulação instantânea do que está ao redor do robô e testando muitos planos de ação possíveis. Os modelos de visão nos ajudam a criar um mundo digital muito realista que permite ao robô raciocinar sobre ações viáveis ​​para cada etapa de um longo -plano de horizonte.”

O trabalho da equipe foi apresentado no mês passado na Conferência sobre Aprendizagem de Robôs (CoRL) em Munique, Alemanha.

O método dos pesquisadores usa um LLM pré-treinado em textos da Internet. Antes de pedir ao PRoC3S para realizar uma tarefa, a equipe forneceu ao seu modelo de linguagem um exemplo de tarefa (como desenhar um quadrado) relacionada à tarefa alvo (desenhar uma estrela). A tarefa de exemplo inclui uma descrição da atividade, um plano de longo horizonte e detalhes relevantes sobre o ambiente do robô.

Mas como esses planos se saíram na prática? Nas simulações, o PRoC3S desenhou com sucesso estrelas e letras oito em cada dez vezes cada. Ele também poderia empilhar blocos digitais em pirâmides e linhas e colocar itens com precisão, como frutas em um prato. Em cada uma dessas demonstrações digitais, o método CSAIL concluiu a tarefa solicitada de forma mais consistente do que abordagens comparáveis, como “LLM3” e “Code as Policies”.

Em seguida, os engenheiros do CSAIL trouxeram sua abordagem para o mundo real. Seu método desenvolveu e executou planos em um braço robótico, ensinando-o a colocar blocos em linhas retas. O PRoC3S também permitiu que a máquina colocasse blocos azuis e vermelhos em tigelas correspondentes e movesse todos os objetos para perto do centro de uma mesa.

Kumar e o coautor principal Aidan Curtis SM ’23, que também é Ph.D. estudante que trabalha no CSAIL, diz que essas descobertas indicam como um LLM pode desenvolver planos mais seguros nos quais os humanos podem confiar para funcionar na prática. Os pesquisadores imaginam um robô doméstico que possa receber uma solicitação mais geral (como “traga-me alguns chips”) e descobrir com segurança as etapas específicas necessárias para executá-la. O PRoC3S poderia ajudar um robô a testar planos em um ambiente digital idêntico para encontrar um curso de ação funcional e, mais importante, trazer um lanche saboroso para você.

Para trabalhos futuros, os pesquisadores pretendem melhorar os resultados usando um simulador de física mais avançado e expandir para tarefas mais elaboradas de horizonte mais longo por meio de técnicas de pesquisa de dados mais escaláveis. Além disso, eles planejam aplicar o PRoC3S a robôs móveis, como um quadrúpede, para tarefas que incluem caminhar e examinar os arredores.

“Usar modelos básicos como o ChatGPT para controlar as ações dos robôs pode levar a comportamentos inseguros ou incorretos devido a alucinações”, diz o pesquisador do AI Institute, Eric Rosen, que não está envolvido na pesquisa. “O PRoC3S aborda esse problema aproveitando modelos básicos para orientação de tarefas de alto nível, ao mesmo tempo em que emprega técnicas de IA que raciocinam explicitamente sobre o mundo para garantir ações comprovadamente seguras e corretas.

“Essa combinação de abordagens baseadas em planejamento e orientadas por dados pode ser a chave para o desenvolvimento de robôs capazes de compreender e executar de forma confiável uma gama mais ampla de tarefas do que é atualmente possível”.

Mais informações:
Aidan Curtis et al, Confie no PRoC3S: Resolvendo Problemas de Robótica de Longo Horizonte com LLMs e Satisfação de Restrições, arXiv (2024). DOI: 10.48550/arxiv.2406.05572

Informações do diário:
arXiv

Fornecido pelo Instituto de Tecnologia de Massachusetts

Esta história foi republicada como cortesia do MIT News (web.mit.edu/newsoffice/), um site popular que cobre notícias sobre pesquisa, inovação e ensino do MIT.

Citação: Ensinando a um robô seus limites para concluir tarefas abertas com segurança (2024, 13 de dezembro) recuperado em 13 de dezembro de 2024 em https://techxplore.com/news/2024-12-robot-limits-tasks-safely.html

Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.



Deixe uma resposta