Desde limpar respingos até servir comida, os robôs estão sendo ensinados a realizar tarefas domésticas cada vez mais complicadas. Muitos desses trainees de robôs domésticos estão aprendendo por meio da imitação; eles são programados para copiar os movimentos pelos quais um humano os guia fisicamente.
Acontece que os robôs são excelentes imitadores. Mas, a menos que os engenheiros também os programem para se ajustarem a todos os solavancos e empurrões possíveis, os robôs não sabem necessariamente como lidar com essas situações, a não ser que comecem a sua tarefa do topo.
Agora, os engenheiros do MIT pretendem dar aos robôs um pouco de bom senso quando confrontados com situações que os desviam do caminho de treinamento. Eles desenvolveram um método que conecta dados de movimento do robô com o “conhecimento de senso comum” de grandes modelos de linguagem, ou LLMs.
Sua abordagem permite que um robô analise logicamente muitas tarefas domésticas em subtarefas e se ajuste fisicamente às interrupções dentro de uma subtarefa para que o robô possa seguir em frente sem ter que voltar atrás e iniciar uma tarefa do zero – e sem que os engenheiros tenham que programar explicitamente correções para todas as falhas possíveis ao longo do caminho.
“A aprendizagem por imitação é uma abordagem convencional que permite robôs domésticos. Mas se um robô imita cegamente as trajetórias de movimento de um ser humano, pequenos erros podem se acumular e eventualmente atrapalhar o resto da execução”, diz Yanwei Wang, estudante de pós-graduação no Departamento de Engenharia Elétrica do MIT. e Ciência da Computação (EECS). “Com nosso método, um robô pode autocorrigir erros de execução e melhorar o sucesso geral da tarefa.”
Wang e seus colegas detalham sua nova abordagem em um estudo que apresentarão na Conferência Internacional sobre Representações de Aprendizagem (ICLR 2024) em maio. Os co-autores do estudo incluem os estudantes de pós-graduação do EECS Tsun-Hsuan Wang e Jiayuan Mao, Michael Hagenow, pós-doutorado no Departamento de Aeronáutica e Astronáutica do MIT (AeroAstro), e Julie Shah, professora HN Slater em Aeronáutica e Astronáutica no MIT.
Tarefa de idioma
Os pesquisadores ilustram sua nova abordagem com uma tarefa simples: retirar bolinhas de gude de uma tigela e despejá-las em outra. Para realizar essa tarefa, os engenheiros normalmente moveriam um robô através de movimentos de escavação e vazamento – tudo em uma trajetória fluida. Eles podem fazer isso várias vezes, para dar ao robô uma série de demonstrações humanas para imitar.
“Mas a demonstração humana é uma trajetória longa e contínua”, diz Wang.
A equipe percebeu que, embora um ser humano possa demonstrar uma única tarefa de uma só vez, essa tarefa depende de uma sequência de subtarefas, ou trajetórias. Por exemplo, o robô precisa primeiro alcançar uma tigela antes de poder colher, e deve recolher bolinhas de gude antes de passar para a tigela vazia, e assim por diante.
Se um robô for pressionado ou cutucado para cometer um erro durante qualquer uma dessas subtarefas, seu único recurso é parar e começar desde o início, a menos que os engenheiros rotulem explicitamente cada subtarefa e programem ou coletem novas demonstrações para o robô se recuperar da tarefa. disse falha, para permitir que um robô se corrija no momento.
“Esse nível de planejamento é muito tedioso”, diz Wang.
Em vez disso, ele e seus colegas descobriram que parte desse trabalho poderia ser feito automaticamente pelos LLMs. Esses modelos de aprendizagem profunda processam imensas bibliotecas de texto, que usam para estabelecer conexões entre palavras, frases e parágrafos. Através destas ligações, um LLM pode então gerar novas frases com base no que aprendeu sobre o tipo de palavra que provavelmente se seguirá à última.
Por sua vez, os investigadores descobriram que, além de frases e parágrafos, um LLM pode ser solicitado a produzir uma lista lógica de subtarefas que estariam envolvidas numa determinada tarefa. Por exemplo, se solicitado a listar as ações envolvidas em retirar bolinhas de gude de uma tigela para outra, um LLM pode produzir uma sequência de verbos como “alcançar”, “colher”, “transportar” e “despejar”.
“Os LLMs têm uma maneira de dizer como executar cada etapa de uma tarefa, em linguagem natural. A demonstração contínua de um ser humano é a personificação dessas etapas, no espaço físico”, diz Wang. “E queríamos conectar os dois, para que um robô soubesse automaticamente em que estágio se encontra uma tarefa e pudesse replanejar e se recuperar por conta própria.”
Mapeando bolinhas de gude
Para sua nova abordagem, a equipe desenvolveu um algoritmo para conectar automaticamente o rótulo de linguagem natural de um LLM para uma subtarefa específica com a posição de um robô no espaço físico ou uma imagem que codifica o estado do robô. Mapear as coordenadas físicas de um robô, ou uma imagem do estado do robô, para um rótulo de linguagem natural é conhecido como “aterramento”. O novo algoritmo da equipe foi projetado para aprender um “classificador” de aterramento, o que significa que ele aprende a identificar automaticamente em que subtarefa semântica um robô está – por exemplo, “alcance” versus “colher” – dadas suas coordenadas físicas ou uma visualização de imagem.
“O classificador de aterramento facilita esse diálogo entre o que o robô está fazendo no espaço físico e o que o LLM sabe sobre as subtarefas, e as restrições às quais você deve prestar atenção dentro de cada subtarefa”, explica Wang.
A equipe demonstrou a abordagem em experimentos com um braço robótico que eles treinaram em uma tarefa de escavação de bolinhas de gude. Os experimentadores treinaram o robô guiando-o fisicamente na tarefa de primeiro alcançar uma tigela, pegar bolinhas de gude, transportá-las sobre uma tigela vazia e despejá-las dentro.
Depois de algumas demonstrações, a equipe usou um LLM pré-treinado e pediu ao modelo que listasse as etapas envolvidas na coleta de bolinhas de gude de uma tigela para outra. Os pesquisadores então usaram seu novo algoritmo para conectar as subtarefas definidas do LLM com os dados da trajetória de movimento do robô. O algoritmo aprendeu automaticamente a mapear as coordenadas físicas do robô nas trajetórias e a visualização da imagem correspondente a uma determinada subtarefa.
A equipe então deixou o robô realizar a tarefa de escavação sozinho, usando os classificadores de aterramento recém-aprendidos. À medida que o robô avançava nas etapas da tarefa, os experimentadores empurravam e empurravam o robô para fora de seu caminho e arrancavam bolinhas de gude da colher em vários pontos.
Em vez de parar e começar do início novamente, ou continuar cegamente, sem bolinhas de gude na colher, o bot foi capaz de se autocorrigir e completou cada subtarefa antes de passar para a próxima. (Por exemplo, ele garantiria que coletasse bolinhas de gude com sucesso antes de transportá-las para a tigela vazia.)
“Com o nosso método, quando o robô comete erros, não precisamos pedir aos humanos para programar ou dar demonstrações extras de como se recuperar de falhas”, diz Wang. “Isso é muito emocionante porque há um enorme esforço agora para treinar robôs domésticos com dados coletados em sistemas de teleoperação. Nosso algoritmo agora pode converter esses dados de treinamento em comportamento robótico robusto que pode realizar tarefas complexas, apesar de perturbações externas.”
Mais Informações:
Submissão de artigos: Fundamentando planos de linguagem em demonstrações por meio de perturbações contrafactuais
Fornecido pelo Instituto de Tecnologia de Massachusetts
Esta história foi republicada como cortesia do MIT News (web.mit.edu/newsoffice/), um site popular que cobre notícias sobre pesquisa, inovação e ensino do MIT.
Citação: Engenharia de robôs domésticos para ter um pouco de bom senso (2024, 25 de março) recuperado em 25 de março de 2024 em https://techxplore.com/news/2024-03-household-robots-common.html
Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.