Um exemplo de execução da nossa estrutura no estudo do usuário, onde um usuário pede a um robô para fazer um sanduíche, mas o robô não sabe como cortar queijo, então ele pede ajuda ao usuário com a linguagem e, depois que o usuário ensina essa habilidade, o robô armazena essa habilidade e pode usá-la para sempre para fazer um sanduíche semelhante sozinho. Este trabalho é um caminho em direção a um robô que pode continuar a aprender com o feedback humano em tarefas do mundo real. Crédito: arXiv (2024). DOI: 10.48550/arxiv.2409.03166
Embora os roboticistas tenham introduzido sistemas robóticos cada vez mais sofisticados nas últimas décadas, a maioria das soluções introduzidas até agora são pré-programadas e treinadas para lidar com tarefas específicas. A capacidade de ensinar continuamente novas habilidades aos robôs enquanto interage com eles pode ser altamente benéfica e pode facilitar seu uso generalizado.
Pesquisadores da Arizona State University (ASU) desenvolveram recentemente uma nova abordagem computacional que pode permitir que os usuários treinem robôs continuamente em novas tarefas por meio de interações baseadas em diálogo. Essa abordagem, introduzida em um artigo publicado no arXiv servidor de pré-impressão, foi usado inicialmente para ensinar um manipulador robótico a preparar com sucesso um sanduíche frio.
“Nosso objetivo é contribuir para a implantação de robôs nas casas das pessoas que possam aprender a cozinhar refeições frias”, disse Nakul Gopalan, autor supervisor do artigo, à Tech Xplore. “Queremos isso de uma perspectiva do usuário, onde entendemos quais comportamentos as pessoas precisam de um robô doméstico.
“Essa perspectiva do usuário nos levou a usar linguagem e diálogo ao nos comunicarmos com robôs. Infelizmente, esses robôs podem não vir sabendo tudo, como cozinhar macarrão para você.”
O principal objetivo do trabalho recente de Gopalan e seus colegas era desenvolver um método que permitisse aos robôs adquirir rapidamente habilidades ou comportamentos até então desconhecidos de agentes humanos.
Em um artigo anterior, apresentado na AAAI Conference on Artificial Intelligence, a equipe se concentrou em ensinar robôs a completar tarefas visuais por meio de interações baseadas em diálogo. Seu novo estudo se baseia nesse esforço anterior, introduzindo um método mais abrangente para treinamento de robôs baseado em diálogo.
“Nosso escopo deste trabalho é melhorar a aplicabilidade dos robôs permitindo que os usuários personalizem seus robôs”, disse Weiwei Gu, coautor do artigo, à Tech Xplore. “Como os robôs precisam concluir tarefas diferentes para usuários diferentes, e concluir essas tarefas requer habilidades diferentes, é impossível para os fabricantes pré-treinar robôs com todas as habilidades de que precisam para todos esses cenários. Portanto, os robôs precisam obter essas habilidades e conhecimento relevante para as tarefas dos usuários.”
Para garantir que um robô possa efetivamente adquirir novas habilidades dos usuários, a equipe teve que superar vários desafios. Primeiro, eles tiveram que garantir que os usuários humanos estivessem envolvidos enquanto ensinavam um robô e que o robô comunicasse quaisquer dúvidas ou solicitasse informações adicionais de maneiras que usuários não especialistas pudessem entender.
“Segundo, o robô precisa capturar o conhecimento de apenas algumas interações com os usuários, pois os usuários não podem ficar presos ao robô por um período infinito de tempo”, disse Gu. “Por último, o robô não deve esquecer nenhum conhecimento pré-existente, apesar de obter novos conhecimentos.”
Gopalan, Gu e seus colegas Suresh Kondepudi e Lixiao Huang se propuseram a abordar coletivamente todos esses requisitos de aprendizado contínuo. Seu sistema de aprendizado contínuo interativo proposto aborda essas três subtarefas por meio de três componentes distintos.
“Primeiro, um sistema de diálogo baseado em modelo de linguagem grande (LLM) faz perguntas aos usuários para adquirir qualquer conhecimento que ele possa não ter ou continuar interagindo com as pessoas”, explicou Gopalan. “No entanto, como o robô sabe que não sabe de algo?
“Para resolver esse problema, treinamos um segundo componente em uma biblioteca de habilidades de robôs e aprendemos seus mapeamentos para comandos de linguagem. Se uma habilidade solicitada não estiver próxima da linguagem que o robô já conhece, ele pede uma demonstração.”
O sistema recém-desenvolvido pela equipe também inclui um mecanismo que permite que robôs entendam quando humanos estão demonstrando como completar uma tarefa. Se as demonstrações fornecidas foram insuficientes e eles ainda não adquiriram uma habilidade de forma confiável, o módulo permite que robôs peçam outras adicionais.
“Usamos conjuntamente representações de habilidades e representações de linguagem para modelar o conhecimento dos robôs sobre uma habilidade”, disse Gu. “Quando o robô precisa executar uma habilidade, ele primeiro estima se possui a capacidade de executar diretamente a habilidade, comparando as representações de linguagem da habilidade e de todas as habilidades que o robô possui.
“O robô executa a habilidade diretamente se estiver confiante de que pode fazê-lo. Caso contrário, ele pede ao usuário para demonstrar a habilidade executando-a ele mesmo na frente dos robôs.”
Basicamente, depois que um robô observa um usuário concluindo uma tarefa específica, o sistema da equipe determina que ele já possui as habilidades necessárias para concluí-la, com base nas informações visuais coletadas.
Se o sistema prever que o robô ainda não adquiriu a nova habilidade, o robô solicitará que o usuário delineie as trajetórias associadas do robô usando um controle remoto, para que ele possa adicioná-las à sua biblioteca de habilidades e concluir a mesma tarefa de forma independente no futuro.
“Conectamos essas representações de habilidades com um LLM para permitir que o robô expresse suas dúvidas, para que até mesmo usuários não especialistas possam entender os requisitos do robô e ajudar adequadamente”, disse Gu.
O segundo módulo do sistema é baseado em action chunking transformers (ACT) pré-treinados e ajustados com adaptação de baixa classificação (LoRA). Por fim, a equipe desenvolveu um módulo de aprendizado contínuo que permite que um robô adicione continuamente novas habilidades à sua biblioteca de habilidades.
“Após o robô ser pré-treinado com certas habilidades pré-selecionadas, a maioria dos pesos da rede neural é fixada, e apenas uma pequena porção dos pesos introduzidos pela Adaptação de Baixo Nível é usada para aprender novas habilidades para os robôs”, disse Gu. “Descobrimos que nosso algoritmo foi capaz de aprender novas habilidades de forma eficiente sem esquecer catastroficamente nenhuma habilidade pré-existente.”
Os pesquisadores avaliaram seu sistema de aprendizado de habilidades de circuito fechado proposto em uma série de testes do mundo real, aplicando-o a um manipulador robótico Franka FR3. Este robô interagiu com oito usuários humanos e gradualmente aprendeu a lidar com uma tarefa simples do dia a dia, ou seja, fazer um sanduíche.
“O fato de podermos demonstrar uma abordagem de treinamento de habilidades de circuito fechado com diálogo com usuários reais é impressionante por si só”, disse Gopalan. “Mostramos que o robô pode fazer sanduíches ensinados por usuários que vieram ao nosso laboratório.”
Os resultados iniciais coletados pelos pesquisadores foram altamente promissores, pois o componente ACT-LORA adquiriu novas habilidades refinadas com 100% de precisão após apenas cinco demonstrações humanas. Além disso, o modelo manteve uma precisão de 74,75% em habilidades pré-treinadas, superando outros modelos semelhantes.
“Estamos muito animados que o sistema robótico que projetamos foi capaz de funcionar com usuários reais, pois mostra um futuro promissor para aplicações robóticas reais para este trabalho”, disse Gu. “No entanto, encontramos espaço para melhorar a eficácia da comunicação de tal sistema.”
Embora o sistema de aprendizado recém-desenvolvido tenha produzido bons resultados nos experimentos da equipe, ele também tem algumas limitações. Por exemplo, a equipe descobriu que ele não podia suportar turnos entre robôs e usuários humanos, então ela confiou nos pesquisadores para elucidar de quem era a vez de enfrentar a tarefa em questão.
“Embora nossas descobertas tenham sido animadoras para nós, também observamos que o robô leva tempo para aprender e isso pode ser irritante para os usuários”, disse Gopalan. “Ainda temos que encontrar mecanismos para tornar esse processo mais rápido, o que é um problema central de aprendizado de máquina que pretendemos resolver em seguida.
“Queremos que esse trabalho seja feito nas casas das pessoas para experimentos reais, para que saibamos onde estão os desafios no uso de robôs em uma situação de assistência domiciliar.”
O sistema desenvolvido por Gu, Gopalan e seus colegas poderá em breve ser melhorado ainda mais e testado em uma gama mais ampla de tarefas de cozinha. Os pesquisadores agora estão trabalhando para resolver os problemas de turnos que observaram e estender o conjunto de refeições que os usuários podem ensinar os robôs a cozinhar. Eles também planejam conduzir mais experimentos envolvendo um grupo maior de participantes humanos.
“O problema da tomada de turnos é um problema interessante em interações naturais”, acrescentou Gu. “Este problema de pesquisa também tem fortes implicações de aplicação em robôs domésticos interativos.
“Além de resolver esse problema, estamos interessados em aumentar o tamanho desse trabalho introduzindo mais tarefas diferentes e experimentando nosso sistema com usuários de dados demográficos do mundo real.”
Weiwei Gu et al, Aprendizagem contínua de habilidades e tarefas por meio do diálogo, arXiv (2024). DOI: 10.48550/arxiv.2409.03166
arXiv
© 2024 Rede Ciência X
Citação: Abordagem computacional pode ensinar continuamente novas habilidades aos robôs por meio do diálogo (2024, 19 de setembro) recuperado em 19 de setembro de 2024 de https://techxplore.com/news/2024-09-approach-robots-skills-dialogue.html
Este documento está sujeito a direitos autorais. Além de qualquer uso justo para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.