Explorando uma nova maneira de ensinar robôs, os pesquisadores de Princeton descobriram que as descrições de ferramentas em linguagem humana podem acelerar o aprendizado de um braço robótico simulado levantando e usando uma variedade de ferramentas.
Os resultados se baseiam em evidências de que fornecer informações mais ricas durante o treinamento de inteligência artificial (IA) pode tornar os robôs autônomos mais adaptáveis a novas situações, melhorando sua segurança e eficácia.
Adicionar descrições da forma e função de uma ferramenta ao processo de treinamento do robô melhorou a capacidade do robô de manipular ferramentas recém-encontradas que não estavam no conjunto de treinamento original. Uma equipe de engenheiros mecânicos e cientistas da computação apresentou o novo método, Aprendizagem Acelerada de Manipulação de Ferramentas com LANguage, ou ATLA, na Conferência sobre Aprendizagem de Robôs em 14 de dezembro.
Os braços robóticos têm grande potencial para ajudar em tarefas repetitivas ou desafiadoras, mas treinar robôs para manipular ferramentas de forma eficaz é difícil: as ferramentas têm uma grande variedade de formas e a destreza e a visão de um robô não são páreo para as de um ser humano.
“Informações extras na forma de linguagem podem ajudar um robô a aprender a usar as ferramentas mais rapidamente”, disse a coautora do estudo Anirudha Majumdar, professora assistente de engenharia mecânica e aeroespacial em Princeton, que lidera o Intelligent Robot Motion Lab.
A equipe obteve descrições de ferramentas consultando o GPT-3, um grande modelo de linguagem lançado pela OpenAI em 2020 que usa uma forma de IA chamada aprendizado profundo para gerar texto em resposta a um prompt. Depois de experimentar vários prompts, eles decidiram usar “Descreva o [feature] de [tool] em uma resposta detalhada e científica”, onde o recurso era a forma ou finalidade da ferramenta.
“Como esses modelos de linguagem foram treinados na Internet, em certo sentido, você pode pensar nisso como uma maneira diferente de recuperar essas informações”, de forma mais eficiente e abrangente do que usar crowdsourcing ou coletar sites específicos para descrições de ferramentas, disse Karthik Narasimhan, um professor assistente de ciência da computação e co-autor do estudo. Narasimhan é membro principal do corpo docente do grupo de processamento de linguagem natural (NLP) de Princeton e contribuiu para o modelo de linguagem GPT original como cientista pesquisador visitante na OpenAI.
Este trabalho é a primeira colaboração entre os grupos de pesquisa de Narasimhan e Majumdar. Majumdar se concentra no desenvolvimento de políticas baseadas em IA para ajudar os robôs – incluindo robôs voadores e ambulantes – a generalizar suas funções para novas configurações, e ele estava curioso sobre o potencial do recente “progresso maciço no processamento de linguagem natural” para beneficiar o aprendizado de robôs, disse ele.
Para seus experimentos simulados de aprendizado de robôs, a equipe selecionou um conjunto de treinamento de 27 ferramentas, variando de um machado a um rodo. Eles deram ao braço robótico quatro tarefas diferentes: empurrar a ferramenta, levantar a ferramenta, usá-la para varrer um cilindro ao longo de uma mesa ou martelar um pino em um buraco. Os pesquisadores desenvolveram um conjunto de políticas usando abordagens de treinamento de aprendizado de máquina com e sem informações de idioma e, em seguida, compararam o desempenho das políticas em um conjunto de teste separado de nove ferramentas com descrições emparelhadas.
Essa abordagem é conhecida como meta-aprendizagem, pois o robô melhora sua capacidade de aprender a cada tarefa sucessiva. Não é apenas aprender a usar cada ferramenta, mas também “tentar aprender a entender as descrições de cada uma dessas centenas de ferramentas diferentes, para que, ao ver a 101ª ferramenta, seja mais rápido aprender a usar a nova ferramenta”, disse Narasimhan. “Estamos fazendo duas coisas: estamos ensinando o robô a usar as ferramentas, mas também estamos ensinando inglês.”
Os pesquisadores mediram o sucesso do robô em empurrar, levantar, varrer e martelar com as nove ferramentas de teste, comparando os resultados alcançados com as políticas que usavam linguagem no processo de aprendizado de máquina com aquelas que não usavam informações de linguagem. Na maioria dos casos, as informações de idioma ofereciam vantagens significativas para a capacidade do robô de usar novas ferramentas.
Uma tarefa que mostrou diferenças notáveis entre as políticas foi usar um pé de cabra para varrer um cilindro, ou garrafa, ao longo de uma mesa, disse Allen Z. Ren, Ph.D. aluno do grupo de Majumdar e principal autor do trabalho de pesquisa.
“Com o treinamento de linguagem, ele aprende a segurar a ponta longa do pé de cabra e usar a superfície curva para restringir melhor o movimento da garrafa”, disse Ren. “Sem a linguagem, ele segurava o pé de cabra perto da superfície curva e era mais difícil de controlar.”
A pesquisa faz parte de um projeto maior do grupo de pesquisa de Majumdar, que visa melhorar a capacidade dos robôs de funcionar em novas situações que diferem de seus ambientes de treinamento.
“O objetivo geral é fazer com que os sistemas robóticos – especificamente aqueles que são treinados usando aprendizado de máquina – generalizem para novos ambientes”, disse Majumdar. abordagem de “geração de ambiente adversário” para ajudar as políticas de robô a funcionar melhor em condições fora de seu treinamento inicial.
O artigo “Aproveitando a linguagem para aprendizagem acelerada da manipulação de ferramentas” foi apresentado em 14 de dezembro na Conferência sobre Aprendizado de Robôs. Além de Majumdar, Narasimhan e Ren, os co-autores incluem Bharat Govil, recém-formado em Princeton, e Tsung-Yen Yang, que completou um Ph.D. em engenharia elétrica em Princeton este ano e agora é cientista de aprendizado de máquina na Meta Platforms Inc.
Mais Informações:
Allen Z. Ren et al, Leveraging Language for Accelerated Learning of Tool Manipulation (2022)
Fornecido pela Universidade de Princeton
Citação: Palavras provam seu valor como ferramentas de ensino para robôs (2022, 21 de dezembro) recuperado em 18 de janeiro de 2023 em https://techxplore.com/news/2022-12-words-worth-tools-robots.html
Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem a permissão por escrito. O conteúdo é fornecido apenas para fins informativos.