Usando grandes modelos de linguagem para permitir navegação de robô em mundo aberto, interativa e personalizada

Usando grandes modelos de linguagem para permitir navegação de robô em mundo aberto, interativa e personalizada

Um exemplo de navegação personalizada interativa zero-shot. Há três computadores na sala nunca vistos pelo robô antes. O objetivo é encontrar o computador de Alice. O robô começa encontrando o objeto errado e precisa se comunicar com o usuário e aproveitar o feedback do usuário para localizar o objetivo personalizado. Crédito: Dai et al.

Idealmente, os robôs devem interagir com os usuários e objetos ao seu redor de maneira flexível, em vez de sempre se aterem aos mesmos conjuntos de respostas e ações. Uma abordagem robótica voltada para esse objetivo e que recentemente ganhou atenção significativa da pesquisa é a navegação de objetos de disparo zero (ZSON).

ZSON envolve o desenvolvimento de técnicas computacionais avançadas que permitem que agentes robóticos naveguem em ambientes desconhecidos, interagindo com objetos inéditos e respondendo a uma ampla gama de solicitações. Embora algumas dessas técnicas tenham alcançado resultados promissores, muitas vezes elas só permitem que os robôs localizem classes genéricas de objetos, em vez de usar o processamento de linguagem natural para entender o prompt do usuário e localizar objetos específicos.

Uma equipe de pesquisadores da Universidade de Michigan decidiu recentemente desenvolver uma nova abordagem que aumentaria a capacidade dos robôs de explorar ambientes de mundo aberto e navegar neles de maneira personalizada. A estrutura proposta, apresentada em um artigo publicado em arXiv servidor de pré-impressão, usa modelos de linguagem grandes (LLMs) para permitir que os robôs respondam melhor às solicitações feitas pelos usuários, por exemplo, localizando objetos específicos próximos.

“Os trabalhos existentes do ZSON concentram-se principalmente em seguir instruções individuais para encontrar classes de objetos genéricos, negligenciando a utilização da interação da linguagem natural e as complexidades de identificação de objetos específicos do usuário”, escreveram Yinpei Dai, Run Peng e seus colegas em seu artigo. “Para resolver essas limitações, introduzimos a navegação interativa de objetos personalizados Zero-shot (ZIPON), onde os robôs precisam navegar para objetos de objetivo personalizados enquanto conversam com os usuários.”

Em seu artigo, Dai, Peng e seus colaboradores apresentam primeiramente uma nova tarefa, que eles chamam de ZIPON. Esta tarefa é uma forma generalizada de ZSON, que envolve responder com precisão a prompts personalizados e localizar objetos-alvo específicos.

Se o ZSON tradicional envolve a localização de uma cama ou cadeira próxima, o ZIPON vai um passo além, pedindo a um robô para identificar a cama de uma pessoa específica, uma cadeira comprada na Amazon e assim por diante. Posteriormente, os pesquisadores tentaram desenvolver uma estrutura computacional que resolvesse efetivamente essa questão.

“Para resolver o ZIPON, propomos uma nova estrutura denominada Open-world Interactive persOnalized Navigation (ORION), que usa Large Language Models (LLMs) para tomar decisões sequenciais para manipular diferentes módulos para percepção, navegação e comunicação”, Dai, Peng e seus colegas escreveram em seu artigo.

O novo framework desenvolvido por esta equipe de pesquisadores possui seis módulos principais: um controle, um mapa semântico, uma detecção de vocabulário aberto, uma exploração, uma memória e um módulo de interação. O módulo de controle permite que o robô se mova em seu entorno, o módulo de mapa semântico indexa a linguagem natural e o módulo de detecção de vocabulário aberto permite que o robô detecte objetos com base em descrições baseadas em linguagem.

Os robôs então procuram objetos no ambiente circundante usando o módulo de exploração, enquanto armazenam informações importantes e feedback recebido dos usuários no módulo de memória. Por fim, o módulo de interação permite que os robôs falem com os usuários, respondendo verbalmente às suas solicitações.

Dai, Peng e seus colegas avaliaram a estrutura proposta tanto em simulações quanto em experimentos do mundo real, usando o TIAGo, um robô móvel com rodas e dois braços. Suas descobertas foram promissoras, pois sua estrutura melhorou com sucesso a capacidade do robô de utilizar o feedback do usuário ao tentar localizar objetos próximos específicos.

“Os resultados experimentais mostram que o desempenho dos agentes interativos que podem aproveitar o feedback do usuário apresenta uma melhoria significativa”, explicaram Dai, Peng e seus colegas. “No entanto, obter um bom equilíbrio entre a conclusão da tarefa e a eficiência da navegação e interação continua sendo um desafio para todos os métodos. Fornecemos ainda mais descobertas sobre o impacto de diversos formulários de feedback do usuário no desempenho dos agentes.”

Embora a estrutura ORION mostre potencial para melhorar a navegação personalizada do robô em ambientes desconhecidos, a equipe descobriu que garantir simultaneamente que os robôs concluam missões, naveguem suavemente em ambientes desconhecidos e interajam bem com os usuários é extremamente desafiador. No futuro, este estudo poderá informar o desenvolvimento de novos modelos para completar a tarefa ZIPON, o que poderá resolver algumas das deficiências relatadas na estrutura proposta pela equipe.

“Este trabalho é apenas o nosso passo inicial na exploração de LLMs na navegação personalizada e tem várias limitações”, escreveram Dai, Peng e seus colegas em seu artigo. “Por exemplo, ele não lida com tipos de objetivos mais amplos, como objetivos de imagem, nem aborda interações multimodais com usuários no mundo real. Nossos esforços futuros irão expandir essas dimensões para promover a adaptabilidade e versatilidade de robôs interativos no mundo humano. mundo.”

Mais Informações:
Yinpei Dai et al, Pense, Aja e Pergunte: Navegação Robótica Personalizada Interativa de Mundo Aberto, arXiv (2023). DOI: 10.48550/arxiv.2310.07968. arxiv.org/abs/2310.07968

Informações do diário:
arXiv

© 2023 Science X Network

Citação: Usando grandes modelos de linguagem para permitir navegação de robô em mundo aberto, interativa e personalizada (2023, 27 de outubro) recuperado em 27 de outubro de 2023 em https://techxplore.com/news/2023-10-large-language-enable-open-world -interativo.html

Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.



Deixe uma resposta