DeepMind demonstra um robô capaz de fazer visitas guiadas baseadas em contexto a um edifício de escritórios

DeepMind demonstra um robô capaz de fazer visitas guiadas baseadas em contexto a um edifício de escritórios

Arquitetura VLA de mobilidade. A instrução multimodal do usuário e um vídeo de demonstração do tour do ambiente são usados ​​por um VLM (política de alto nível) de contexto longo para identificar o quadro de meta no vídeo. A política de baixo nível usa então o quadro de meta e um mapa topológico gerado offline (do vídeo do tour usando estrutura-do-movimento) para calcular uma ação do robô em cada passo de tempo. Crédito: arXiv (2024). DOI: 10.48550/arxiv.2407.07775

Uma equipe de roboticistas e especialistas em IA da DeepMind do Google demonstrou um robô capaz de dar tours guiados baseados em contexto em seus escritórios. Eles postaram um artigo descrevendo seu trabalho, junto com vídeos de demonstração, no arXiv servidor de pré-impressão.

As aplicações de IA percorreram um longo caminho apenas na última década, e LLMs como ChatGPT agora são familiares para usuários ao redor do mundo. Neste novo esforço, a equipe de pesquisa deu aos robôs RT-2 capacidades de IA via Gemini 1.5 Pro e as usou para permitir que o robô realizasse atividades sofisticadas.

O robô pode ouvir uma pessoa que está guiando, analisar uma solicitação e traduzi-la em comportamento. Como exemplo, um pesquisador pediu ao robô para levá-lo a um lugar no escritório onde escrever ou desenhar poderia ser feito. O robô pensou sobre a solicitação por aproximadamente 30 segundos e então guiou a pessoa a um lugar onde um quadro branco havia sido fixado na parede em um dos escritórios.

O robô é capaz de executar tais tarefas, explicam os pesquisadores, porque seu aplicativo Gemini 1.5 Pro foi treinado para entender o layout do espaço de trabalho do escritório de 850 metros quadrados usando sua longa janela de contexto enquanto coletava dados enquanto assistia a vídeos de locais no escritório.







Crédito: DeepMind no Instagram

Os pesquisadores descrevem essas experiências de aprendizagem como navegação de instrução multimodal com passeios de demonstração: enquanto o robô assistia aos vídeos, ele conseguia processar diferentes partes do cenário do escritório simultaneamente, o que lhe permitia gerar associações.

Ao adicionar processamento de voz e texto junto com outros recursos de IA, a equipe da DeepMind também foi capaz de dar ao robô a capacidade de executar processamento inferencial. Como exemplo, um pesquisador perguntou ao robô se havia mais alguma de sua bebida favorita na geladeira. O robô notou que havia várias latas de Coca-Cola vazias perto de onde o pesquisador estava sentado e usou essa informação para adivinhar que Coca-Cola era sua bebida favorita. Ele então rolou até a geladeira e olhou dentro dela para ver se havia alguma lata de Coca-Cola. Ele então rolou de volta e relatou o que havia encontrado.

Mais Informações:
Hao-Tien Lewis Chiang et al, Mobility VLA: Navegação de instruções multimodais com VLMs de longo contexto e gráficos topológicos, arXiv (2024). DOI: 10.48550/arxiv.2407.07775

Informações do periódico:
arXiv

© 2024 Rede Ciência X

Citação: DeepMind demonstra um robô capaz de oferecer visitas guiadas baseadas em contexto a um edifício de escritórios (2024, 12 de julho) recuperado em 12 de julho de 2024 de https://techxplore.com/news/2024-07-deepmind-robot-capable-context-based.html

Este documento está sujeito a direitos autorais. Além de qualquer uso justo para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.



Deixe uma resposta