Robô movido a GPT-4 tira selfies e ‘come’ pipoca

Robô movido a GPT-4 tira selfies e ‘come’ pipoca

Corpo de Alter3. O corpo possui 43 eixos que são controlados por atuadores pneumáticos. Está equipado com uma câmera dentro de cada olho. O sistema de controle envia comandos através de uma porta serial para controlar o corpo. A taxa de atualização é de 100–150 ms. Crédito: arXiv (2023). DOI: 10.48550/arxiv.2312.06571

Uma equipe de pesquisadores da Universidade de Tóquio construiu uma ponte entre grandes modelos de linguagem e robôs que promete gestos mais humanos, ao mesmo tempo que dispensa os controles tradicionais dependentes de hardware.

Alter3 é a versão mais recente de um robô humanóide implantado pela primeira vez em 2016. Os pesquisadores agora estão usando o GPT-4 para guiar o robô através de várias simulações, como tirar uma selfie, jogar uma bola, comer pipoca e tocar guitarra aérea.

Anteriormente, tais ações exigiriam codificação específica para cada atividade, mas a incorporação do GPT-4 introduz novos recursos amplos para robôs que aprendem com o ensino de linguagem natural.

Os robôs movidos por IA “têm se concentrado principalmente em facilitar a comunicação básica entre a vida e os robôs dentro de um computador, utilizando LLMs para interpretar e fingir respostas semelhantes às da vida”, disseram os pesquisadores em um estudo recente.

“O controle direto é 1703008734 viável mapeando as expressões linguísticas das ações humanas no corpo do robô por meio de código de programa”, disseram eles. Eles chamaram o avanço de “uma mudança de paradigma”.

O Alter3, que é capaz de movimentos complexos da parte superior do corpo, incluindo expressões faciais detalhadas, possui 43 eixos que simulam o movimento músculo-esquelético humano. Ele repousa sobre uma base, mas não pode andar (embora possa imitar o andar).






O movimento de tocar a música metal. Este movimento é gerado pelo GPT4 com feedback linguístico.

A tarefa de codificar a coordenação de tantas articulações era uma tarefa enorme que envolvia movimentos altamente repetitivos.

“Graças ao LLM, estamos agora livres do trabalho iterativo”, disseram os autores.

Agora, eles podem simplesmente fornecer instruções verbais descrevendo os movimentos desejados e entregar um prompt instruindo o LLM a criar o código Python que executa o mecanismo Android.

O Alter3 retém atividades na memória e os pesquisadores podem refinar e ajustar suas ações, resultando em movimentos mais rápidos, suaves e precisos ao longo do tempo.

Os autores fornecem um exemplo de instruções em linguagem natural fornecidas ao Alter3 para tirar uma selfie:

Crie um sorriso grande e alegre e arregale os olhos para mostrar entusiasmo.

Vire rapidamente a parte superior do corpo ligeiramente para a esquerda, adotando uma postura dinâmica.

Levante a mão direita, simulando um telefone.






O movimento de fingir ser o fantasma.

Flexione o cotovelo direito, aproximando o telefone do rosto.

Incline a cabeça ligeiramente para a direita, dando uma vibração divertida.

A utilização de LLMs na pesquisa robótica “redefine os limites da colaboração humano-robô, abrindo caminho para entidades robóticas mais inteligentes, adaptáveis ​​e pessoais”, disseram os pesquisadores.

Eles injetaram um pouco de humor nas atividades do Alter3. Num cenário, o robô finge consumir um saco de pipoca apenas para descobrir que ele pertence à pessoa sentada ao lado dele. Expressões faciais exageradas e gestos com os braços transmitem surpresa e constrangimento.

O Alter3 equipado com câmera pode “ver” humanos. Os pesquisadores descobriram que o Alter3 pode refinar seu comportamento observando as respostas humanas. Eles compararam esse aprendizado à imitação neonatal, que os behavioristas infantis observam nos recém-nascidos.

A capacidade de aprendizagem “zero shot” dos robôs conectados ao GPT-4 “tem o potencial de redefinir os limites da colaboração humano-robô, abrindo caminho para entidades robóticas mais inteligentes, adaptáveis ​​e pessoais”, disseram os pesquisadores.

O artigo, “From Text to Motion: Grounding GPT-4 in a Humanoid Robot ‘Alter3′”, escrito por Takahide Yoshida, Atsushi Masumori e Takashi Ikegami, está disponível para o servidor de pré-impressão arXiv.

Mais Informações:
Takahide Yoshida et al, Do texto ao movimento: aterrando o GPT-4 em um robô humanóide “Alter3”, arXiv (2023). DOI: 10.48550/arxiv.2312.06571

Página do projeto: tnoinkwms.github.io/ALTER-LLM/

Informações do diário:
arXiv

© 2023 Science X Network

Citação: Robô movido a GPT-4 tira selfies e ‘come’ pipoca (2023, 19 de dezembro) recuperado em 19 de dezembro de 2023 em https://techxplore.com/news/2023-12-gpt-driven-robot-selfies-popcorn.html

Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.



Deixe uma resposta