Corpo de Alter3. O corpo possui 43 eixos que são controlados por atuadores pneumáticos. Está equipado com uma câmera dentro de cada olho. O sistema de controle envia comandos através de uma porta serial para controlar o corpo. A taxa de atualização é de 100–150 ms. Crédito: arXiv (2023). DOI: 10.48550/arxiv.2312.06571
Uma equipe de pesquisadores da Universidade de Tóquio construiu uma ponte entre grandes modelos de linguagem e robôs que promete gestos mais humanos, ao mesmo tempo que dispensa os controles tradicionais dependentes de hardware.
Alter3 é a versão mais recente de um robô humanóide implantado pela primeira vez em 2016. Os pesquisadores agora estão usando o GPT-4 para guiar o robô através de várias simulações, como tirar uma selfie, jogar uma bola, comer pipoca e tocar guitarra aérea.
Anteriormente, tais ações exigiriam codificação específica para cada atividade, mas a incorporação do GPT-4 introduz novos recursos amplos para robôs que aprendem com o ensino de linguagem natural.
Os robôs movidos por IA “têm se concentrado principalmente em facilitar a comunicação básica entre a vida e os robôs dentro de um computador, utilizando LLMs para interpretar e fingir respostas semelhantes às da vida”, disseram os pesquisadores em um estudo recente.
“O controle direto é 1703008734 viável mapeando as expressões linguísticas das ações humanas no corpo do robô por meio de código de programa”, disseram eles. Eles chamaram o avanço de “uma mudança de paradigma”.
O Alter3, que é capaz de movimentos complexos da parte superior do corpo, incluindo expressões faciais detalhadas, possui 43 eixos que simulam o movimento músculo-esquelético humano. Ele repousa sobre uma base, mas não pode andar (embora possa imitar o andar).
A tarefa de codificar a coordenação de tantas articulações era uma tarefa enorme que envolvia movimentos altamente repetitivos.
“Graças ao LLM, estamos agora livres do trabalho iterativo”, disseram os autores.
Agora, eles podem simplesmente fornecer instruções verbais descrevendo os movimentos desejados e entregar um prompt instruindo o LLM a criar o código Python que executa o mecanismo Android.
O Alter3 retém atividades na memória e os pesquisadores podem refinar e ajustar suas ações, resultando em movimentos mais rápidos, suaves e precisos ao longo do tempo.
Os autores fornecem um exemplo de instruções em linguagem natural fornecidas ao Alter3 para tirar uma selfie:
Crie um sorriso grande e alegre e arregale os olhos para mostrar entusiasmo.
Vire rapidamente a parte superior do corpo ligeiramente para a esquerda, adotando uma postura dinâmica.
Levante a mão direita, simulando um telefone.
Flexione o cotovelo direito, aproximando o telefone do rosto.
Incline a cabeça ligeiramente para a direita, dando uma vibração divertida.
A utilização de LLMs na pesquisa robótica “redefine os limites da colaboração humano-robô, abrindo caminho para entidades robóticas mais inteligentes, adaptáveis e pessoais”, disseram os pesquisadores.
Eles injetaram um pouco de humor nas atividades do Alter3. Num cenário, o robô finge consumir um saco de pipoca apenas para descobrir que ele pertence à pessoa sentada ao lado dele. Expressões faciais exageradas e gestos com os braços transmitem surpresa e constrangimento.
O Alter3 equipado com câmera pode “ver” humanos. Os pesquisadores descobriram que o Alter3 pode refinar seu comportamento observando as respostas humanas. Eles compararam esse aprendizado à imitação neonatal, que os behavioristas infantis observam nos recém-nascidos.
A capacidade de aprendizagem “zero shot” dos robôs conectados ao GPT-4 “tem o potencial de redefinir os limites da colaboração humano-robô, abrindo caminho para entidades robóticas mais inteligentes, adaptáveis e pessoais”, disseram os pesquisadores.
O artigo, “From Text to Motion: Grounding GPT-4 in a Humanoid Robot ‘Alter3′”, escrito por Takahide Yoshida, Atsushi Masumori e Takashi Ikegami, está disponível para o servidor de pré-impressão arXiv.
Mais Informações:
Takahide Yoshida et al, Do texto ao movimento: aterrando o GPT-4 em um robô humanóide “Alter3”, arXiv (2023). DOI: 10.48550/arxiv.2312.06571
Página do projeto: tnoinkwms.github.io/ALTER-LLM/
arXiv
© 2023 Science X Network
Citação: Robô movido a GPT-4 tira selfies e ‘come’ pipoca (2023, 19 de dezembro) recuperado em 19 de dezembro de 2023 em https://techxplore.com/news/2023-12-gpt-driven-robot-selfies-popcorn.html
Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.