Pesquisadores da Carnegie Mellon University e do Google DeepMind desenvolveram recentemente o RoboTool, um sistema que pode ampliar as capacidades dos robôs, permitindo-lhes usar ferramentas de maneiras mais criativas. Este sistema, apresentado num artigo publicado no arXiv servidor de pré-impressão, poderá em breve trazer uma nova onda de inovação e criatividade ao campo da robótica.
“O uso de ferramentas é frequentemente considerado a marca registrada da inteligência avançada”, Mengdi Xu, Ph.D. candidato na Carnegie Mellon University e co-autor do artigo, disse ao Tech Xplore.
“Nos experimentos de Wolfgang Koehler, por exemplo, os macacos empilharam habilmente caixotes para ter acesso às bananas penduradas fora de seu alcance, enquanto os macacos comedores de caranguejo usavam pedras como ferramentas para quebrar nozes e cascas. Além de usar ferramentas para a finalidade pretendida e seguir procedimentos estabelecidos, usando ferramentas de formas criativas e não convencionais fornecem soluções mais flexíveis, mas apresentam muito mais desafios na capacidade cognitiva.”
Os robôs geralmente realizam tarefas manuais de maneira padrão e repetitiva, sem explorar abordagens alternativas. No entanto, ao explorarem formas mais criativas de fazer as coisas, poderiam enfrentar melhor os cenários complexos do mundo real.
“Na robótica, o uso criativo de ferramentas também é uma capacidade crucial, mas muito exigente, porque exige a capacidade geral de prever o resultado de uma ação, raciocinar quais ferramentas usar e planejar como usá-las”, Peide Huang, co-autor do estudo. primeiro autor e Ph.D. candidato, disse.
O objetivo principal do trabalho recente de Xu, Huang e seus colegas foi desenvolver um sistema que permita aos robôs usar ferramentas de forma mais criativa. Essa ferramenta poderia ajudar a resolver vários problemas do mundo real de forma mais eficaz, por exemplo, permitindo que os robôs adaptassem as suas estratégias ao tentar agarrar objetos que estão fora de alcance ou criar degraus para subir até um local alvo.
“A ascensão de grandes modelos de linguagem (LLMs) aprimorou tremendamente as funcionalidades dos chatbots, automação de codificação e criação de conteúdo visual”, explicou Huang. “Além dessas interfaces digitais, a IA incorporada poderia representar a próxima fronteira em inteligência – uma que interage de forma tangível com o mundo real. Os robôs, servindo como extensões físicas dos LLMs, apresentam um meio ideal para esta exploração.”
O advento dos LLMs e seu recente aumento em popularidade encorajou os pesquisadores a explorar seu uso no campo da robótica. Estudos anteriores demonstraram o potencial destes modelos para melhorar várias capacidades do robô, incluindo a sua comunicação com os utilizadores, bem como o seu raciocínio, planeamento e execução de tarefas.
Por exemplo, a ferramenta SayCan do Google DeepMind permite que robôs compreendam instruções em linguagem natural, como “Eu derramei minha bebida, você pode ajudar?” e posteriormente elaborar estratégias para lidar com diversas tarefas domésticas. No entanto, aproveitar os LLMs para resolver problemas que exigem raciocínio com restrições implícitas definidas pelo corpo de um robô e pelo ambiente circundante continua a ser um desafio.
Xu, Huang e seus colegas decidiram explorar o uso de LLMs para aumentar a criatividade com que os robôs abordam diferentes tarefas. Em outras palavras, sua esperança era criar um sistema que identificasse maneiras criativas de tornar possíveis tarefas aparentemente “impossíveis”.
O sistema proposto, denominado RoboTool, aceita instruções em linguagem natural que consistem em informações textuais e numéricas sobre o ambiente, incorporações do robô e quaisquer restrições a seguir. Em seguida, ele produz código que aplica as habilidades parametrizadas de baixo nível de um robô para controlar robôs simulados e físicos.
A nova ferramenta criada pelos pesquisadores possui quatro componentes principais: um analisador, um planejador, uma calculadora e um codificador. O analisador processa as solicitações fornecidas pelos usuários em linguagem natural, identificando elementos-chave que podem afetar a viabilidade de uma tarefa solicitada.
O componente planejador do sistema recebe tanto a entrada do idioma original quanto os conceitos-chave identificados, utilizando-os para formular uma estratégia abrangente para completar uma tarefa. O componente calculadora, por outro lado, determina os parâmetros, como as posições alvo necessárias para cada habilidade parametrizada.
O componente final do RoboTool, o codificador, converte o plano abrangente criado pelo planejador e os parâmetros produzidos pela calculadora em código executável. Notavelmente, todos esses componentes foram desenvolvidos usando o modelo GPT-4 da OpenAI.
RoboTool permite que robôs usem ferramentas de forma criativa, resolvendo uma variedade de tarefas complexas que eles nunca encontraram antes. Por exemplo, poderia ajudar criar uma alavanca para levantar caixas pesadas ou um bastão de cubos magnéticos para pressionar um botão fora de alcance.
A nova ferramenta desenvolvida por Xu, Huang e seus colaboradores poderá em breve ser usada por roboticistas em todo o mundo para ampliar as capacidades dos sistemas propostos. A ferramenta pode, por exemplo, permitir que robôs realizem tarefas domésticas mais complexas, como desentupir ralos ou consertar móveis quebrados usando as ferramentas disponíveis.
“O RoboTool também pode melhorar a navegação de um robô em detritos ou estruturas desabadas, improvisando as ferramentas disponíveis para alcançar indivíduos presos”, disse Xu. “Também poderia ser aplicado à construção e manutenção, permitindo que robôs consertem máquinas ou estruturas de forma adaptativa usando quaisquer ferramentas disponíveis, ou construindo projetos complexos combinando criativamente ferramentas tradicionais.”
Os pesquisadores já divulgaram vídeos de demonstração do RoboTool no site do projeto. Em seus próximos estudos, eles planejam incorporar grandes modelos de base de visão em seu sistema, incluindo modelos que suportam visão computacional 3D, pois isso poderia melhorar ainda mais as capacidades de detecção e raciocínio dos robôs em ambientes de mundo aberto.
“Também planejamos desenvolver maneiras intuitivas para os humanos instruirem e colaborarem com o RoboTool, e estabelecer medidas de segurança para o RoboTool que reduzam os riscos quando os robôs trabalham ao lado dos humanos”, Ding Zhao, professor associado e diretor do laboratório CMU Safe AI , disse.
Mais Informações:
Mengdi Xu et al, Creative Robot Tool Use with Large Language Models, arXiv (2023). DOI: 10.48550/arxiv.2310.13065
arXiv
© 2023 Science X Network
Citação: Um sistema que permite aos robôs usar ferramentas de forma criativa, aproveitando grandes modelos de linguagem (2023, 14 de novembro) recuperado em 14 de novembro de 2023 em https://techxplore.com/news/2023-11-robots-tools-creatively-leveraging-large. HTML
Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.