O robô preto e amarelo, que deveria se assemelhar a um cachorro grande, ficou esperando instruções. Quando chegaram, as instruções não estavam em código, mas sim em inglês simples: “Visite a escrivaninha de madeira exatamente duas vezes; além disso, não vá até a escrivaninha de madeira antes da estante.”
Quatro pernas metálicas entraram em ação. O robô foi de onde estava na sala até uma estante próxima e então, após uma breve pausa, foi até a mesa de madeira designada antes de sair e retornar para uma segunda visita para satisfazer o comando.
Até recentemente, tal exercício teria sido quase impossível de ser realizado por robôs de navegação como este. A maioria dos softwares atuais para robôs de navegação não consegue passar do inglês, ou de qualquer idioma cotidiano, para a linguagem matemática que seus robôs entendem e podem executar.
E isso fica ainda mais difícil quando o software tem que dar saltos lógicos baseados em direções complexas ou expressivas (como ir até a estante antes da mesa de madeira), já que isso tradicionalmente requer treinamento em milhares de horas de dados para saber o que o robô é. deveria fazer quando se depara com esse tipo específico de comando.
No entanto, os avanços nos chamados grandes modelos de linguagem que funcionam com inteligência artificial estão a mudar esta situação. Dar aos robôs novos poderes de compreensão e raciocínio não está apenas ajudando a tornar experimentos como esse viáveis, mas também deixando os cientistas da computação entusiasmados com a transferência desse tipo de sucesso para ambientes fora dos laboratórios, como as casas das pessoas e as principais cidades e vilas ao redor do mundo.
No ano passado, pesquisadores do Laboratório Humans to Robots da Brown University têm trabalhado em um sistema com esse tipo de potencial e o compartilham em um novo artigo que será apresentado na Conferência sobre Aprendizagem de Robôs em Atlanta, em 8 de novembro.
A pesquisa representa uma contribuição importante para comunicações mais contínuas entre humanos e robôs, dizem os cientistas, porque as maneiras às vezes complicadas pelas quais os humanos se comunicam naturalmente entre si geralmente apresentam problemas quando expressas aos robôs, muitas vezes resultando em ações incorretas ou em um longo atraso no planejamento.
“No artigo, estávamos pensando particularmente em robôs móveis se movendo em um ambiente”, disse Stefanie Tellex, professora de ciência da computação na Brown e autora sênior do novo estudo. “Queríamos uma maneira de conectar instruções em inglês complexas, específicas e abstratas que as pessoas poderiam dizer a um robô – como descer a Thayer Street, em Providence, e me encontrar na cafeteria, mas evitar o CVS e primeiro parar no banco – a um comportamento do robô.”
O artigo descreve como o novo sistema e software da equipe torna isso possível usando modelos de linguagem de IA, semelhantes aos que alimentam chatbots como o ChatGPT, para desenvolver um método inovador que compartimenta e divide as instruções para eliminar a necessidade de dados de treinamento.
Ele também explica como o software fornece aos robôs de navegação uma poderosa ferramenta de aterramento que tem a capacidade não apenas de receber comandos de linguagem natural e gerar comportamentos, mas também de calcular os saltos lógicos que um robô pode precisar dar com base no contexto do instruções claras e o que dizem que o robô pode ou não fazer e em que ordem.
“No futuro, isso terá aplicações para robôs móveis que se deslocam pelas nossas cidades, seja um drone, um carro autônomo ou um veículo terrestre que entrega pacotes”, disse Tellex. “Sempre que você precisar falar com um robô e dizer-lhe para fazer alguma coisa, você poderá fazer isso e dar-lhe instruções muito ricas, detalhadas e precisas.”
Tellex afirma que o novo sistema, com sua capacidade de compreender linguagem expressiva e rica, representa um dos mais poderosos sistemas de compreensão de linguagem para direções de rotas já lançados, já que pode essencialmente começar a funcionar em robôs sem a necessidade de dados de treinamento.
Tradicionalmente, se os desenvolvedores quisessem que um robô traçasse e completasse rotas em Boston, por exemplo, eles teriam que coletar diferentes exemplos de pessoas dando instruções na cidade – como “viaje pelo Boston Common, mas evite o Frog Pond” – então o o sistema sabe o que isso significa e pode computá-lo para o robô. Eles terão que fazer todo esse treinamento novamente se quiserem que o robô navegue pela cidade de Nova York.
O novo nível de sofisticação encontrado no sistema criado pelos pesquisadores significa que ele pode operar em qualquer novo ambiente sem um longo processo de treinamento. Em vez disso, só precisa de um mapa detalhado do ambiente.
“Basicamente passamos da linguagem às ações conduzidas pelo robô”, disse Ankit Shah, pesquisador de pós-doutorado no laboratório da Tellex em Brown.
Para testar o sistema, os pesquisadores submeteram o software a simulações em 21 cidades usando o OpenStreetMap. As simulações mostraram que o sistema é preciso em 80% das vezes. O número é muito mais preciso do que outros sistemas semelhantes a ele, que, segundo os pesquisadores, são precisos apenas cerca de 20% das vezes e só podem calcular navegação simples por pontos de referência, como ir do ponto A ao ponto B. Esses sistemas também não podem contabilizar para restrições, como a necessidade de evitar uma área ou ter que ir para um local adicional antes de ir para o ponto A ou B.
Junto com as simulações, os pesquisadores testaram seu sistema em ambientes fechados no campus de Brown usando um robô Boston Dynamics Spot. No geral, o projeto se soma a uma história de trabalho de alto impacto proveniente do laboratório da Tellex em Brown, que incluiu pesquisas que tornaram os robôs melhores em seguir instruções faladas, um algoritmo que melhorou a capacidade de um robô de buscar objetos e software que ajudou os robôs a produzirem humanos. -como traços de caneta.
Da linguagem às ações
Autor principal do estudo, Jason Xinyu, Ph.D. em ciência da computação. estudante da Brown que trabalha com a Tellex, diz que o sucesso do novo software, chamado Lang2LTL, está na forma como ele funciona. Para demonstrar, ele dá o exemplo de um usuário que diz a um drone para ir à “loja” na rua principal, mas somente depois de visitar “o banco”.
Primeiro, os dois locais são retirados, explica ele. O modelo de linguagem então começa a combinar esses locais abstratos com locais específicos que o modelo sabe que estão no ambiente do robô. Também analisa os metadados que estão disponíveis nos locais, como seus endereços ou que tipo de loja são, para ajudar o sistema a tomar suas decisões.
Nesse caso, existem algumas lojas próximas, mas apenas uma na Main Street, então o sistema sabe que, para dar o salto, “a loja” é o Walmart e que “o banco” é o Chase. O modelo de linguagem então termina de traduzir os comandos para lógica temporal linear, que são códigos matemáticos e símbolos que expressam esses comandos. O sistema então pega os locais agora mapeados e os insere na fórmula que está criando, dizendo ao robô para ir ao ponto A, mas somente após o ponto B.
“Essencialmente, nosso sistema usa seu design de sistema modular e seus grandes modelos de linguagem pré-treinados em dados em escala da Internet para processar comandos de linguagem natural direcionais e lineares mais complexos com diferentes tipos de restrições que nenhum sistema robótico poderia entender antes”, Xinyu disse. “Os sistemas anteriores não conseguiam lidar com isso porque eram prejudicados pela forma como foram projetados para essencialmente fazer esse processo de uma só vez.”
Os pesquisadores já estão pensando no que vem a seguir no projeto.
Eles planejam lançar uma simulação em novembro baseada no OpenStreetMaps no site do projeto, onde os usuários poderão testar o sistema por si próprios. A demonstração para navegadores da web permitirá que os usuários digitem comandos de linguagem natural que instruem um drone na simulação a executar comandos de navegação, permitindo que os pesquisadores estudem como seu software funciona para fazer o ajuste fino. Logo depois, a equipe espera adicionar recursos de manipulação de objetos ao software.
“Este trabalho é a base para muito do trabalho que podemos fazer no futuro”, disse Xinyu.
Artigo: openreview.net/forum?id=rpWi4SYGXj
GitHub: github.com/h2r/Lang2LTL
Fornecido pela Universidade Brown
Citação: Desenvolvido por IA, novo sistema torna a comunicação humano-robô mais perfeita (2023, 6 de novembro) recuperado em 6 de novembro de 2023 em https://techxplore.com/news/2023-11-powered-ai-human-to-robot -comunicação-seamless.html
Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.