Sozinho em casa, com os ossos rangendo devido à idade, você anseia por uma bebida gelada. Você se vira para o seu robô e diz: “Por favor, traga-me um copo grande de água da geladeira”. Seu companheiro treinado em IA obriga. Logo, sua sede será saciada.
Embora esse cenário ainda esteja a uma década ou mais de distância em termos de uma aplicação perfeita no mundo real, um novo artigo de pesquisa liderado pelo estudante de ciência da computação da USC Sumedh A. Sontakke, com seus orientadores, Professor Assistente Erdem Bıyık e Professor Laurent Itti, abre a porta mais ampla a essa realidade potencial com um novo algoritmo on-line que eles criaram, chamado RoboCLIP.
As populações idosas e os cuidadores serão os que mais beneficiarão do trabalho futuro baseado no RoboCLIP, que reduz drasticamente a quantidade de dados necessária para treinar robôs, permitindo que qualquer pessoa interaja com eles através de linguagem ou vídeos – pelo menos, por enquanto, em simulações de computador.
“Para mim, a coisa mais impressionante sobre o RoboCLIP é ser capaz de fazer nossos robôs fazerem algo com base em apenas uma demonstração de vídeo ou uma descrição de linguagem”, diz Biyik, um roboticista que ingressou no Departamento de Ciência da Computação Thomas Lord da USC Viterbi em agosto de 2023 e lidera o Laboratório de Aprendizagem e Autonomia Interativa de Robôs (Lira Lab).
Aprendendo rapidamente com poucas demonstrações
O artigo, intitulado “RoboCLIP: Uma demonstração é suficiente para aprender políticas sobre robôs”, foi publicado no arXiv servidor de pré-impressão e será apresentado por Sontakke na 37ª Conferência sobre Sistemas de Processamento de Informações Neurais (NeurIPS), de 10 a 16 de dezembro em Nova Orleans.
“A grande quantidade de dados atualmente necessária para que um robô execute com sucesso a tarefa que você deseja não é viável no mundo real, onde você deseja robôs que possam aprender rapidamente com poucas demonstrações”, explica Sontakke.
Para contornar esse problema notoriamente difícil no aprendizado por reforço – um subconjunto de IA em que uma máquina aprende por tentativa e erro como se comportar para obter a melhor recompensa – os pesquisadores testaram o RoboCLIP.
O resultado?
Usando apenas um vídeo ou demonstração textual de uma tarefa, o RoboCLIP teve um desempenho duas a três vezes melhor do que outros métodos de aprendizagem por imitação (IL).
Pesquisas futuras são necessárias antes que este estudo se traduza em um mundo onde os robôs possam aprender rapidamente com poucas demonstrações ou instruções – como pegar um copo grande de água gelada – mas o RoboCLIP representa um avanço significativo na pesquisa de IL, disseram Sontakke e Biyik.
No momento, os métodos de IL exigem muitas demonstrações, conjuntos de dados massivos e supervisão humana substancial para que um robô domine uma tarefa em simulações de computador.
Agora ele pode aprender com apenas um, mostra a pesquisa do RoboCLIP.
Bom desempenho ‘fora da caixa’
O RoboCLIP foi inspirado nos avanços no campo da IA generativa e dos modelos de linguagem de vídeo (VLMs), que são pré-treinados em grandes quantidades de demonstrações textuais e de vídeo, explicaram Sontakke e Biyik. O novo algoritmo aproveita o poder dessas incorporações VLM para treinar robôs.
Vários vídeos experimentais no site RoboCLIP mostram a eficácia do método.
Nos vídeos, um robô – em simulações de computador – aperta um botão vermelho, fecha uma caixa preta e fecha uma gaveta verde após ser instruído com uma única demonstração em vídeo ou uma descrição textual (por exemplo, “Robô apertando botão vermelho”).
“Pronto para uso”, diz Biyik, “o RoboCLIP teve um bom desempenho”.
Dois anos em preparação
Sontakke disse que a gênese do artigo de pesquisa remonta a dois anos atrás.
“Comecei a pensar nas tarefas domésticas, como abrir portas e armários”, disse ele. “Não gostei da quantidade de dados que precisava coletar antes de conseguir que o robô executasse com sucesso a tarefa que me interessava. Eu queria evitar isso, e foi daí que surgiu este projeto.”
Colaborando com Sontakke, Biyik e Itti no artigo RoboCLIP estavam dois graduados da USC Viterbi, Sebastien MR Arnold, agora no Google Research, e Karl Pertsch, agora na UC Berkeley e na Universidade de Stanford. Jesse Zhang, Ph.D. do quarto ano. candidato em ciências da computação na USC Viterbi, também trabalhou no projeto RoboCLIP.
‘Inovação chave’
“A principal inovação aqui é usar o VLM para ‘observar’ criticamente simulações do robô virtual balbuciando enquanto tenta executar a tarefa, até que em algum ponto ele comece a acertar – nesse ponto, o VLM reconhecerá esse progresso e recompensará o robô virtual para continuar tentando nessa direção”, explicou Itti.
“O VLM pode reconhecer que o robô virtual está cada vez mais próximo do sucesso quando a descrição textual produzida pelo VLM observando os movimentos do robô se aproxima do que o usuário deseja”, acrescentou Itti. “Este novo tipo de interação em circuito fechado é muito interessante para mim e provavelmente terá muito mais aplicações futuras em outros domínios.”
Além da população idosa que dependerá de robôs para melhorar a sua vida quotidiana, o RoboCLIP poderá levar a aplicações que poderão ajudar qualquer pessoa.
Pense naqueles vídeos DIY que você procura no YouTube para descobrir como consertar um triturador de lixo quebrado ou um micro-ondas com defeito.
Você poderia simplesmente, no futuro, pedir ao seu robô assistente para realizar essas tarefas enquanto você dorme no sofá?
As possibilidades são intrigantes, disseram Biyik e Sontakke.
Mais Informações:
A Sontakke et al, RoboCLIP: Uma demonstração é suficiente para aprender políticas de robôs, arXiv (2023). DOI: 10.48550/arxiv.2310.07899
arXiv
Fornecido pela Universidade do Sul da Califórnia
Citação: Uma vez é suficiente: ajudando os robôs a aprender rapidamente em novos ambientes (2023, 13 de dezembro) recuperado em 13 de dezembro de 2023 em https://techxplore.com/news/2023-12-robots-quickly-environments.html
Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.