Um novo trabalho da Carnegie Mellon University permitiu que os robôs aprendessem tarefas domésticas assistindo a vídeos de pessoas realizando tarefas diárias em suas casas.
A pesquisa pode ajudar a melhorar a utilidade dos robôs em casa, permitindo que eles ajudem as pessoas em tarefas como cozinhar e limpar. Dois robôs aprenderam com sucesso 12 tarefas, incluindo abrir uma gaveta, porta do forno e tampa; tirar uma panela do fogão; e pegar um telefone, um legume ou uma lata de sopa.
“O robô pode aprender onde e como os humanos interagem com diferentes objetos por meio de vídeos”, disse Deepak Pathak, professor assistente do Instituto de Robótica da Escola de Ciência da Computação da CMU. “A partir desse conhecimento, podemos treinar um modelo que permite que dois robôs concluam tarefas semelhantes em ambientes variados”.
Os métodos atuais de treinamento de robôs requerem a demonstração manual de tarefas por humanos ou treinamento extensivo em um ambiente simulado. Ambos são demorados e propensos a falhas. Pesquisas anteriores de Pathak e seus alunos demonstraram um novo método no qual os robôs aprendem observando as tarefas completas dos humanos. No entanto, WHIRL, abreviação de In-the-Wild Human Imitating Robot Learning, exigia que o humano concluísse a tarefa no mesmo ambiente que o robô.
O trabalho mais recente de Pathak, Vision-Robotics Bridge, ou VRB para abreviar, se baseia e melhora o WHIRL. O novo modelo elimina a necessidade de demonstrações humanas, bem como a necessidade de o robô operar em um ambiente idêntico. Assim como o WHIRL, o robô ainda requer prática para dominar uma tarefa. A pesquisa da equipe mostrou que ele pode aprender uma nova tarefa em menos de 25 minutos.
“Conseguimos levar robôs pelo campus e realizar todo tipo de tarefa”, disse Shikhar Bahl, Ph.D. estudante de robótica. “Os robôs podem usar esse modelo para explorar curiosamente o mundo ao seu redor. Em vez de apenas agitar os braços, um robô pode ser mais direto na forma como interage.”
Para ensinar o robô a interagir com um objeto, a equipe aplicou o conceito de affordances. Affordances têm suas raízes na psicologia e se referem ao que um ambiente oferece a um indivíduo. O conceito foi estendido para design e interação humano-computador para se referir a ações potenciais percebidas por um indivíduo.
Para VRB, as funcionalidades definem onde e como um robô pode interagir com um objeto com base no comportamento humano. Por exemplo, quando um robô observa um ser humano abrir uma gaveta, ele identifica os pontos de contato – a alça – e a direção do movimento da gaveta – diretamente do local inicial. Depois de assistir a vários vídeos de humanos abrindo gavetas, o robô pode determinar como abrir qualquer gaveta.
A equipe usou vídeos de grandes conjuntos de dados, como Ego4D e Epic Kitchens. Ego4D tem quase 4.000 horas de vídeos egocêntricos de atividades diárias de todo o mundo. Pesquisadores da CMU ajudaram a coletar alguns desses vídeos. Epic Kitchens apresenta vídeos semelhantes capturando cozinhar, limpar e outras tarefas de cozinha. Ambos os conjuntos de dados destinam-se a ajudar a treinar modelos de visão computacional.
“Estamos usando esses conjuntos de dados de uma maneira nova e diferente”, disse Bahl. “Este trabalho pode permitir que os robôs aprendam com a grande quantidade de vídeos disponíveis na Internet e no YouTube”.
Mais informações estão disponíveis no site do projeto e em um artigo apresentado em junho na Conferência sobre Visão e Reconhecimento de Padrões.
Fornecido pela Carnegie Mellon University
Citação: Pesquisadores expandem a capacidade dos robôs de aprender com vídeos (2023, 20 de junho) recuperado em 20 de junho de 2023 em https://techxplore.com/news/2023-06-ability-robots-videos.html
Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem a permissão por escrito. O conteúdo é fornecido apenas para fins informativos.