O sistema aprende depois de assistir a vídeos de instruções

Robot Veja, Robot Do: System aprende depois de assistir a vídeos de instruções

Kushal Kedia (à esquerda), um estudante de doutorado no campo da ciência da computação, e Prithwish Dan são membros da equipe de desenvolvimento por trás da Rhyme, um sistema que permite que os robôs aprendam tarefas assistindo a um único vídeo de instruções. Crédito: Louis Dipietro

Os pesquisadores da Universidade de Cornell desenvolveram uma nova estrutura robótica alimentada por inteligência artificial-chamada rima (recuperação para imitação híbrida sob execução incompatível)-que permite que os robôs aprendam tarefas assistindo a um único vídeo de instruções.

Os robôs podem ser aprendizes de Times. Historicamente, eles exigiram instruções precisas e passo a passo para concluir tarefas básicas e tendem a desistir quando as coisas saem do escrito, como depois de soltar uma ferramenta ou perder um parafuso. A rima, no entanto, pode acelerar o desenvolvimento e a implantação de sistemas robóticos, reduzindo significativamente o tempo, a energia e o dinheiro necessários para treiná-los, disseram os pesquisadores.

“Uma das coisas irritantes de trabalhar com robôs é coletar tantos dados sobre o robô fazendo tarefas diferentes”, disse Kushal Kedia, estudante de doutorado no campo da ciência da computação. “Não é assim que os seres humanos realizam tarefas. Nós consideramos outras pessoas como inspiração”.

A Kedia apresentará um artigo intitulado “Imitação de um tiro sob execução incompatível”, em maio, no Instituto de Conferência Internacional do Instituto de Engenheiros de Elétrica e Eletrônica sobre Robótica e Automação, em Atlanta. O trabalho também está disponível no arxiv servidor pré -impressão.

Os assistentes de robôs domésticos ainda estão muito longe, porque não têm a inteligência para navegar no mundo físico e suas inúmeras contingências. Para acelerar os robôs, pesquisadores como a Kedia os estão treinando com o que equivale a vídeos de instruções-demonstrações humanas de várias tarefas em um ambiente de laboratório. A esperança dessa abordagem, um ramo do aprendizado de máquina chamado “Aprendizagem de imitação” é que os robôs aprenderão uma sequência de tarefas mais rapidamente e poderão se adaptar aos ambientes do mundo real.







Crédito: Universidade de Cornell

“Nosso trabalho é como traduzir francês para inglês – estamos traduzindo qualquer tarefa de humano para robô”, disse o autor sênior Sanjiban Choudhury, professor assistente de ciência da computação.

Essa tarefa de tradução ainda enfrenta um desafio mais amplo, no entanto: os seres humanos se movem com muita fluidez para um robô rastrear e imitar, e o treinamento de robôs com vídeo requer gobos. Além disso, demonstrações em vídeo – de, digamos, pegar um guardanapo ou empilhar pratos de jantar – devem ser executados lenta e sem falhas, uma vez que qualquer incompatibilidade em ações entre o vídeo e o robô historicamente soletrava desgraça para o aprendizado de robôs, disseram os pesquisadores.

“Se um humano se move de uma maneira diferente de como um robô se move, o método imediatamente se desfaz”, disse Choudhury. “Nosso pensamento era: ‘Podemos encontrar uma maneira de princípios de lidar com essa incompatibilidade entre como os humanos e os robôs realizam tarefas?'”

A rima é a resposta da equipe – uma abordagem escalável que torna os robôs menos mecânicos e mais adaptáveis. Ele sobrecarrega um sistema robótico para usar sua própria memória e conectar os pontos ao executar tarefas que ele visualizou apenas uma vez, desenhando vídeos que viu. Por exemplo, um robô equipado com rimas mostrou um vídeo de um humano buscar uma caneca do balcão e colocá-lo em uma pia próxima penteará seu banco de vídeos e se inspirará em ações semelhantes-como agarrar um copo e diminuir um utensílio.

A Rhyme abre o caminho para os robôs aprenderem sequências de várias etapas, reduzindo significativamente a quantidade de dados de robôs necessários para o treinamento, disseram os pesquisadores. A rima requer apenas 30 minutos de dados do robô; Em um ambiente de laboratório, os robôs treinados usando o sistema alcançaram um aumento de mais de 50% no sucesso da tarefa em comparação com os métodos anteriores, disseram os pesquisadores.

“Este trabalho é um afastamento de como os robôs estão programados hoje. O status quo dos robôs de programação é milhares de horas de tele-operação para ensinar o robô a fazer tarefas. Isso é impossível”, disse Choudhury. “Com a rima, estamos nos afastando disso e aprendendo a treinar robôs de uma maneira mais escalável”.

Juntamente com Kedia e Choudhury, os autores do jornal são Prithwish Dan, Angela Chao e Maximus.

Mais informações:
Kushal Kedia et al, imitação de um tiro sob execução incompatível, arxiv (2024). Doi: 10.48550/arxiv.2409.06615

Informações do diário:
arxiv

Fornecido pela Universidade de Cornell

Citação: Robot Veja, Robot Do: O System aprende depois de assistir a vídeos de instruções (2025, 22 de abril) Recuperado em 22 de abril de 2025 em https://techxplore.com/news/2025-04-robot-videos.html

Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa particular, nenhuma parte pode ser reproduzida sem a permissão por escrito. O conteúdo é fornecido apenas para fins de informação.



Deixe uma resposta