Nos últimos anos, os roboticistas desenvolveram uma ampla gama de sistemas projetados para lidar com diversas tarefas do mundo real, desde a realização de tarefas domésticas até a entrega de pacotes ou a localização de objetos alvo em ambientes delineados.
Um objetivo fundamental neste campo tem sido desenvolver algoritmos que permitam a transferência confiável de habilidades específicas entre robôs com diferentes corpos e características, o que ajudaria a treinar rapidamente robôs em novas tarefas, ampliando suas capacidades.
Pesquisadores da UC Berkeley desenvolveram o RoVi-Aug, uma nova estrutura computacional projetada para aumentar os dados robóticos e facilitar a transferência de habilidades entre diferentes robôs. A abordagem proposta, descrita em um artigo pré-publicado em arXiv e previsto para ser apresentado na Conferência sobre Aprendizagem de Robôs (CoRL) de 2024, utiliza modelos generativos de última geração para aumentar dados de imagem e criar demonstrações de tarefas visuais sintetizadas com visualizações de câmera variadas para robôs distintos.
“O sucesso dos sistemas modernos de aprendizado de máquina, particularmente dos modelos generativos, demonstra uma capacidade de generalização impressionante e motivou os pesquisadores de robótica a explorar como alcançar uma generalização semelhante em robótica”, Lawrence Chen (candidato a doutorado, AUTOLab, EECS & IEOR, BAIR, UC Berkeley ) e Chenfeng Xu (candidato a doutorado, Pallas Lab e MSC Lab, EECS & ME, BAIR, UC Berkeley), disseram ao Tech Xplore.
“Temos investigado o problema do ponto de vista cruzado e da generalização entre robôs desde o início deste ano.”
Ao conduzir suas pesquisas anteriores, Chen, Xu e seus colegas identificaram alguns dos desafios para a generalização da aprendizagem em diferentes robôs. Especificamente, eles descobriram que quando as cenas incluídas nos conjuntos de dados de robótica são distribuídas de forma desigual, por exemplo, contendo uma predominância de visuais de robôs e ângulos de câmera específicos sobre outros, isso os torna menos eficazes para ensinar as mesmas habilidades a diferentes robôs.
Curiosamente, os pesquisadores descobriram que muitos conjuntos de dados de treinamento de robôs existentes são desequilibrados, incluindo alguns dos mais bem estabelecidos. Por exemplo, mesmo o conjunto de dados Open-X Embodiment (OXE), um conjunto de dados que é amplamente utilizado para treinar algoritmos robóticos e contém demonstrações de diferentes robôs completando tarefas variadas, contém mais dados para alguns robôs, como os manipuladores Franka e xArm.
“Tais preconceitos no conjunto de dados fazem com que o modelo de política de robôs tenda a se ajustar excessivamente a tipos e pontos de vista específicos de robôs”, disseram Chen e Xu.
“Para mitigar esse problema, em fevereiro de 2024, propusemos um algoritmo de adaptação em tempo de teste, Mirage, que usa ‘pintura cruzada’ para transformar um robô alvo invisível no robô fonte visto durante o treinamento, criando a ilusão de que o robô fonte é realizando a tarefa no momento do teste.”
Mirage, o algoritmo que os pesquisadores introduziram em seu artigo anterior, descobriu-se que alcança a transferência de habilidades de tiro zero para robôs alvo invisíveis. No entanto, descobriu-se que o modelo apresentava várias limitações.
Em primeiro lugar, para funcionar bem, o Mirage requer modelos de robôs e matrizes de câmeras precisos. Além disso, o algoritmo não suporta o ajuste fino das políticas do robô e limita-se ao processamento de imagens com poucas alterações na pose da câmera, pois está sujeito a cometer erros na reprojeção da profundidade da imagem.
“Em nosso trabalho mais recente apresentamos um algoritmo alternativo chamado RoVi-Aug”, disseram Chen e Xu. “O objetivo deste algoritmo é superar as limitações do Mirage, melhorando a robustez e generalização das políticas durante o treinamento, concentrando-se no tratamento de diversos visuais de robôs e poses de câmera, em vez de confiar na abordagem de pintura cruzada em tempo de teste com suposições rigorosas sobre as poses de câmera conhecidas e URDFs de robôs (formatos unificados de descrição de robôs).”
RoVi-Aug, a nova estrutura de aumento de dados de robôs introduzida pelos pesquisadores, é baseada em modelos de difusão de última geração. São modelos computacionais que podem aumentar imagens das trajetórias de um robô, gerando imagens sintéticas que mostram diferentes robôs completando tarefas, visualizadas de diversos pontos de vista.
Os pesquisadores usaram sua estrutura para compilar um conjunto de dados contendo uma ampla gama de demonstrações de robôs sintéticos e, em seguida, treinaram políticas de robôs nesse conjunto de dados. Isto, por sua vez, permite a transferência de habilidades para novos robôs que não foram previamente expostos à tarefa incluída na demonstração, que é conhecida como aprendizagem zero-shot.
Notavelmente, as políticas dos robôs também podem ser ajustadas para alcançar desempenhos cada vez melhores numa determinada tarefa. Além disso, ao contrário do modelo Mirage apresentado no artigo anterior da equipe, seu novo algoritmo pode suportar mudanças drásticas nos ângulos da câmera.
“Ao contrário dos métodos de adaptação em tempo de teste como o Mirage, o RoVi-Aug não requer nenhum processamento extra durante a implantação, não depende do conhecimento prévio dos ângulos da câmera e oferece suporte ao ajuste fino da política”, explicaram Chen e Xu. “Também vai além do co-treinamento tradicional em conjuntos de dados multirobôs e multitarefas, incentivando ativamente o modelo a aprender toda a gama de robôs e habilidades em todos os conjuntos de dados.”
O modelo RoVi-Aug possui dois componentes distintos, nomeadamente os módulos de aumento do robô (Ro-Aug) e de aumento do ponto de vista (Vi-Aug). O primeiro destes componentes é projetado para sintetizar dados de demonstração de diferentes sistemas robóticos, enquanto o segundo pode produzir demonstrações vistas de diferentes ângulos.
“Ro-Aug tem dois recursos principais: um modelo SAM ajustado para segmentar o robô e um ControlNet ajustado para substituir o robô original por um diferente”, disseram Chen e Xu. “Enquanto isso, o Vi-Aug aproveita o ZeroNVS, um novo modelo de síntese de visão de última geração, para gerar novas perspectivas da cena, tornando o modelo adaptável a vários pontos de vista da câmera.”
Como parte do estudo, os pesquisadores usaram seu modelo para produzir um conjunto de dados aumentado de robôs e, em seguida, testaram a eficácia desse conjunto de dados para políticas de treinamento e transferência de habilidades entre diferentes robôs. Suas descobertas iniciais destacam o potencial do Rovi-Aug, já que o algoritmo permite o treinamento de políticas que se generalizam bem em diferentes robôs e configurações de câmeras.
“Sua principal inovação reside na aplicação de modelos generativos – como geração de imagem a imagem e síntese de novas visualizações – ao desafio da aprendizagem de robôs de incorporação cruzada”, explicaram Chen e Xu.
“Embora trabalhos anteriores tenham usado aumento generativo para melhorar a robustez das políticas diante de objetos e fundos que distraem, RoVi-Aug é o primeiro a mostrar como esta abordagem pode facilitar a transferência de habilidades entre diferentes robôs.”
Este trabalho recente de Chen e Xu pode contribuir para o avanço dos robôs, ajudando os pesquisadores de robótica a ampliar facilmente o conjunto de habilidades de seus sistemas. No futuro, poderá ser utilizado por outras equipas para transferir competências entre diferentes robôs ou desenvolver políticas robóticas de uso geral mais eficazes.
“Por exemplo, imagine um cenário em que um pesquisador despendeu um esforço significativo coletando dados e treinando uma política em um robô Franka para executar uma tarefa, mas você só tem um robô UR5”, disseram Chen e Xu.
“O RoVi-Aug permite que você reaproveite os dados do Franka e implante a política no robô UR5 sem treinamento adicional. Isso é particularmente útil porque as políticas do robô são frequentemente sensíveis às mudanças no ponto de vista da câmera, e configurar ângulos de câmera idênticos em diferentes robôs é um desafio. O RoVi-Aug elimina a necessidade de configurações tão precisas.”
Como coletar grandes quantidades de demonstrações de robôs no mundo real pode ser muito caro e demorado, o RoVi-Aug pode ser uma alternativa econômica para compilar facilmente conjuntos de dados confiáveis de treinamento de robôs.
Embora as imagens nestes conjuntos de dados sejam sintéticas (ou seja, geradas por IA), ainda podem ser úteis para produzir políticas robóticas fiáveis. Os pesquisadores estão atualmente trabalhando com colegas do Toyota Research Labs e de outros institutos na aplicação e extensão de sua abordagem a outros conjuntos de dados de robôs.
“Nosso objetivo agora é refinar ainda mais o RoVi-Aug, incorporando desenvolvimentos recentes em técnicas de modelagem generativa, como geração de vídeo no lugar da geração de imagem”, acrescentaram Chen e Xu.
“Também planejamos aplicar o RoVi-Aug a conjuntos de dados existentes, como o conjunto de dados Open-X Embodiment (OXE), e estamos entusiasmados com o potencial de melhorar o desempenho de políticas generalistas de robôs treinados nesses dados. A expansão dos recursos do RoVi-Aug poderia significativamente melhorar a flexibilidade e a robustez destas políticas numa gama mais ampla de robôs e tarefas.”
Lawrence Yunliang Chen et al, RoVi-Aug: Aumento de robôs e pontos de vista para aprendizagem de robôs de incorporação cruzada, arXiv (2024). DOI: 10.48550/arxiv.2409.03403
arXiv
© 2024 Science X Network
Citação: Novo algoritmo de aumento de dados pode facilitar a transferência de habilidades entre robôs (2024, 10 de outubro) recuperado em 10 de outubro de 2024 em https://techxplore.com/news/2024-10-augmentation-algorithm-skills-robots.html
Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.