
Ilustração conceitual do processo robótico de LRL. A, Visão geral Ilustração do processo Geral LRL. Ao contrário das abordagens convencionais de várias tarefas, onde os agentes têm acesso simultâneo a todas as tarefas, um agente LRL pode dominar tarefas sequencialmente, uma após a outra. Além disso, o agente deve acumular continuamente o conhecimento ao longo do processo. Esse conceito emula o processo de aprendizado humano. B, nossa estrutura proposta sob o conceito de aprendizado ao longo da vida. Instruímos o agente incorporado implantado a executar tarefas de longo horizonte usando comandos de idioma. O agente realiza essas tarefas através da combinação e reaplicação do conhecimento adquirido. Crédito: Meng et al. (Inteligência da máquina da natureza2025).
Sabe -se que os seres humanos acumulam conhecimento ao longo do tempo, o que, por sua vez, permite que eles melhorem continuamente suas habilidades e habilidades. Essa capacidade, conhecida como aprendizado ao longo da vida, até agora se mostrou difícil de replicar em inteligência artificial (IA) e sistemas de robótica.
Uma equipe de pesquisa da Universidade Técnica de Munique e da Universidade Nanjing, liderada pelo Prof. Alois Knoll e pelo Dr. Zhenshan Bing, desenvolveu a Legion, uma nova estrutura de aprendizado de reforço que poderia equipar sistemas robóticos com recursos de aprendizado ao longo da vida.
Sua estrutura proposta, apresentada em um artigo em Inteligência da máquina da naturezapoderia ajudar a melhorar a adaptabilidade dos robôs, além de melhorar seu desempenho em configurações do mundo real.
“Nossa pesquisa se originou de um projeto sobre aprendizado de meta-reforço robótico em 2021, onde exploramos inicialmente os modelos de mistura gaussiana (GMM) como anteriores para inferência de tarefas e agrupamento de conhecimento”, disse Yuan Meng, primeiro autor do artigo, disse a Tech Xplore.
“Embora essa abordagem tenha produzido resultados promissores, encontramos uma limitação – os GMMs exigem um número predefinido de clusters, tornando -os inadequados para cenários de aprendizagem ao longo da vida em que o número de tarefas é inerentemente desconhecido e evolui de forma assíncrona.
“Para resolver isso, nos voltamos para modelos não paramétricos bayesianos, especificamente os modelos de mistura de processos Dirichlet (DPMMs), que podem ajustar dinamicamente o número de clusters com base nos dados de tarefas recebidos”.
Aproveitando uma classe de modelos conhecidos como DPMMs, a estrutura da Legião permite que os algoritmos treinados por meio de aprendizado de reforço adquiram continuamente, preservem e reajam o conhecimento em um fluxo de tarefas em mudança. Os pesquisadores esperam que essa nova estrutura ajude a aprimorar as habilidades de aprendizagem dos agentes da IA, aproximando -os um passo mais perto do aprendizado ao longo da vida observado em humanos.
“A estrutura da Legião foi projetada para imitar a aprendizagem humana ao longo da vida, permitindo que um robô aprenda continuamente novas tarefas, preservando e reutilizando o conhecimento adquirido anteriormente”, explicou Meng.
“Sua principal contribuição é um espaço de conhecimento não paramétrico baseado em um DPMM, que determina dinamicamente como o conhecimento é estruturado sem exigir um número predefinido de agrupamentos de tarefas. Isso impede o esquecimento catastrófico e permite adaptação flexível a tarefas novas e invisíveis”.
https://www.youtube.com/watch?v=uos-nxa3hgs
A nova estrutura introduzida por Meng, Prof. Knoll, Dr. Bing e seus colegas integra incorporações de idiomas que são codificadas a partir de um modelo de grande idioma pré-treinado (LLM). Essa integração permite que os robôs processem e compreendam as instruções de um usuário, interpretando essas instruções independentemente das demonstrações de tarefas.
“Além disso, nossa estrutura facilita a recombinação do conhecimento, o que significa que um robô pode resolver tarefas de longo horizonte-como limpar uma mesa-por sequenciar inteligentemente habilidades aprendidas anteriormente, como pressionar objetos, abrir gavetas ou pressionar botões”, disse Meng.
“Ao contrário do aprendizado de imitação convencional, que se baseia em sequências de execução predefinidas, a Legion permite uma combinação flexível de habilidades em qualquer ordem necessária, levando a uma maior generalização e flexibilidade em aplicações robóticas do mundo real”.
Os pesquisadores avaliaram sua abordagem em uma série de testes iniciais, aplicando -a a um sistema robótico real. Suas descobertas foram muito promissoras, pois a estrutura da Legião permitia que o robô acumule consistentemente o conhecimento de um fluxo contínuo de tarefas.
“Demonstramos que os modelos bayesianos não paramétricos, especificamente o DPMM, podem servir como um conhecimento prévio eficaz para a aprendizagem robótica ao longo da vida”, disse Meng. “Ao contrário do aprendizado tradicional de várias tarefas, onde todas as tarefas são aprendidas simultaneamente, nossa estrutura pode se adaptar dinamicamente a um fluxo de tarefas de número desconhecido, preservando e recombinando o conhecimento para melhorar o desempenho ao longo do tempo”.
O trabalho recente de Meng, Prof. Knoll, Dr. Bing e seus colegas poderiam informar esforços futuros destinados a desenvolver robôs que podem adquirir continuamente conhecimento e refinar suas habilidades ao longo do tempo. A estrutura da Legion pode ser melhorada ainda mais e aplicada a uma ampla gama de robôs, incluindo robôs de serviço e robôs industriais.
“Por exemplo, um robô implantado em um ambiente doméstico pode aprender tarefas domésticas ao longo do tempo, refinando suas habilidades com base no feedback do usuário e se adaptando a novas tarefas à medida que surgem”, disse Meng. “Da mesma forma, em ambientes industriais, os robôs podem aprender e se adaptar incrementalmente às mudanças nas linhas de produção sem exigir uma extensa reprogramação”.
Em seus próximos estudos, os pesquisadores planejam trabalhar para melhorar ainda mais a compensação de estabilidade versus plasticidade no aprendizado ao longo da vida, pois isso permitiria que os robôs mantenham com segurança o conhecimento ao longo do tempo, além de se adaptar a novos ambientes ou tarefas. Para fazer isso, eles integrarão várias técnicas computacionais, incluindo reprodução generativa e retropropagação contínua.
“Outra direção-chave para pesquisas futuras será a transferência de conhecimento em plataforma cruzada, onde um robô pode transferir e adaptar o conhecimento aprendido em diferentes modalidades, como robôs humanóides, braços robóticos e plataformas móveis”, acrescentou Meng.
“Também procuramos expandir as capacidades da Legião além dos ambientes estruturados, permitindo que os robôs lidem sobre feedback verbal ou contextual. ”
Yuan Meng et al, preservando e combinando conhecimento em aprendizado de reforço robótico ao longo da vida, Inteligência da máquina da natureza (2025). Doi: 10.1038/s42256-025-00983-2.
© 2025 Science X Network
Citação: Aquisição contínua de habilidades em robôs: A nova estrutura imita a aprendizagem ao longo da vida humana (2025, 20 de fevereiro) recuperada em 20 de fevereiro de 2025 em https://techxplore.com/news/2025-02-skill-acchquisition-robots-framework-mimics.html
Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa particular, nenhuma parte pode ser reproduzida sem a permissão por escrito. O conteúdo é fornecido apenas para fins de informação.