Arquitetura de controle e fluxo de trabalho de treinamento e implantação, incluindo duas partes: pré-ajuste e aprendizagem por reforço profundo (DRL). Após o treinamento, o modelo é implantado diretamente no robô real. PD, derivada proporcional. Crédito: Cibersistemas e Robótica IET (2022). DOI: 10.1049/csy2.12062
Em estudo publicado na edição especial da revista Cibersistemas e Robótica IETpesquisadores da Universidade de Zhejiang com experiência em movimento e controle de robôs com pernas, pré-treinaram a rede neural (NN) usando dados de um robô operado por controladores convencionais baseados em modelos.
Esse pré-treinamento serviu como uma medida preliminar para evitar a anulação de comportamento e o hacking de recompensas – uma situação em que os agentes garantem recompensas inesperadamente, normalmente devido à otimização atingir inadvertidamente um ótimo local em vez do pretendido. Após o pré-treinamento, a equipe implementou a aprendizagem por reforço profundo (DRL), uma abordagem inovadora baseada na aprendizagem no controle da locomoção com pernas.
Notavelmente, uma função de recompensa foi projetada considerando pontos de contato e fases, o que reforçou a simetria e a periodicidade da marcha, culminando em um melhor desempenho de salto. Os métodos DRL desenvolvidos foram inicialmente aprendidos em um ambiente simulado e depois implantados com sucesso em um robô quadrúpede real, o Jueying Mini.
A locomoção resultante foi testada em vários ambientes, tanto internos quanto externos, demonstrando computação eficiente e excelentes resultados de locomoção. Descobriu-se que o método de controle desenvolvido para o robô Jueying Mini produz movimentos robustos tanto em simulação quanto em configurações do mundo real. Isto tem implicações tremendas para melhorar a agilidade e adaptabilidade de robôs quadrúpedes em diversos ambientes internos e externos.
Os próximos passos do estudo envolvem a integração do método atual com ferramentas de percepção ambiental, como câmeras ou sistemas LiDAR. Embora não tenham sido usados no estudo atual, eles podem oferecer localização mais precisa do robô e navegação para percorrer diferentes terrenos.
Num outro estudo publicado na edição especial, os investigadores foram pioneiros na utilização de giroscópios de controlo de momento (CMGs) para melhorar a estabilidade dos robôs bípedes, particularmente durante operações de alta velocidade. Os robôs bípedes, cada vez mais utilizados em todas as indústrias, lutam contra o equilíbrio e a rejeição de perturbações à medida que a sua velocidade aumenta.
A estratégia de assistência CMG recentemente desenvolvida aumenta a sua capacidade de resistir ao impacto e recuperar rapidamente o equilíbrio. Os resultados da simulação confirmam a eficácia dos CMGs em melhorar significativamente a estabilidade dos robôs. Este uso inovador de CMGs representa um salto na robótica bípede, com planos para integrar ainda mais os CMGs para melhorar o desempenho no mundo real em movimentos altamente dinâmicos.
Zhicheng Wang et al, Aprendizagem eficiente de limites quadrúpedes robustos usando redes neurais pré-treinadas, Cibersistemas e Robótica IET (2022). DOI: 10.1049/csy2.12062
Haochen Xu et al, Rejeição de perturbações para robôs bípedes durante caminhada e corrida usando giroscópios de momento de controle, Cibersistemas e Robótica IET (2022). DOI: 10.1049/csy2.12070
Fornecido pela Universidade de Zhejiang
Citação: A pesquisa melhora o limite quadrúpede com método de aprendizagem eficiente (2023, 27 de julho) recuperado em 23 de agosto de 2023 em https://techxplore.com/news/2023-07-quadruped-bounding-efficient-method.html
Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.