Robôs de pernas com sucesso com a estrutura de aprendizado de reforço

Uma nova estrutura de aprendizado de reforço permite que o robô pernas skate

Crédito: Liu et al.

Os robôs pernas, que geralmente são inspirados por animais e insetos, podem ajudar os seres humanos a concluir várias tarefas do mundo real, por exemplo, entregando parcelas ou monitorando ambientes específicos. Nos últimos anos, os cientistas da computação criaram algoritmos que permitem que esses robôs andem em velocidades diferentes, saltem, imitam alguns dos movimentos dos animais e se movem com grande agilidade.

Pesquisadores do Laboratório de Autonomia e Robótica Computacional da Universidade de Michigan (Laboratório Curly) e da Universidade de Ciência e Tecnologia do Sul agora desenvolveram uma estrutura baseada em aprendizado de reforço que permite que os robôs pernas usem um skate com sucesso. Essa estrutura, descrita em um artigo sobre o arxiv O servidor de pré-impressão também pode ser usado para imitar outros movimentos complexos do mundo real que envolvem contato físico com objetos próximos.

“As abordagens de locomoção quadrúpedal existentes não consideram a interação rica em contato com os objetivos, como o skate”, disse Sangli Teng, autor correspondente do artigo, ao Tech Xplore. “Nosso trabalho teve como objetivo projetar um pipeline para tarefas guiadas por contato que valem a pena estudar, incluindo skate. A Universidade de Michigan tem uma longa história de desenvolvimento de sistemas dinâmicos híbridos, que nos inspirou a identificar esses efeitos híbridos por meio de abordagens orientadas a dados na IA”.

O principal objetivo do trabalho recente de Teng e seus colegas era permitir que os robôs pernas realizassem movimentos guiados por contato, incluindo o skate. Para conseguir isso, eles desenvolveram uma nova estrutura chamada Hybrid Automata Learning (DHAL) de tempo discreto.







Crédito: Liu et al.

“Dinâmica híbrida” significa que um sistema pode executar transições de estado contínuas e discretas. Isso significa essencialmente que pode se mover sem problemas e de repente alterar seu estado ao longo do tempo.

“Por exemplo, quando uma bola saltitante interage com o chão, a bola tem dinâmica contínua no ar e as transições de estado discreto ao colidir com o chão”, explicou Teng.

“Para sistemas com múltiplas dinâmicas contínuas e funções de transição, é extremamente difícil identificar o modo discreto e a dinâmica contínua ao mesmo tempo. Isso ocorre porque uma possível transição cresce exponencialmente rapidamente em relação ao número de possíveis transições discretas”.

As transições abruptas descritas por Teng dificultam os métodos computacionais baseados em regressão convencionais para aprender a dinâmica de um sistema. Dhal, a estrutura desenvolvida pelos pesquisadores, pode identificar essas transições repentinas, aprendendo subsequentemente cada segmento contínuo da dinâmica de um sistema usando técnicas baseadas em regressão, reduzindo o efeito descontínuo que prejudica o desempenho de robôs em tarefas como o skate.

Uma nova estrutura de aprendizado de reforço permite que o robô pernas skate

Crédito: Liu et al.

“Comparado aos métodos existentes, o DHAL não requer identificação manual da transição discreta ou conhecimento prévio do número de estados de transição”, disse Teng. “Tudo em Dhal é heurístico e mostramos que nosso método pode identificar autonomamente a transição do modo de dinâmica”.

Uma outra vantagem da estrutura DHAL é que ela é altamente intuitiva, garantindo assim que as transições de modo que identifica estejam alinhadas com as normalmente associadas ao skate. Nos testes iniciais, os pesquisadores descobriram que eles permitiram que robôs de quatro patas (ou seja, quadrúpedes) pisassem em um skate e o usassem para avançar rapidamente, além de puxar um pequeno carrinho para trás.

“Na fase de empurrar, deslizar e aumentar, o DHAL produzirá automaticamente diferentes rótulos”, disse Teng. “Nosso método pode ser aplicado à estimativa do estado de sistemas dinâmicos híbridos para descobrir se essa transição ocorre. Com essas informações de transição, o sistema pode estimar melhor os estados para ajudar a tomada de decisão”.

Uma nova estrutura de aprendizado de reforço permite que o robô pernas skate

Eficácia da identificação do modo. Na implantação do mundo real, iluminamos diferentes cores de barra de luz RGB de acordo com o modo para mostrar a comutação entre o modo diferente. A figura a seguir mostra a mudança na posição da junta em relação ao tempo no teste e a cor do plano de fundo é representada pela cor do modo correspondente. [H, T, C] denotar as juntas do quadril, coxa e bezerro, respectivamente. Crédito: arxiv (2025). Doi: 10.48550/arxiv.2503.01842

A nova estrutura de aprendizado de reforço Teng e seus colegas desenvolvidos poderiam em breve abrir novas possibilidades para a implantação do mundo real de robôs pernas. Por exemplo, pode permitir que eles se movam mais rápido usando um skate, fornecendo pacotes em ambientes urbanos, escritórios dentro ou instalações de fabricação.

“Agora planejamos aplicar essa estrutura a outros cenários, como manipulação hábil (ou seja, a manipulação de objetos com vários dedos ou braços)”, acrescentou Teng. “Espera -se que Dhal preveja o contato com mais precisão, permitindo assim que os algoritmos de planejamento e controle tomem melhores decisões”.

Mais informações:
Hang Liu et al. arxiv (2025). Doi: 10.48550/arxiv.2503.01842

Informações do diário:
arxiv

© 2025 Science X Network

Citação: Robôs de pernas Skateboard com sucesso com a estrutura de aprendizado de reforço (2025, 20 de março) Recuperado em 20 de março de 2025 de https://techxplore.com/news/2025-03-legged-robots-skateboard-nsuccessly-framework.html

Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa particular, nenhuma parte pode ser reproduzida sem a permissão por escrito. O conteúdo é fornecido apenas para fins de informação.



Deixe uma resposta