Pesquisadores desenvolvem técnica de aprendizado de máquina que pode aprender a controlar um robô com eficiência

Pesquisadores desenvolvem técnica de aprendizado de máquina que pode aprender a controlar um robô com eficiência

Resultados de rastreamento de trajetória para o sistema PVTOL em uma trajetória loop-the-loop duplo. A linha superior qualitativa representa as trajetórias de circuito fechado para cada método sobrepostas à trajetória desejada (preto tracejado). A linha inferior mostra o erro de rastreamento normalizado ao longo do tempo. Os gráficos prosseguem da esquerda para a direita com uma quantidade crescente N de dados de treinamento rotulados. Nosso método SD-LQR aprendido é a única abordagem baseada em aprendizagem que rastreia com sucesso a trajetória de todos os N. Créditos: arXiv (2023). DOI: 10.48550/arxiv.2302.02529

Pesquisadores do MIT e da Universidade de Stanford desenvolveram uma nova abordagem de aprendizado de máquina que poderia ser usada para controlar um robô, como um drone ou um veículo autônomo, de forma mais eficaz e eficiente em ambientes dinâmicos onde as condições podem mudar rapidamente.

Esta técnica poderia ajudar um veículo autônomo a aprender a compensar as condições escorregadias da estrada para evitar derrapagens, permitir que um free-flyer robótico reboque diferentes objetos no espaço ou permitir que um drone siga de perto um esquiador em declive, apesar de ser atingido por ventos fortes. .

A abordagem dos pesquisadores incorpora certa estrutura da teoria de controle no processo de aprendizagem de um modelo de forma que leve a um método eficaz de controle de dinâmicas complexas, como aquelas causadas pelos impactos do vento na trajetória de um veículo voador. Uma maneira de pensar sobre essa estrutura é como uma dica que pode ajudar a orientar como controlar um sistema.

“O foco do nosso trabalho é aprender a estrutura intrínseca na dinâmica do sistema que pode ser aproveitada para projetar controladores estabilizadores mais eficazes”, diz Navid Azizan, professor assistente de Esther e Harold E. Edgerton no Departamento de Engenharia Mecânica do MIT. e do Instituto de Dados, Sistemas e Sociedade (IDSS), e membro do Laboratório de Sistemas de Informação e Decisão (LIDS). “Ao aprendermos em conjunto a dinâmica do sistema e essas estruturas únicas orientadas para o controle a partir dos dados, somos capazes de criar naturalmente controladores que funcionam de forma muito mais eficaz no mundo real.”

Usando essa estrutura em um modelo aprendido, a técnica dos pesquisadores extrai imediatamente um controlador eficaz do modelo, ao contrário de outros métodos de aprendizado de máquina que exigem que um controlador seja derivado ou aprendido separadamente com etapas adicionais. Com esta estrutura, a sua abordagem também é capaz de aprender um controlador eficaz usando menos dados do que outras abordagens. Isso poderia ajudar seu sistema de controle baseado em aprendizagem a obter melhor desempenho com mais rapidez em ambientes em rápida mudança.

“Este trabalho tenta encontrar um equilíbrio entre identificar a estrutura do seu sistema e apenas aprender um modelo a partir dos dados”, diz o autor principal Spencer M. Richards, estudante de graduação na Universidade de Stanford. “Nossa abordagem é inspirada em como os roboticistas usam a física para derivar modelos mais simples para robôs. A análise física desses modelos geralmente produz uma estrutura útil para fins de controle – uma que você pode perder se tentar ingenuamente ajustar um modelo aos dados. Em vez disso, tentamos identificar estruturas igualmente úteis a partir de dados que indiquem como implementar sua lógica de controle.”

Autores adicionais do artigo são Jean-Jacques Slotine, professor de engenharia mecânica e de ciências cerebrais e cognitivas no MIT, e Marco Pavone, professor associado de aeronáutica e astronáutica em Stanford. A pesquisa será apresentada na Conferência Internacional sobre Aprendizado de Máquina (ICML), realizada de 23 a 29 de julho em Honolulu. Uma versão pré-impressa está disponível no site arXiv servidor.

Aprendendo um controlador

Determinar a melhor forma de controlar um robô para realizar uma determinada tarefa pode ser um problema difícil, mesmo quando os pesquisadores sabem modelar tudo sobre o sistema.

Um controlador é a lógica que permite a um drone seguir uma trajetória desejada, por exemplo. Este controlador diria ao drone como ajustar as forças do rotor para compensar o efeito dos ventos que podem desviá-lo de um caminho estável para atingir seu objetivo.

Este drone é um sistema dinâmico – um sistema físico que evolui com o tempo. Nesse caso, sua posição e velocidade mudam à medida que voa pelo ambiente. Se tal sistema for bastante simples, os engenheiros poderão derivar um controlador manualmente.

Modelar um sistema manualmente captura intrinsecamente uma determinada estrutura baseada na física do sistema. Por exemplo, se um robô fosse modelado manualmente usando equações diferenciais, estas capturariam a relação entre velocidade, aceleração e força. A aceleração é a taxa de mudança na velocidade ao longo do tempo, que é determinada pela massa e pelas forças aplicadas ao robô.

Mas muitas vezes o sistema é demasiado complexo para ser modelado exactamente à mão. Os efeitos aerodinâmicos, como a forma como o vento turbulento empurra um veículo voador, são notoriamente difíceis de derivar manualmente, explica Richards. Em vez disso, os pesquisadores fariam medições da posição, velocidade e velocidades do rotor do drone ao longo do tempo e usariam o aprendizado de máquina para ajustar um modelo desse sistema dinâmico aos dados.

Mas essas abordagens normalmente não aprendem uma estrutura baseada em controle. Esta estrutura é útil para determinar a melhor forma de definir as velocidades do rotor para direcionar o movimento do drone ao longo do tempo.

Depois de modelar o sistema dinâmico, muitas abordagens existentes também usam dados para aprender um controlador separado para o sistema.

“Outras abordagens que tentam aprender a dinâmica e um controlador a partir de dados como entidades separadas são um pouco desligadas filosoficamente da maneira como normalmente fazemos isso para sistemas mais simples. Nossa abordagem lembra mais derivar modelos manualmente da física e vinculá-los ao controle, “, diz Richards.

Estrutura de identificação

A equipe do MIT e de Stanford desenvolveu uma técnica que utiliza aprendizado de máquina para aprender o modelo dinâmico, mas de forma que o modelo tenha alguma estrutura prescrita que seja útil para controlar o sistema.

Com esta estrutura, eles podem extrair um controlador diretamente do modelo dinâmico, em vez de usar dados para aprender um modelo totalmente separado para o controlador.

“Descobrimos que, além de aprender a dinâmica, também é essencial aprender a estrutura orientada ao controle que suporta o design eficaz do controlador. Nossa abordagem de aprender fatorações de coeficientes dependentes do estado da dinâmica superou as linhas de base em termos de eficiência de dados e capacidade de rastreamento, provando ser bem-sucedido no controle eficiente e eficaz da trajetória do sistema”, diz Azizan.

Quando testaram esta abordagem, o seu controlador seguiu de perto as trajetórias desejadas, ultrapassando todos os métodos de linha de base. O controlador extraído de seu modelo aprendido quase igualou o desempenho de um controlador de verdade, que é construído usando a dinâmica exata do sistema.

“Ao fazer suposições mais simples, obtivemos algo que realmente funcionou melhor do que outras abordagens de base complicadas”, acrescenta Richards.

Os pesquisadores também descobriram que seu método era eficiente em termos de dados, o que significa que alcançou alto desempenho mesmo com poucos dados. Por exemplo, ele poderia modelar com eficácia um veículo movido a rotor altamente dinâmico usando apenas 100 pontos de dados. Os métodos que usaram vários componentes aprendidos tiveram seu desempenho cair muito mais rapidamente com conjuntos de dados menores.

Essa eficiência pode tornar sua técnica especialmente útil em situações em que um drone ou robô precisa aprender rapidamente em condições que mudam rapidamente.

Além disso, a sua abordagem é geral e pode ser aplicada a muitos tipos de sistemas dinâmicos, desde braços robóticos a naves espaciais de voo livre operando em ambientes de baixa gravidade.

No futuro, os pesquisadores estão interessados ​​em desenvolver modelos que sejam mais interpretáveis ​​fisicamente e que sejam capazes de identificar informações muito específicas sobre um sistema dinâmico, diz Richards. Isso pode levar a controladores com melhor desempenho.

“Apesar de sua onipresença e importância, o controle de feedback não linear continua sendo uma arte, tornando-o especialmente adequado para métodos baseados em dados e baseados em aprendizagem. Este artigo dá uma contribuição significativa a esta área ao propor um método que aprende conjuntamente a dinâmica do sistema, um controlador, e estrutura orientada para controle”, diz Nikolai Matni, professor assistente do Departamento de Engenharia Elétrica e de Sistemas da Universidade da Pensilvânia, que não esteve envolvido neste trabalho.

“O que achei particularmente interessante e atraente foi a integração desses componentes em um algoritmo de aprendizagem conjunto, de modo que a estrutura orientada ao controle atue como um viés indutivo no processo de aprendizagem. O resultado é um processo de aprendizagem eficiente em termos de dados que produz modelos dinâmicos que desfrutam de uma estrutura intrínseca que permite um controle eficaz, estável e robusto. Embora as contribuições técnicas do artigo sejam excelentes, é essa contribuição conceitual que considero mais emocionante e significativa”, diz Matni.

Mais Informações:
Spencer M. Richards et al, Estrutura Dinâmica Orientada ao Controle de Aprendizagem a partir de Dados, arXiv (2023). DOI: 10.48550/arxiv.2302.02529

Informações do diário:
arXiv

Fornecido pelo Instituto de Tecnologia de Massachusetts

Esta história foi republicada como cortesia do MIT News (web.mit.edu/newsoffice/), um site popular que cobre notícias sobre pesquisa, inovação e ensino do MIT.

Citação: Pesquisadores desenvolvem técnica de aprendizado de máquina que pode aprender a controlar um robô com eficiência (2023, 26 de julho) recuperado em 23 de agosto de 2023 em https://techxplore.com/news/2023-07-machine-learning-technique-efficiently-robot. HTML

Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.



Deixe uma resposta