Uma nova abordagem baseada em IA para controlar robôs autônomos

Abordagem baseada em IA para controlar robôs autônomos

Pesquisadores do MIT desenvolveram uma técnica de aprendizado de máquina que pode dirigir autonomamente um carro ou pilotar um avião em um cenário muito difícil de “estabilizar-evitar”, no qual o veículo deve estabilizar sua trajetória para chegar e permanecer dentro de alguma região de objetivo, evitando obstáculos . Crédito: Instituto de Tecnologia de Massachusetts

No filme “Top Gun: Maverick”, Maverick, interpretado por Tom Cruise, é encarregado de treinar jovens pilotos para completar uma missão aparentemente impossível – pilotar seus jatos profundamente em um desfiladeiro rochoso, mantendo-se tão baixo no solo que não podem ser detectados. por radar, então suba rapidamente para fora do cânion em um ângulo extremo, evitando as paredes rochosas. Alerta de spoiler: com a ajuda de Maverick, esses pilotos humanos cumprem sua missão.

Uma máquina, por outro lado, lutaria para completar a mesma tarefa de tirar o fôlego. Para uma aeronave autônoma, por exemplo, o caminho mais direto em direção ao alvo está em conflito com o que a máquina precisa fazer para evitar colidir com as paredes do desfiladeiro ou passar despercebida. Muitos métodos de IA existentes não são capazes de superar esse conflito, conhecido como problema de estabilização-evitação, e seriam incapazes de atingir seu objetivo com segurança.

Pesquisadores do MIT desenvolveram uma nova técnica que pode resolver problemas complexos de evitar estabilizar melhor do que outros métodos. Sua abordagem de aprendizado de máquina iguala ou supera a segurança dos métodos existentes, ao mesmo tempo em que proporciona um aumento de dez vezes na estabilidade, o que significa que o agente atinge e permanece estável dentro de sua região de objetivo.

Em um experimento que deixaria Maverick orgulhoso, sua técnica efetivamente pilotou um avião a jato simulado por um corredor estreito sem colidir com o solo.

“Este tem sido um problema desafiador de longa data. Muitas pessoas o examinaram, mas não sabiam como lidar com dinâmicas tão complexas e de alta dimensão”, diz Chuchu Fan, professor assistente de aeronáutica e astronáutica da Wilson, membro do Laboratório de Sistemas de Informação e Decisão (LIDS), e autor sênior de um novo artigo sobre esta técnica.

Fan é acompanhado pelo autor principal Oswin So, um estudante de pós-graduação. O artigo será apresentado na conferência Robotics: Science and Systems agendada para os dias 10 e 14 de julho na Coréia. O papel está disponível no arXiv servidor de pré-impressão.






Este vídeo mostra como os pesquisadores usaram sua técnica para pilotar efetivamente um avião a jato simulado em um cenário em que ele precisava se estabilizar em um alvo próximo ao solo, mantendo uma altitude muito baixa e permanecendo em um corredor de voo estreito. Crédito: Instituto de Tecnologia de Massachusetts

O desafio estabilizar-evitar

Muitas abordagens lidam com problemas complexos de evitar estabilizar simplificando o sistema para que possam resolvê-lo com matemática direta, mas os resultados simplificados geralmente não se sustentam na dinâmica do mundo real.

Técnicas mais eficazes usam aprendizado por reforço, um método de aprendizado de máquina em que um agente aprende por tentativa e erro com uma recompensa pelo comportamento que o aproxima de um objetivo. Mas há realmente dois objetivos aqui – permanecer estável e evitar obstáculos – e encontrar o equilíbrio certo é tedioso.

Os pesquisadores do MIT dividiram o problema em duas etapas. Primeiro, eles reformulam o problema estabilizar-evitar como um problema de otimização restrita. Nesta configuração, resolver a otimização permite que o agente alcance e se estabilize em seu objetivo, ou seja, permaneça dentro de uma determinada região. Ao aplicar restrições, eles garantem que o agente evite obstáculos, explica So.

Então, para a segunda etapa, eles reformulam esse problema de otimização restrita em uma representação matemática conhecida como forma de epígrafe e o resolvem usando um algoritmo de aprendizado de reforço profundo. A forma de epígrafe permite que eles contornem as dificuldades que outros métodos enfrentam ao usar o aprendizado por reforço.

“Mas o aprendizado por reforço profundo não é projetado para resolver a forma epígrafe de um problema de otimização, então não poderíamos simplesmente conectá-lo ao nosso problema. Tivemos que derivar as expressões matemáticas que funcionam para o nosso sistema. Uma vez que tínhamos essas novas derivações , nós os combinamos com alguns truques de engenharia existentes usados ​​por outros métodos”, diz So.

Nenhum ponto para o segundo lugar

Para testar sua abordagem, eles projetaram vários experimentos de controle com diferentes condições iniciais. Por exemplo, em algumas simulações, o agente autônomo precisa alcançar e permanecer dentro de uma região-alvo enquanto faz manobras drásticas para evitar obstáculos que estejam em rota de colisão com ela.

Quando comparada com várias linhas de base, sua abordagem foi a única que conseguiu estabilizar todas as trajetórias mantendo a segurança. Para levar seu método ainda mais longe, eles o usaram para pilotar um avião a jato simulado em um cenário que se pode ver em um filme “Top Gun”. O jato teve que se estabilizar em um alvo próximo ao solo, mantendo uma altitude muito baixa e permanecendo dentro de um estreito corredor de vôo.

Este modelo de jato simulado foi de código aberto em 2018 e foi projetado por especialistas em controle de voo como um desafio de teste. Os pesquisadores poderiam criar um cenário em que seu controlador não pudesse voar? Mas o modelo era tão complicado que era difícil de trabalhar e ainda não conseguia lidar com cenários complexos, diz Fan.

O controlador dos pesquisadores do MIT foi capaz de evitar que o jato caísse ou parasse enquanto se estabilizava na meta muito melhor do que qualquer uma das linhas de base.

No futuro, essa técnica pode ser um ponto de partida para projetar controladores para robôs altamente dinâmicos que devem atender a requisitos de segurança e estabilidade, como drones de entrega autônomos. Ou pode ser implementado como parte de um sistema maior. Talvez o algoritmo seja ativado apenas quando um carro derrapa em uma estrada com neve para ajudar o motorista a navegar com segurança de volta a uma trajetória estável.

Navegar em cenários extremos que um ser humano não seria capaz de lidar é onde sua abordagem realmente brilha, acrescenta So.

“Acreditamos que um objetivo pelo qual devemos nos esforçar como campo é fornecer ao aprendizado por reforço as garantias de segurança e estabilidade de que precisaremos para nos fornecer garantia quando implantarmos esses controladores em sistemas de missão crítica. Achamos que este é um primeiro promissor passo para atingir esse objetivo”, diz ele.

Seguindo em frente, os pesquisadores querem aprimorar sua técnica para que seja mais capaz de levar em consideração a incerteza ao resolver a otimização. Eles também querem investigar o funcionamento do algoritmo quando implantado em hardware, pois haverá incompatibilidades entre a dinâmica do modelo e as do mundo real.

“A equipe do professor Fan melhorou o desempenho do aprendizado por reforço para sistemas dinâmicos onde a segurança é importante. Em vez de apenas atingir uma meta, eles criam controladores que garantem que o sistema alcance sua meta com segurança e permaneça lá indefinidamente”, diz Stanley Bak, professor assistente da Departamento de Ciência da Computação da Stony Brook University, que não participou desta pesquisa. “Sua formulação aprimorada permite a geração bem-sucedida de controladores seguros para cenários complexos, incluindo um modelo de aeronave a jato não linear de 17 estados projetado em parte por pesquisadores do Laboratório de Pesquisa da Força Aérea (AFRL), que incorpora equações diferenciais não lineares com tabelas de sustentação e arrasto. ”

Mais Informações:
Oswin So et al, Solving Stabilize-Evoid Optimal Control via Epigraph Form and Deep Reinforcement Learning, arXiv (2023). DOI: 10.48550/arxiv.2305.14154

Informações do jornal:
arXiv

Fornecido pelo Instituto de Tecnologia de Massachusetts

Esta história foi republicada por cortesia do MIT News (web.mit.edu/newsoffice/), um site popular que cobre notícias sobre pesquisa, inovação e ensino do MIT.

Citação: Uma nova abordagem baseada em IA para controlar robôs autônomos (2023, 12 de junho) recuperada em 12 de junho de 2023 em https://techxplore.com/news/2023-06-ai-based-approach-autonomous-robots.html

Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem a permissão por escrito. O conteúdo é fornecido apenas para fins informativos.



Deixe uma resposta