Aprendizagem rápida por reforço através da prática autônoma. Ao pré-treinar a política de RL em diversos dados (Estágio 1) e implantar nossa estrutura de prática autônoma para melhorias on-line contínuas (Estágio 2) em grandes ambientes do mundo real, o robô pode navegar autonomamente entre pontos de verificação esparsos (azul), recuperando-se de colisões durante a prática (vermelho) e melhorar seu comportamento de condução para maximizar a velocidade (amarelo → magenta). FastRLAP pode aprender direção agressiva comparável a um especialista humano em 20 minutos de prática autônoma. Crédito: arXiv (2023). DOI: 10.48550/arxiv.2304.09831
Carros velozes. Milhões de nós os amamos. A ideia transcende fronteiras nacionais, raça, religião, política. Nós os adotamos por mais de um século, começando no início dos anos 1900 com os majestosos Stutz Bearcat e Mercer Raceabout (conhecidos como “o Steinway do mundo automobilístico”), passando pelos sensuais Pontiac GTOs e Ford Mustangs dos anos 1960, e até as últimas criações de luxo das famílias Lamborghini e Ferrari.
O diretor do filme “Transformers”, Michael Bay, que sabe uma ou duas coisas sobre veículos ultrajantes, declarou: “Carros velozes são meu único vício”. Muitos concordariam.
Os fãs obstinados das corridas também endossariam entusiasticamente a avaliação do premiado piloto de carros de corrida Parnelli Jones sobre a vida na pista rápida: “Se você está no controle, não está indo rápido o suficiente”.
Agora, os carros robóticos estão se juntando à diversão.
Pesquisadores da Universidade da Califórnia em Berkeley desenvolveram o que dizem ser o primeiro sistema que treina carros robóticos de pequena escala para se engajarem autonomamente em direção de alta velocidade enquanto se adaptam e melhoram em ambientes do mundo real.
“Nosso sistema, FastRLAP, treina de forma autônoma no mundo real, sem intervenções humanas e sem exigir qualquer simulação ou demonstração de especialistas”, disse o pesquisador de robótica estudante de pós-graduação Kyle Stachowicz.
Ele descreveu os componentes que ele e sua equipe usaram em suas pesquisas, agora disponíveis no arXiv servidor de pré-impressão. O primeiro é o estágio de inicialização que gera dados sobre diferentes ambientes de direção. Um modelo de carro é direcionado manualmente ao longo de vários cursos, onde seu objetivo principal é evitar colisões, não velocidade. O veículo não precisa ser o mesmo que acaba aprendendo a dirigir rápido.
Depois que um grande conjunto de dados que cobre uma ampla gama de rotas é compilado, um carro robótico é implantado em um curso que precisa aprender. É feita uma volta preliminar para definir um perímetro, e então o carro segue sozinho. Com o conjunto de dados em mãos, o carro é treinado por meio de algoritmos RL (reinforcement learning) para navegar no percurso com mais eficiência ao longo do tempo, evitando obstáculos e aumentando sua eficiência por meio de ajustes de direção e velocidade.
Os pesquisadores disseram que ficaram “surpresos” ao descobrir que os carros robóticos podem aprender a acelerar em pistas de corrida com menos de 20 minutos de treinamento.
De acordo com Stachowicz, os resultados “exibem habilidades de direção agressiva emergentes, como cronometrar a frenagem e a aceleração nas curvas e evitar áreas que impedem o movimento do robô”. A habilidade exibida pelo carro robótico “se aproxima do desempenho de um motorista humano usando uma interface de primeira pessoa semelhante ao longo do treinamento”.
Um exemplo de habilidade aprendida pelo veículo é a ideia da “linha de corrida”.
O carro robótico encontra “um caminho suave na volta … maximizando sua velocidade em curvas apertadas”, disse Stachowicz. “O robô aprende a levar sua velocidade até o ápice, então freia bruscamente para virar e acelera na saída da curva, para minimizar a duração da direção.”
Em outro exemplo, o veículo aprende a sobrevirar levemente ao fazer uma curva em uma superfície de baixo atrito, “desviando para a curva para obter uma rotação rápida sem frear durante a curva”.
Stachowicz disse que o sistema precisará abordar questões de segurança no futuro. Atualmente, a prevenção de colisões é recompensada simplesmente porque evita falhas na tarefa. Não recorre a medidas de segurança como proceder com cautela em ambientes desconhecidos.
“Esperamos que abordar essas limitações permita que os sistemas baseados em RL aprendam habilidades de navegação complexas e de alto desempenho em uma ampla gama de domínios, e acreditamos que nosso trabalho pode fornecer um trampolim para isso”, disse ele.
Como o personagem “Maverick” de Tom Cruise em “Top Gun”, os pesquisadores “sentem a necessidade, a necessidade de velocidade”. Até agora, eles estão no caminho certo.
Kyle Stachowicz et al, FastRLAP: um sistema para aprender a dirigir em alta velocidade por meio de RL profundo e prática autônoma, arXiv (2023). DOI: 10.48550/arxiv.2304.09831
Site do projeto: sites.google.com/view/fastrlap?pli=1
arXiv
© 2023 Science X Network
Citação: Novo sistema usa aprendizado por reforço para ensinar carros robóticos a acelerar (2023, 1º de maio) recuperado em 1º de maio de 2023 em https://techxplore.com/news/2023-05-robotic-cars.html
Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem a permissão por escrito. O conteúdo é fornecido apenas para fins informativos.