Os robóticos da UC Berkeley aceleraram enormemente esse processo fazendo o mesmo tipo de trapaça que os humanos fazem – em vez de começar do zero, você começa com alguma experiência anterior que o ajuda a seguir em frente. Aproveitando um “modelo básico” que foi pré-treinado em robôs dirigindo sozinhos, os pesquisadores conseguiram fazer um carro de rali robótico de pequena escala aprender a correr em pistas internas e externas, igualando o desempenho humano após apenas 20 minutos de corrida. prática.
Esse primeiro estágio de pré-treinamento acontece em seu lazer, dirigindo manualmente um robô (que não é necessariamente o robô que fará a tarefa que lhe interessa) em diferentes ambientes. O objetivo de fazer isso não é ensinar o robô a dirigir rápido em um curso, mas sim ensinar o básico para não bater em coisas.
Com esse “modelo de fundação” pré-treinado, quando você passar para o pequeno carro robótico de rali, ele não precisará mais começar do zero. Em vez disso, você pode colocá-lo no curso que deseja aprender, conduzi-lo uma vez lentamente para mostrar aonde deseja ir e, em seguida, deixá-lo ir totalmente autônomo, treinando-se para dirigir cada vez mais rápido. Com uma câmera frontal de baixa resolução e algumas estimativas básicas de estado, o robô tenta alcançar o próximo ponto de verificação no percurso o mais rápido possível, levando a alguns comportamentos emergentes interessantes:
O sistema aprende o conceito de “linha de corrida”, encontrando um caminho suave na volta e maximizando sua velocidade em curvas fechadas e chicanes. O robô aprende a levar sua velocidade até o ápice, depois freia bruscamente para virar e acelera na saída da curva, para minimizar a duração da condução. Com uma superfície de baixo atrito, a política aprende a virar levemente ao virar, desviando para o canto para obter uma rotação rápida sem frear durante a curva. Em ambientes externos, a política aprendida também é capaz de distinguir as características do solo, preferindo áreas suaves e de alta tração em caminhos de concreto e ao redor deles em vez de áreas com grama alta que impede o movimento do robô.
A outra parte inteligente aqui é o recurso de redefinição, necessário no treinamento do mundo real. Ao treinar em simulação, é super fácil reiniciar um robô que falha, mas fora da simulação, uma falha pode (por definição) encerrar o treinamento se o robô ficar preso de alguma forma. Isso não é grande coisa se você quiser gastar todo o seu tempo cuidando do robô enquanto ele aprende, mas se você tiver algo melhor para fazer, o robô precisa ser capaz de treinar de forma autônoma do início ao fim. Nesse caso, se o robô não se moveu pelo menos 0,5 metros nos três segundos anteriores, ele sabe que está preso e executará um comportamento simples de virar aleatoriamente, recuar e tentar avançar novamente, o que resulta acabou descolando.
Durante experimentos internos e externos, o robô foi capaz de aprender direção agressiva comparável a um especialista humano após apenas 20 minutos de prática autônoma, o que os pesquisadores dizem “fornecer forte validação de que o aprendizado por reforço profundo pode realmente ser uma ferramenta viável para aprender no mundo real políticas mesmo a partir de imagens brutas, quando combinadas com pré-treinamento adequado e implementadas no contexto de uma estrutura de treinamento autônomo.” Vai dar muito mais trabalho implementar esse tipo de coisa com segurança em uma plataforma maior, mas este pequeno carro está dando as primeiras voltas na direção certa o mais rápido possível.
FastRLAP: um sistema para aprender a dirigir em alta velocidade por meio de RL profundo e prática autônomade Kyle Stachowicz, Arjun Bhorkar, Dhruv Shah, Ilya Kostrikov e Sergey Levine da UC Berkeley, está disponível no arXiv.
Artigos do seu site
Artigos Relacionados na Web