O HuGE aproveita feedback ruidoso e assíncrono de vários humanos não especialistas para treinar políticas de controle de robôs diretamente no mundo real. Crédito: arXiv (2023). DOI: 10.48550/arxiv.2307.11049
Para ensinar uma nova tarefa a um agente de IA, como abrir um armário de cozinha, os pesquisadores costumam usar o aprendizado por reforço – um processo de tentativa e erro em que o agente é recompensado por realizar ações que o aproximem do objetivo.
Em muitos casos, um especialista humano deve projetar cuidadosamente uma função de recompensa, que é um mecanismo de incentivo que dá ao agente motivação para explorar. O especialista humano deve atualizar iterativamente essa função de recompensa à medida que o agente explora e tenta diferentes ações. Isto pode ser demorado, ineficiente e difícil de ampliar, especialmente quando a tarefa é complexa e envolve muitas etapas.
Pesquisadores do MIT, da Universidade de Harvard e da Universidade de Washington desenvolveram uma nova abordagem de aprendizagem por reforço que não depende de uma função de recompensa habilmente projetada. Em vez disso, aproveita o feedback de crowdsourcing, recolhido de muitos utilizadores não especialistas, para orientar o agente à medida que aprende a atingir o seu objetivo. O trabalho foi publicado no servidor de pré-impressão arXiv.
Embora alguns outros métodos também tentem utilizar feedback de não especialistas, esta nova abordagem permite que o agente de IA aprenda mais rapidamente, apesar do fato de que os dados coletados de usuários geralmente estão cheios de erros. Esses dados ruidosos podem causar falhas em outros métodos.
Além disso, esta nova abordagem permite que o feedback seja recolhido de forma assíncrona, para que utilizadores não especialistas em todo o mundo possam contribuir para ensinar o agente.
“Uma das partes mais demoradas e desafiadoras no projeto de um agente robótico hoje é a engenharia da função de recompensa. Hoje, as funções de recompensa são projetadas por pesquisadores especializados – um paradigma que não é escalonável se quisermos ensinar muitas tarefas diferentes aos nossos robôs. Nosso O trabalho propõe uma forma de dimensionar a aprendizagem robótica através do crowdsourcing do design da função de recompensa e possibilitando que não especialistas forneçam feedback útil”, diz Pulkit Agrawal, professor assistente no Departamento de Engenharia Elétrica e Ciência da Computação (EECS) do MIT. que lidera o Laboratório de IA Improvável no Laboratório de Ciência da Computação e Inteligência Artificial do MIT (CSAIL).
No futuro, esse método poderá ajudar um robô a aprender a realizar tarefas específicas na casa de um usuário rapidamente, sem que o proprietário precise mostrar ao robô exemplos físicos de cada tarefa. O robô poderia explorar por conta própria, com feedback de não especialistas de crowdsourcing orientando sua exploração.
“Em nosso método, a função de recompensa orienta o agente sobre o que ele deve explorar, em vez de dizer exatamente o que deve fazer para completar a tarefa. Assim, mesmo que a supervisão humana seja um tanto imprecisa e barulhenta, o agente ainda é capaz de explorar, o que o ajuda a aprender muito melhor”, explica o autor principal Marcel Torne, assistente de pesquisa no Improvable AI Lab.
Torne é acompanhado no artigo por seu conselheiro do MIT, Agrawal; autor sênior Abhishek Gupta, professor assistente da Universidade de Washington; bem como outros na Universidade de Washington e no MIT. A pesquisa será apresentada na Conferência sobre Sistemas de Processamento de Informação Neural no próximo mês.
Feedback barulhento
Uma maneira de obter feedback do usuário para aprendizado por reforço é mostrar ao usuário duas fotos dos estados alcançados pelo agente e, em seguida, pedir aos usuários que indiquem qual está mais próximo de um objetivo. Por exemplo, talvez o objetivo de um robô seja abrir um armário de cozinha. Uma imagem pode mostrar que o robô abriu o armário, enquanto a segunda pode mostrar que abriu o micro-ondas. Um usuário escolheria a foto do estado “melhor”.
Algumas abordagens anteriores tentam usar esse feedback binário de crowdsourcing para otimizar uma função de recompensa que o agente usaria para aprender a tarefa. No entanto, como é provável que os não especialistas cometam erros, a função de recompensa pode tornar-se muito barulhenta, de modo que o agente pode ficar preso e nunca atingir o seu objetivo.
“Basicamente, o agente levaria a função de recompensa muito a sério. Ele tentaria combinar perfeitamente a função de recompensa. Então, em vez de otimizar diretamente a função de recompensa, apenas a usamos para dizer ao robô quais áreas ele deveria explorar.” Torne diz.
Ele e seus colaboradores separaram o processo em duas partes separadas, cada uma dirigida por seu próprio algoritmo. Eles chamam seu novo método de aprendizagem por reforço de HuGE (Human Guided Exploration).
Por um lado, um algoritmo seletor de metas é continuamente atualizado com feedback humano de crowdsourcing. O feedback não é utilizado como função de recompensa, mas sim para orientar a exploração do agente. De certa forma, os usuários não especialistas deixam cair migalhas que levam gradativamente o agente em direção ao seu objetivo.
Por outro lado, o agente explora por conta própria, de forma auto-supervisionada e guiado pelo seletor de metas. Ele coleta imagens ou vídeos de ações que tenta, que são então enviados a humanos e usados para atualizar o seletor de metas.
Isso restringe a área a ser explorada pelo agente, levando-o a áreas mais promissoras e mais próximas de seu objetivo. Mas se não houver feedback, ou se o feedback demorar para chegar, o agente continuará aprendendo por conta própria, embora de forma mais lenta. Isso permite que o feedback seja coletado com pouca frequência e de forma assíncrona.
“O ciclo de exploração pode continuar de forma autônoma, porque irá apenas explorar e aprender coisas novas. E então, quando você receber um sinal melhor, ele irá explorar de maneiras mais concretas. Você pode simplesmente mantê-los girando em seu próprio ritmo. “, acrescenta Torne.
E como o feedback apenas orienta suavemente o comportamento do agente, ele eventualmente aprenderá a concluir a tarefa mesmo que os usuários forneçam respostas incorretas.
Aprendizagem mais rápida
Os pesquisadores testaram esse método em uma série de tarefas simuladas e do mundo real. Na simulação, eles usaram o HuGE para aprender com eficácia tarefas com longas sequências de ações, como empilhar blocos em uma ordem específica ou navegar em um grande labirinto.
Em testes do mundo real, eles utilizaram o HuGE para treinar braços robóticos para desenhar a letra “U” e escolher e posicionar objetos. Para esses testes, eles coletaram dados de 109 usuários não especialistas em 13 países diferentes, abrangendo três continentes.
Em experimentos reais e simulados, o HuGE ajudou os agentes a aprenderem a atingir a meta mais rapidamente do que outros métodos.
Os pesquisadores também descobriram que os dados obtidos por crowdsourcing de não especialistas produziram melhor desempenho do que os dados sintéticos, que foram produzidos e rotulados pelos pesquisadores. Para usuários não especialistas, rotular 30 imagens ou vídeos demorou menos de dois minutos.
“Isso o torna muito promissor em termos de capacidade de ampliar esse método”, acrescenta Torne.
Em um artigo relacionado, que os pesquisadores apresentaram na recente Conferência sobre Aprendizagem de Robôs, eles aprimoraram o HuGE para que um agente de IA possa aprender a executar a tarefa e, em seguida, redefinir o ambiente de forma autônoma para continuar aprendendo. Por exemplo, se o agente aprende a abrir um armário, o método também orienta o agente a fechar o armário.
“Agora podemos fazer com que ele aprenda de forma totalmente autônoma, sem a necessidade de redefinições humanas”, diz ele.
Os investigadores sublinham ainda que, nesta e noutras abordagens de aprendizagem, é fundamental garantir que os agentes de IA estejam alinhados com os valores humanos.
No futuro, eles querem continuar refinando o HuGE para que o agente possa aprender com outras formas de comunicação, como linguagem natural e interações físicas com o robô. Eles também estão interessados em aplicar este método para ensinar vários agentes ao mesmo tempo.
Mais Informações:
Marcel Torne et al, Breadcrumbs to the Goal: Exploração Condicionada por Meta a partir de Feedback Human-in-the-Loop, arXiv (2023). DOI: 10.48550/arxiv.2307.11049
arXiv
Fornecido pelo Instituto de Tecnologia de Massachusetts
Esta história foi republicada como cortesia do MIT News (web.mit.edu/newsoffice/), um site popular que cobre notícias sobre pesquisa, inovação e ensino do MIT.
Citação: Novo método usa feedback de crowdsourcing para treinar robôs (2023, 27 de novembro) recuperado em 27 de novembro de 2023 em https://techxplore.com/news/2023-11-method-crowdsourced-feedback-robots.html
Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.