Uma abordagem que permite que os robôs aprendam em ambientes em mudança a partir do feedback e da exploração humana

Uma abordagem que permite que os robôs aprendam em ambientes em mudança a partir do feedback e da exploração humana

Representação da exploração autônoma com GEAR — a política alterna entre tentar ir para um estado objetivo e voltar ao estado inicial. Ao fazer isso, o agente recebe um subobjetivo intermediário que é ao mesmo tempo próximo ao objetivo e alcançável sob a política atual. Quando isso estiver ausente, a política realizará uma exploração aleatória. A política resultante aprende a ir e voltar, enquanto explora o espaço de forma eficiente. Crédito: Balsells et al.

Para melhor ajudar os humanos em ambientes do mundo real, os robôs devem ser capazes de adquirir continuamente novas competências úteis em ambientes dinâmicos e em rápida mudança. Atualmente, no entanto, a maioria dos robôs só consegue realizar tarefas nas quais foram previamente treinados e só pode adquirir novas capacidades após treinamento adicional.

Pesquisadores da Universidade de Washington e do Instituto de Tecnologia de Massachusetts (MIT) introduziram recentemente uma nova abordagem que permite aos robôs aprender novas habilidades enquanto navegam em ambientes em mudança. Esta abordagem, apresentada na 7ª Conferência sobre Aprendizagem de Robôs (CoRL), utiliza aprendizagem por reforço para treinar robôs usando feedback humano e informações coletadas enquanto exploram seus arredores.

“A ideia para este artigo veio de outro trabalho que publicamos recentemente”, disse Max Balsells, coautor do artigo, ao Tech Xplore. O documento atual está disponível no site arXiv servidor de pré-impressão.

“Em nosso estudo anterior, exploramos como usar o feedback humano de crowdsourcing (potencialmente impreciso) coletado de centenas de pessoas em todo o mundo, para ensinar um robô a realizar certas tarefas sem depender de informações extras, como é o caso na maioria dos trabalhos anteriores neste campo.”

Embora em seu estudo anterior Balsells e seus colegas tenham obtido resultados promissores, o método que propuseram teve que ser constantemente redefinido para ensinar novas habilidades aos robôs. Em outras palavras, cada vez que o robô tentasse completar uma tarefa, seu ambiente e configurações voltariam a ser como eram antes do teste.

“Ter que reiniciar o cenário é um obstáculo se quisermos que os robôs aprendam qualquer tarefa com o mínimo de esforço humano possível”, disse Balsells. “Como parte do nosso estudo recente, pretendemos corrigir esse problema, permitindo que os robôs aprendam num ambiente em mudança, ainda apenas a partir do feedback humano, bem como da exploração aleatória e guiada.”

O novo método desenvolvido por Balsells e seus colegas tem três componentes principais, denominados política, seletor de metas e modelo de densidade, cada um apoiado por uma técnica diferente de aprendizado de máquina. O primeiro modelo tenta essencialmente determinar o que o robô precisa fazer para chegar a um local específico.

“O objetivo do modelo político é entender quais ações o robô deve realizar para chegar a um determinado cenário a partir de onde se encontra atualmente”, explicou Marcel Torne, coautor do artigo. “A forma como este primeiro modelo aprende isso é vendo como o ambiente mudou depois que o robô realizou uma ação. Por exemplo, observando onde o robô ou os objetos da sala estão após realizar algumas ações.”

Essencialmente, o primeiro modelo é projetado para identificar as ações que o robô precisará realizar para alcançar um local ou objetivo específico. Em contrapartida, o segundo modelo (ou seja, o seletor de metas) orienta o robô enquanto ele ainda está aprendendo, comunicando o momento em que ele está mais próximo de atingir uma meta definida.

Uma abordagem que permite que os robôs aprendam em ambientes em mudança a partir do feedback e da exploração humana

Configuração de problema no GEAR. O robô explora o mundo de forma autônoma e sem redefinições, usando apenas feedback binário ocasional e barato de usuários não especialistas para orientar a exploração. Isso permite um dimensionamento massivo da experiência de dados e a resolução de tarefas muito mais desafiadoras. Os três principais modelos do método são: a política utilizada para controlar os robôs no mundo real, o seletor de metas, que escolhe qual estado está mais próximo da meta e o modelo de densidade que filtra as metas alcançáveis ​​pela política. Crédito: Balsells et al.

“O objetivo do seletor de meta é dizer em quais casos o robô estava mais próximo de realizar a tarefa”, disse Balsells. “Dessa forma, podemos usar esse modelo para guiar o robô comandando os cenários que ele já viu, nos quais esteve mais perto de realizar a tarefa. A partir daí, o robô pode apenas fazer ações aleatórias para explorar mais aquela parte do ambiente. Se não tivéssemos esse modelo, o robô não faria coisas significativas, tornando muito difícil para o primeiro modelo aprender alguma coisa. Este modelo aprende isso com o feedback humano. ”

A abordagem da equipe garante que, à medida que um robô se move em seu entorno, ele transmita continuamente os cenários que encontra para um site específico. Os usuários humanos crowdsourced navegam por esses cenários e pelas ações correspondentes do robô, informando ao modelo quando o robô está mais perto de atingir uma meta definida.

“Finalmente, o objetivo do terceiro modelo (ou seja, o modelo de densidade) é saber se o robô já sabe como chegar a um determinado cenário a partir de onde está atualmente”, disse Balsells. “Este modelo é importante para garantir que o segundo modelo esteja guiando o robô para os cenários que o robô pode alcançar. Este modelo é treinado em dados que representam a progressão de diferentes cenários até os cenários em que o robô acabou.”

O terceiro modelo no âmbito dos investigadores garante basicamente que o segundo modelo apenas guia o robô para locais acessíveis que ele sabe chegar. Isto promove a aprendizagem através da exploração, ao mesmo tempo que reduz o risco de incidentes e erros.

“O seletor de meta orienta o robô para garantir que ele vá a lugares interessantes”, disse Torne. “Notavelmente, os modelos de política e densidade aprendem apenas observando o que acontece ao redor, ou seja, como a localização do robô e dos objetos muda à medida que o robô interage. Por outro lado, o segundo modelo é treinado usando feedback humano.”

Notavelmente, a nova abordagem proposta por Balsells e seus colegas depende apenas do feedback humano para orientar o robô na sua aprendizagem, em vez de demonstrar especificamente como executar tarefas. Assim, não requer extensos conjuntos de dados contendo imagens de demonstrações e pode promover uma aprendizagem flexível com menos esforços humanos.

“Ao usar o terceiro modelo para saber quais cenários o robô pode realmente chegar, não precisamos redefinir nada, o robô pode aprender continuamente mesmo que alguns objetos não estejam mais no mesmo local”, disse Torne. “O aspecto mais importante do nosso trabalho é que ele permite que qualquer pessoa ensine um robô como resolver uma determinada tarefa apenas deixando-o funcionar sozinho enquanto o conecta à internet, para que pessoas ao redor do mundo o contem de vez em quando. em que momentos esteve mais perto de cumprir a tarefa.”

A abordagem introduzida por esta equipe de pesquisadores poderia informar o desenvolvimento de mais estruturas baseadas em aprendizagem por reforço que permitam aos robôs melhorar suas habilidades e aprender em ambientes dinâmicos do mundo real. Balsells, Torne e seus colegas planejam agora expandir seu método, fornecendo ao robô alguns “primitivos” ou diretrizes básicas sobre como executar habilidades específicas.

“Por exemplo, neste momento o robô aprende quais motores deve mover a cada momento, mas poderíamos programar como o robô poderia se mover para um determinado ponto de uma sala, e então o robô não precisaria aprender isso; seria só preciso saber para onde ir”, acrescentaram Balsells e Torne.

“Outra ideia que queremos explorar nos nossos próximos estudos é a utilização de grandes modelos pré-treinados e já treinados para uma série de tarefas robóticas (por exemplo, ChatGPT para robótica), adaptando-os a tarefas específicas do mundo real usando o nosso método. Isso poderia permitir que qualquer pessoa ensinasse robôs de maneira fácil e rápida a adquirir novas habilidades, sem ter que treiná-los novamente do zero.”

Mais Informações:
Max Balsells et al, Aprendizado de reforço robótico autônomo com feedback humano assíncrono, arXiv (2023). DOI: 10.48550/arxiv.2310.20608

Informações do diário:
arXiv

© 2023 Science X Network

Citação: Uma abordagem que permite que os robôs aprendam em ambientes em mudança a partir do feedback e exploração humanos (2023, 28 de novembro) recuperado em 28 de novembro de 2023 em https://techxplore.com/news/2023-11-approach-robots-environments-human-feedback .html

Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.



Deixe uma resposta