Reunindo demonstrações humanas mais eficazes para ensinar novas habilidades aos robôs

Reunindo demonstrações humanas mais eficazes para ensinar novas habilidades aos robôs

Visão geral do sistema: uso de entropia de informação para orientar os usuários para as áreas de maior incerteza no LfD. Crédito: Sakr et al

Para ajudar eficazmente os humanos em ambientes do mundo real, os robôs devem ser capazes de aprender novas competências e adaptar as suas ações com base no que os utilizadores exigem que façam em momentos diferentes. Uma maneira de conseguir isso seria projetar abordagens computacionais que permitam aos robôs aprender com demonstrações humanas, por exemplo, observando vídeos de uma pessoa lavando pratos e aprendendo a repetir a mesma sequência de ações.

Pesquisadores da Universidade da Colúmbia Britânica, da Universidade Carnegie Mellon, da Universidade Monash e da Universidade de Victoria decidiram recentemente coletar dados mais confiáveis ​​para treinar robôs por meio de demonstrações. Seu artigo, postado no arXiv servidor de pré-impressão, mostra que os dados coletados podem melhorar significativamente a eficiência com que os robôs aprendem com as demonstrações de usuários humanos.

“Os robôs podem construir carros, reunir itens para pedidos de compras em armazéns movimentados, aspirar pisos e manter as prateleiras dos hospitais abastecidas com suprimentos”, disse Maram Sakr, um dos pesquisadores que realizou o estudo, ao Tech Xplore. “Os sistemas tradicionais de programação de robôs exigem que um programador especialista desenvolva um controlador de robô que seja capaz de realizar tais tarefas e, ao mesmo tempo, responder a qualquer situação que o robô possa enfrentar.”

As abordagens convencionais para treinar robôs para completar tarefas específicas requerem as habilidades de cientistas da computação. Muitas vezes, para funcionarem bem, estas abordagens requerem que as tarefas sejam divididas em dezenas ou centenas de subtarefas mais pequenas, testando posteriormente a robustez de cada uma destas subtarefas.

Este processo é demorado e exigente em termos computacionais. Além disso, caso ocorra uma falha e o modelo de aprendizagem deixe de funcionar corretamente, será necessário corrigi-lo por técnicos altamente qualificados.

“Aprender com demonstrações (LfD) é uma abordagem alternativa promissora para treinar robôs que permite que professores humanos não especialistas (ou seja, especialistas no domínio, mas não especialistas em robótica) programem o robô simplesmente mostrando-lhe como executar a tarefa; nenhuma programação é necessária “, disse Sakr. “Então, quando ocorrem falhas, o professor humano só precisa fornecer mais demonstrações, em vez de pedir ajuda profissional. O LfD procura dotar os robôs com a capacidade de aprender como executar uma tarefa, generalizando a partir de várias observações de um professor humano.”

Os métodos LfD baseiam-se em técnicas de aprendizado de máquina (ML) de última geração que alcançaram resultados notáveis ​​em diversas tarefas. O treinamento eficaz dessas técnicas depende de dados de demonstração eficazes e de boa qualidade, mas a maioria dos conjuntos de dados disponíveis contém imagens de baixa resolução, baixa qualidade ou insuficientes.

“Coletar o conjunto de dados de treinamento em qualquer sistema de aprendizagem é fundamental para um processo de aprendizagem bem-sucedido”, disse Sakr. “Os dados de treinamento devem ser representativos dos estados que o robô encontrará no futuro. Assim, este artigo visa orientar os usuários a fornecer um conjunto eficiente de demonstrações para o robô aprender. Por ‘eficiente’ queremos dizer o número mínimo de demonstrações que são bem distribuídas no espaço de tarefas para alcançar altas capacidades de generalização para o robô.”

Reunindo demonstrações humanas mais eficazes para ensinar novas habilidades aos robôs

Configuração experimental com um usuário usando o Microsoft Hololens para orientação visual, usando um joystick para controlar o robô para manobrar em um espaço de trabalho restrito. Crédito: Sakr et al

Uma limitação importante das abordagens LfD propostas anteriormente é que elas dependem de demonstrações realizadas por cientistas da computação, e não por usuários comuns não especialistas. Em seu artigo, Sakr e seus colegas exploram a possibilidade de ensinar usuários comuns a selecionar dados de treinamento ou demonstrações que melhorem o aprendizado de um robô e permitam que ele generalize melhor em diferentes tarefas.

“Durante o treinamento de professores humanos, são destacadas as áreas do espaço de tarefas com maior incerteza em relação à capacidade do robô de realizar a tarefa”, explicou Sakr. “Demonstrações adicionais nessas áreas poderiam beneficiar mais o robô na execução da tarefa com sucesso, ao mesmo tempo em que utiliza o esforço do professor de forma eficiente (ou seja, fornecendo um número menor de demonstrações que alcançam uma generalização mais ampla para o robô). Sob esta orientação, o professor humano pode observar qual próxima demonstração maximiza o aprendizado do robô, bem como o tamanho e a diversidade das demonstrações necessárias para cobrir totalmente o espaço de trabalho.”

Notavelmente, os critérios para selecionar demonstrações eficazes delineados por Sakr e seus colegas podem ser facilmente seguidos por vários usuários humanos, independentemente do seu nível de especialização e do algoritmo específico que alimenta um robô. Se um usuário fornecer demonstrações de baixa qualidade ou ineficazes, o sistema de orientação proposto destacará a necessidade de um maior número de demonstrações para melhorar o aprendizado do robô.

Os pesquisadores avaliaram a eficácia de sua abordagem em um experimento simples, onde 24 usuários novatos de robôs foram treinados para produzir demonstrações eficazes usando um sistema de orientação baseado em realidade aumentada (AR) com base em seus critérios. Depois que esses usuários não especialistas concluíram o treinamento, a equipe avaliou sua capacidade de criar demonstrações eficazes em novos testes focados em novas tarefas, sem fornecer qualquer orientação.

“Demonstramos que uma breve sessão de treinamento interativo e orientação melhorou significativamente as habilidades de ensino dos usuários leigos, levando a um melhor aprendizado do robô e à eficiência da generalização”, disse Sakr. “Notavelmente, esse aprendizado on-line ocorreu por meio de demonstrações de um professor sem conhecimento prévio de robótica ou algoritmos de aprendizado de máquina. A estrutura de treinamento proposta permite que os usuários compreendam as demonstrações necessárias para um aprendizado eficiente do robô, sem se aprofundar nas complexidades do processo de aprendizado.”

Os resultados recolhidos por Sakr e os seus colegas sugerem que ensinar utilizadores não especialistas a criar demonstrações eficazes poderia reduzir significativamente o custo de formação de robôs através da aprendizagem por imitação, ao mesmo tempo que aumentava a eficiência com que aprendem. A equipe descobriu que as demonstrações criadas pelos participantes treinados melhoraram a eficiência com que os robôs aprenderam em até 198% em comparação com demonstrações criadas por usuários não treinados e em 210% quando comparadas com abordagens de aprendizagem baseadas em tentativa e erro.

“Nossa pesquisa visa democratizar o acesso à robótica em todos os domínios”, disse Sakr. “A integração do treinamento intuitivo e interativo no pipeline do LfD tem o potencial de expandir enormemente o uso de robôs em vários campos. Esta abordagem pode melhorar a interação humano-robô, reduzindo o tempo necessário para treinar um robô para uma nova tarefa. Além disso, facilita transferência de habilidades para especialistas de domínio que não possuem conhecimento de programação.”

No futuro, os critérios e o sistema de orientação baseado em AR empregados por esta equipe de pesquisadores poderão ajudar a ensinar melhor novas habilidades aos robôs por meio de demonstrações não especializadas. Além disso, o trabalho recente de Sakr e dos seus colegas poderá inspirar outras equipas a desenvolver abordagens semelhantes para criar demonstrações de tarefas eficazes, facilitando, em última análise, a implantação de robôs em ambientes do mundo real e melhorando a sua capacidade de aprender através da observação de humanos.

“A melhoria significativa na eficiência, orientando apenas os usuários a distribuir bem as demonstrações, sugere que orientar os usuários a fornecer demonstrações de alta qualidade juntamente com sua boa distribuição poderia aumentar ainda mais a eficiência do aprendizado”, acrescentou Sakr. “Testar a abordagem proposta em instalações do mundo real com usuários sob condições não controladas seria intrigante. Nesses cenários, os usuários poderiam decidir a duração da orientação ou usá-la de forma consistente para garantir que oferecem as demonstrações mais benéficas ao robô.

“Finalmente, explorar a aplicação do sistema de orientação baseado em entropia em diferentes domínios e em combinação com vários algoritmos de aprendizagem apresenta uma oportunidade para avaliar ainda mais as suas capacidades de generalização.”

Mais Informações:
Maram Sakr et al, Como os usuários diários podem ensinar robôs com eficiência por meio de demonstrações?, arXiv (2023). DOI: 10.48550/arxiv.2310.13083

Informações do diário:
arXiv

© 2023 Science X Network

Citação: Reunindo demonstrações humanas mais eficazes para ensinar novas habilidades aos robôs (2023, 14 de dezembro) recuperado em 14 de dezembro de 2023 em https://techxplore.com/news/2023-12-efficient-human-robots-skills.html

Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.



Deixe uma resposta