A estrutura permite que uma pessoa corrija as ações de um robô usando o tipo de feedback que eles dariam a outro humano

Ajudante robótico cometendo erros? Apenas cutuque na direção certa

O estudante de pós -graduação Felix Yanwei Wang cutuca um braço robótico que está manipulando uma tigela em uma cozinha de brinquedos montada no laboratório do grupo. Usando a estrutura Wang e seus colaboradores desenvolvidos, cutucando um pouco um robô é uma maneira de corrigir seu comportamento. Crédito: Melanie Gonick, MIT

Imagine que um robô está ajudando você a limpar a louça. Você pede para pegar uma tigela de sabão para fora da pia, mas sua garra sente falta levemente a marca.

Usando uma nova estrutura desenvolvida pelos pesquisadores do MIT e da NVIDIA, você pode corrigir o comportamento desse robô com interações simples. O método permitiria que você apontasse para a tigela ou rastreasse uma trajetória em uma tela ou simplesmente dê um empurrão no braço do robô na direção certa.

O trabalho foi publicado no servidor de pré-impressão arxiv.

Diferentemente de outros métodos para corrigir o comportamento do robô, essa técnica não exige que os usuários coletem novos dados e treinem o modelo de aprendizado de máquina que alimenta o cérebro do robô. Ele permite que um robô use feedback humano intuitivo e em tempo real para escolher uma sequência de ação viável que se aproxima o mais próximo possível de satisfazer a intenção do usuário.

Quando os pesquisadores testaram sua estrutura, sua taxa de sucesso foi 21% maior que um método alternativo que não aproveitou as intervenções humanas.

A longo prazo, essa estrutura pode permitir que um usuário oriesse mais facilmente um robô treinado pela fábrica para executar uma ampla variedade de tarefas domésticas, embora o robô nunca tenha visto sua casa ou os objetos nela.

“Não podemos esperar que as pessoas leigos executem a coleta de dados e ajustem um modelo de rede neural. O consumidor espera que o robô trabalhe imediatamente e, se não o fizer, desejariam um mecanismo intuitivo para personalizá-lo. Esse é o desafio que abordamos neste trabalho”, diz Felix Yanwei Wang, um autor de engenharia elétrica e ciência (ECS). arxiv papel.

Seus co-autores incluem Lirui Wang Ph.D. e Yilun du Ph.D; A autora sênior Julie Shah, professora do MIT de aeronáutica e astronautica e diretora do grupo de robótica interativo no Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL); bem como Balakumar Sundaralingam, Xuning Yang, Yu-Wei Chao, Claudia Perez-D’arpino Ph.D. e Dieter Fox de Nvidia. A pesquisa será apresentada na Conferência Internacional sobre Robôs e Automação.

Mitigando desalinhamento

Recentemente, os pesquisadores começaram a usar modelos generativos de IA pré-treinados para aprender uma “política” ou um conjunto de regras, que um robô segue para concluir uma ação. Modelos generativos podem resolver várias tarefas complexas.

Durante o treinamento, o modelo vê apenas movimentos viáveis ​​do robô, por isso aprende a gerar trajetórias válidas para o robô seguir.

Embora essas trajetórias sejam válidas, isso não significa que elas sempre se alinhem com a intenção de um usuário no mundo real. O robô pode ter sido treinado para pegar caixas de uma prateleira sem derrubá -las, mas poderia deixar de chegar à caixa em cima da estante de alguém se a prateleira for orientada de maneira diferente daquelas que viam no treinamento.

Para superar essas falhas, os engenheiros normalmente coletam dados que demonstram a nova tarefa e re-trepam o modelo generativo, um processo caro e demorado que requer experiência em aprendizado de máquina.

Em vez disso, os pesquisadores do MIT queriam permitir que os usuários direcionassem o comportamento do robô durante a implantação quando cometer um erro.

Mas se um humano interage com o robô para corrigir seu comportamento, isso pode inadvertidamente causar o modelo generativo a escolher uma ação inválida. Pode chegar à caixa que o usuário deseja, mas bata os livros da prateleira no processo.

“Queremos permitir que o usuário interaja com o robô sem introduzir esses tipos de erros, por isso obtemos um comportamento muito mais alinhado com a intenção do usuário durante a implantação, mas isso também é válido e viável”, diz Wang.

Sua estrutura realiza isso, fornecendo ao usuário três maneiras intuitivas de corrigir o comportamento do robô, cada um dos quais oferece certas vantagens.

Primeiro, o usuário pode apontar para o objeto que deseja que o robô manipule em uma interface que mostra a visualização da câmera. Segundo, eles podem rastrear uma trajetória nessa interface, permitindo que eles especifiquem como desejam que o robô chegue ao objeto. Terceiro, eles podem mover fisicamente o braço do robô na direção que eles querem que ele siga.

“Quando você está mapeando uma imagem 2D do ambiente para as ações em um espaço 3D, algumas informações são perdidas. A cutucação fisicamente do robô é a maneira mais direta de especificar a intenção do usuário sem perder nenhuma das informações”, diz Wang.

Amostragem para sucesso

Para garantir que essas interações não levem o robô a escolher uma ação inválida, como colidir com outros objetos, os pesquisadores usam um procedimento de amostragem específico. Essa técnica permite que o modelo escolha uma ação do conjunto de ações válidas que mais se alinham à meta do usuário.

“Em vez de apenas impor a vontade do usuário, damos ao robô uma idéia do que o usuário pretende, mas deixa o procedimento de amostragem oscilar em torno de seu próprio conjunto de comportamentos aprendidos”, explica Wang.

Esse método de amostragem permitiu à estrutura dos pesquisadores superar os outros métodos com os quais compararam durante simulações e experimentos com um braço de robô real em uma cozinha de brinquedos.

Embora o método deles nem sempre conclua a tarefa imediatamente, ele oferece aos usuários a vantagem de poder corrigir imediatamente o robô se o virem fazendo algo errado, em vez de esperar que ele termine e, em seguida, dando novas instruções.

Além disso, depois que um usuário cutuca o robô algumas vezes até que ele pegue a tigela correta, ele pode registrar essa ação corretiva e incorporá -la ao seu comportamento através do treinamento futuro. Então, no dia seguinte, o robô poderia pegar a tigela correta sem precisar de um empurrão.

“Mas a chave para essa melhoria contínua é ter uma maneira de o usuário interagir com o robô, que é o que mostramos aqui”, diz Wang.

No futuro, os pesquisadores desejam aumentar a velocidade do procedimento de amostragem, mantendo ou melhorando seu desempenho. Eles também querem experimentar a geração de políticas de robôs em novos ambientes.

Mais informações:
Yanwei Wang et al. arxiv (2024). Doi: 10.48550/arxiv.2411.16627

Informações do diário:
arxiv

Fornecido pelo Instituto de Tecnologia de Massachusetts

Esta história é republicada, cortesia do MIT News (web.mit.edu/newsoffice/), um site popular que abrange notícias sobre pesquisa, inovação e ensino do MIT.

Citação: A estrutura permite que uma pessoa corrija as ações de um robô usando o tipo de feedback que eles dariam a outro humano (2025, 7 de março) recuperado em 7 de março de 2025 em https://techxplore.com/news/2025-03-framework-pos-robot-actions-kind.html

Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa particular, nenhuma parte pode ser reproduzida sem a permissão por escrito. O conteúdo é fornecido apenas para fins de informação.



Deixe uma resposta