O sistema robótico se aproxima dos objetos mais relevantes para ajudar os seres humanos

O sistema robótico se aproxima dos objetos mais relevantes para ajudar os seres humanos

Usando uma nova estrutura de relevância desenvolvida no MIT, o robô identifica e prioriza objetos na cena para ajudar autonomamente os seres humanos de maneira perfeita, inteligente e segura. Crédito: Instituto de Tecnologia de Massachusetts

Para um robô, o mundo real é muito para absorver. Compreender todos os dados de uma cena pode levar uma quantidade enorme de esforço e tempo computacionais. Usar essas informações para decidir como ajudar melhor a um humano é um exercício ainda mais espinhoso.

Agora, os roboticistas do MIT têm uma maneira de cortar o ruído dos dados, para ajudar os robôs a se concentrarem nos recursos de uma cena que são mais relevantes para ajudar os seres humanos.

A abordagem deles, que eles apropriadamente dubam “relevância”, permite que um robô use pistas em uma cena, como informações de áudio e visual, para determinar o objetivo de um humano e depois identificar rapidamente os objetos que provavelmente são relevantes para cumprir esse objetivo. O robô realiza um conjunto de manobras para oferecer com segurança os objetos ou ações relevantes ao humano. O artigo está disponível no arxiv servidor pré -impressão.

Os pesquisadores demonstraram a abordagem com um experimento que simulou um buffet de café da manhã da conferência. Eles montam uma mesa com várias frutas, bebidas, lanches e utensílios de mesa, além de um braço robótico equipado com microfone e câmera. Aplicando a nova abordagem de relevância, eles mostraram que o robô foi capaz de identificar corretamente o objetivo de um humano e ajudá -lo adequadamente em diferentes cenários.

Em um caso, o robô pegou pistas visuais de um humano que buscava uma lata de café preparado e rapidamente entregou o leite à pessoa e um bastão. Em outro cenário, o robô adquiriu uma conversa entre duas pessoas falando sobre café e ofereceu a eles uma lata de café e creme.

No geral, o robô foi capaz de prever o objetivo de um humano com precisão de 90% e identificar objetos relevantes com precisão de 96%. O método também melhorou a segurança de um robô, reduzindo o número de colisões em mais de 60%, em comparação com a execução das mesmas tarefas sem aplicar o novo método.

“Essa abordagem de permitir a relevância pode facilitar muito o interagir um robô”, diz Kamal Youcef-Toumi, professor de engenharia mecânica do MIT. “Um robô não precisaria fazer tantas perguntas a um humano sobre o que eles precisam. Apenas retiraria ativamente informações da cena para descobrir como ajudar”.

O grupo do Youcef-Toumi está explorando como os robôs programados com relevância podem ajudar nas configurações inteligentes de fabricação e armazém, onde eles visualizam robôs que trabalham ao lado e ajudam intuitivamente os seres humanos.

Youcef-Toumi, juntamente com os estudantes de pós-graduação Xiaotong Zhang e Dingcheng Huang, apresentarão seu novo método na Conferência Internacional do IEEE sobre robótica e automação (ICRA 2025) em maio. O trabalho se baseia em outro artigo apresentado no ICRA no ano anterior.






https://www.youtube.com/watch?v=xvuxwbwsyhs

Encontrando foco

A abordagem da equipe é inspirada em nossa própria capacidade de avaliar o que é relevante na vida cotidiana. Os seres humanos podem filtrar as distrações e se concentrar no que é importante, graças a uma região do cérebro conhecida como sistema de ativação reticular (RAS). O RAS é um pacote de neurônios no tronco cerebral que atua subconscientemente para podar estímulos desnecessários, para que uma pessoa possa perceber conscientemente os estímulos relevantes.

O RAS ajuda a impedir a sobrecarga sensorial, mantendo -nos, por exemplo, de fixar todos os itens em um balcão de cozinha e, em vez disso, nos ajudando a focar em derramar uma xícara de café.

“O incrível é que esses grupos de neurônios filtram tudo o que não é importante e, em seguida, o cérebro se concentra no que é relevante na época”, explica Youcef-Toumi. “Isso é basicamente o que é nossa proposição.”

Ele e sua equipe desenvolveram um sistema robótico que imita amplamente a capacidade do RAS de processar e filtrar seletivamente as informações. A abordagem consiste em quatro fases principais. O primeiro é um estágio de “percepção” de vigia e aprendizagem, durante o qual um robô aborda pistas de áudio e visual, por exemplo, de um microfone e uma câmera, que são contínuas em um “kit de ferramentas” da IA.

Esse kit de ferramentas pode incluir um grande modelo de idioma (LLM) que processa conversas de áudio para identificar palavras -chave e frases e vários algoritmos que detectam e classificam objetos, humanos, ações físicas e objetivos de tarefas. O kit de ferramentas da AI foi projetado para funcionar continuamente em segundo plano, da mesma forma que a filtragem subconsciente que o RAS do cérebro executa.

A segunda etapa é uma fase de “verificação do gatilho”, que é uma verificação periódica que o sistema executa para avaliar se algo importante está acontecendo, como se um humano está presente ou não. Se um humano entrou no meio ambiente, a terceira fase do sistema entrará em ação. Essa fase é o coração do sistema da equipe, que atua para determinar os recursos no ambiente que provavelmente são relevantes para ajudar o humano.

Para estabelecer relevância, os pesquisadores desenvolveram um algoritmo que recebe previsões em tempo real feitas pelo kit de ferramentas da IA. Por exemplo, o LLM do kit de ferramentas pode pegar a palavra-chave “Coffee” e um algoritmo de classificação de ação pode rotular uma pessoa que pega uma xícara como tendo o objetivo de “fazer café”.

O método de relevância da equipe direcionaria essas informações para primeiro determinar a “classe” de objetos que têm a maior probabilidade de serem relevantes para o objetivo de “fazer café”. Isso pode filtrar automaticamente classes como “frutas” e “lanches”, a favor de “copos” e “cremes”.

O algoritmo filtrava ainda mais as classes relevantes para determinar os “elementos” mais relevantes. Por exemplo, com base nas pistas visuais do ambiente, o sistema pode rotular um copo mais próximo a uma pessoa como mais relevante – e útil – do que um copo que está mais distante.

Na quarta e última fase, o robô aceitaria os objetos relevantes identificados e planejaria um caminho para acessar fisicamente e oferecer os objetos ao humano.

Modo Helper

Os pesquisadores testaram o novo sistema em experimentos que simulam um buffet de café da manhã da conferência. Eles escolheram esse cenário com base no conjunto de dados de ações de café da manhã disponível ao público, que compreende vídeos e imagens de atividades típicas que as pessoas realizam durante o tempo do café da manhã, como preparar café, cozinhar panquecas, fazer cereais e frigoras. As ações em cada vídeo e imagem são rotuladas, juntamente com o objetivo geral (frigideiras, versus fazer café).

Usando esse conjunto de dados, a equipe testou vários algoritmos em seu kit de ferramentas de IA, de modo que, ao receber ações de uma pessoa em uma nova cena, os algoritmos poderiam rotular e classificar com precisão as tarefas e objetivos humanos e os objetos relevantes associados.

Em seus experimentos, eles montaram um braço robótico e garra e instruíram o sistema a ajudar os seres humanos enquanto se aproximavam de uma mesa cheia de várias bebidas, lanches e utensílios de mesa. Eles descobriram que, quando nenhum homem estava presente, o kit de ferramentas da AI do robô operava continuamente em segundo plano, rotulando e classificando objetos na tabela.

Quando, durante uma verificação do gatilho, o robô detectou um humano, ele chamou a atenção, ativando sua fase de relevância e identificando rapidamente objetos na cena que provavelmente eram relevantes, com base no objetivo do ser humano, que foi determinado pelo kit de ferramentas da IA.

“A relevância pode orientar o robô para gerar assistência perfeita, inteligente, segura e eficiente em um ambiente altamente dinâmico”, diz o co-autor Zhang.

No futuro, a equipe espera aplicar o sistema a cenários que se assemelham aos ambientes de trabalho e armazém, bem como a outras tarefas e objetivos normalmente realizados em ambientes domésticos.

“Eu gostaria de testar esse sistema em minha casa para ver, por exemplo, se eu estiver lendo o jornal, talvez ele possa me trazer café. Se eu estiver lavando a roupa, isso pode me trazer uma cápsula de roupa. Se eu estiver fazendo reparos, isso pode me trazer uma chave de fenda”, diz Zhang. “Nossa visão é permitir interações humanas-robôs que podem ser muito mais naturais e fluentes”.

Mais informações:
Xiaotong Zhang et al. arxiv (2024). Doi: 10.48550/arxiv.2409.13998

Informações do diário:
arxiv

Fornecido pelo Instituto de Tecnologia de Massachusetts

Esta história é republicada, cortesia do MIT News (web.mit.edu/newsoffice/), um site popular que abrange notícias sobre pesquisa, inovação e ensino do MIT.

Citação: O sistema robótico zero nos objetos mais relevantes para ajudar os seres humanos (2025, 24 de abril) recuperados em 24 de abril de 2025 de https://techxplore.com/news/2025-04-robotic-zenoes-relevant-humans.html

Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa particular, nenhuma parte pode ser reproduzida sem a permissão por escrito. O conteúdo é fornecido apenas para fins de informação.



Deixe uma resposta