Imagine ter que arrumar uma cozinha bagunçada, começando por uma bancada cheia de pacotes de molho. Se o seu objetivo é limpar o contador, você pode varrer os pacotes como um grupo. Se, no entanto, você quisesse primeiro escolher os pacotes de mostarda antes de jogar o resto fora, você classificaria de forma mais criteriosa, por tipo de molho. E se, entre as mostardas, você tinha vontade de Grey Poupon, encontrar essa marca específica implicaria uma busca mais cuidadosa.
Os engenheiros do MIT desenvolveram um método que permite aos robôs tomar decisões igualmente intuitivas e relevantes para tarefas.
A nova abordagem da equipe, chamada Clio, permite que um robô identifique as partes importantes de uma cena, dadas as tarefas em questão. Com o Clio, um robô pega uma lista de tarefas descritas em linguagem natural e, com base nessas tarefas, determina o nível de granularidade necessário para interpretar o ambiente e “lembrar” apenas as partes de uma cena que são relevantes.
Em experimentos reais que vão desde um cubículo desordenado até um prédio de cinco andares no campus do MIT, a equipe usou o Clio para segmentar automaticamente uma cena em diferentes níveis de granularidade, com base em um conjunto de tarefas especificadas em prompts de linguagem natural, como “mover rack de revistas” e “obter kit de primeiros socorros”.
A equipe também executou o Clio em tempo real em um robô quadrúpede. À medida que o robô explorava um prédio de escritórios, Clio identificou e mapeou apenas as partes da cena relacionadas às tarefas do robô (como recuperar um brinquedo de cachorro enquanto ignorava pilhas de material de escritório), permitindo ao robô agarrar os objetos de interesse.
Clio recebeu o nome da musa grega da história, por sua capacidade de identificar e lembrar apenas os elementos que importam para uma determinada tarefa. Os pesquisadores imaginam que o Clio seria útil em muitas situações e ambientes em que um robô teria que pesquisar rapidamente e dar sentido ao seu entorno no contexto de sua tarefa específica.
“Busca e resgate são a aplicação motivadora para este trabalho, mas o Clio também pode alimentar robôs domésticos e robôs que trabalham no chão de fábrica ao lado de humanos”, diz Luca Carlone, professor associado do Departamento de Aeronáutica e Astronáutica (AeroAstro) do MIT, investigador principal em o Laboratório de Sistemas de Informação e Decisão (LIDS) e diretor do Laboratório MIT SPARK. “Trata-se realmente de ajudar o robô a compreender o ambiente e o que ele precisa lembrar para cumprir sua missão.”
A equipe detalha seus resultados em um estudo publicado hoje na revista Cartas de Robótica e Automação IEEE. Os coautores de Carlone incluem membros do SPARK Lab: Dominic Maggio, Yun Chang, Nathan Hughes e Lukas Schmid; e membros do Laboratório Lincoln do MIT: Matthew Trang, Dan Griffith, Carlyn Dougherty e Eric Cristofalo.
Campos abertos
Enormes avanços nas áreas de visão computacional e processamento de linguagem natural permitiram que robôs identificassem objetos ao seu redor. Mas até recentemente, os robôs só conseguiam fazê-lo em cenários “fechados”, onde eram programados para trabalhar num ambiente cuidadosamente selecionado e controlado, com um número finito de objetos que o robô foi pré-treinado para reconhecer.
Nos últimos anos, os pesquisadores adotaram uma abordagem mais “aberta” para permitir que os robôs reconheçam objetos em ambientes mais realistas. No campo do reconhecimento de conjunto aberto, os pesquisadores aproveitaram ferramentas de aprendizagem profunda para construir redes neurais que podem processar bilhões de imagens da Internet, juntamente com o texto associado a cada imagem (como a foto de um cachorro de um amigo no Facebook, com a legenda “Conheça meu novo cachorrinho!”).
A partir de milhões de pares imagem-texto, uma rede neural aprende e depois identifica os segmentos de uma cena que são característicos de certos termos, como um cachorro. Um robô pode então aplicar essa rede neural para localizar um cachorro em uma cena totalmente nova.
Mas ainda permanece um desafio sobre como analisar uma cena de uma forma útil que seja relevante para uma tarefa específica.
“Os métodos típicos escolhem algum nível fixo e arbitrário de granularidade para determinar como fundir segmentos de uma cena no que você pode considerar como um ‘objeto'”, diz Maggio. “No entanto, a granularidade do que você chama de ‘objeto’ está na verdade relacionada ao que o robô tem que fazer. Se essa granularidade for corrigida sem considerar as tarefas, então o robô pode acabar com um mapa que não é útil para o seu propósito. tarefas.”
Gargalo de informação
Com o Clio, a equipe do MIT teve como objetivo permitir que os robôs interpretassem o ambiente ao seu redor com um nível de granularidade que pudesse ser automaticamente ajustado às tarefas em questão.
Por exemplo, dada a tarefa de mover uma pilha de livros para uma estante, o robô deve ser capaz de determinar que toda a pilha de livros é o objeto relevante para a tarefa. Da mesma forma, se a tarefa fosse mover apenas o livro verde do resto da pilha, o robô deveria distinguir o livro verde como um único objeto alvo e desconsiderar o resto da cena – incluindo os outros livros da pilha.
A abordagem da equipe combina visão computacional de última geração e grandes modelos de linguagem que compreendem redes neurais que fazem conexões entre milhões de imagens de código aberto e texto semântico. Eles também incorporam ferramentas de mapeamento que dividem automaticamente uma imagem em muitos segmentos pequenos, que podem ser alimentados na rede neural para determinar se determinados segmentos são semanticamente semelhantes.
Os pesquisadores então aproveitam uma ideia da teoria clássica da informação chamada “gargalo de informação”, que eles usam para comprimir uma série de segmentos de imagem de uma forma que seleciona e armazena segmentos que são semanticamente mais relevantes para uma determinada tarefa.
“Por exemplo, digamos que há uma pilha de livros na cena e minha tarefa é apenas pegar o livro verde. Nesse caso, empurramos todas essas informações sobre a cena através desse gargalo e terminamos com um aglomerado de segmentos que representam o livro verde”, explica Maggio.
“Todos os outros segmentos que não são relevantes são agrupados em um cluster que podemos simplesmente remover. E ficamos com um objeto com a granularidade correta que é necessário para apoiar minha tarefa.”
Os pesquisadores demonstraram o Clio em diferentes ambientes do mundo real.
“O que pensamos que seria uma experiência realmente sensata seria colocar o Clio em meu apartamento, onde eu não fiz nenhuma limpeza antes”, diz Maggio.
A equipe elaborou uma lista de tarefas em linguagem natural, como “mover pilha de roupas”, e depois aplicou o Clio às imagens do apartamento bagunçado de Maggio. Nestes casos, o Clio conseguiu segmentar rapidamente cenas do apartamento e alimentar os segmentos através do algoritmo Information Bottleneck para identificar os segmentos que compunham a pilha de roupas.
Eles também executaram o Clio no robô quadrúpede da Boston Dynamic, Spot. Eles deram ao robô uma lista de tarefas a serem concluídas e, enquanto o robô explorava e mapeava o interior de um prédio de escritórios, o Clio funcionava em tempo real em um computador de bordo montado no Spot, para selecionar segmentos nas cenas mapeadas que relacionar-se visualmente com a tarefa dada.
O método gerou um mapa sobreposto mostrando apenas os objetos alvo, que o robô usou para se aproximar dos objetos identificados e completar fisicamente a tarefa.
“Executar o Clio em tempo real foi uma grande conquista para a equipe”, diz Maggio. “Muito trabalho anterior pode levar várias horas para ser executado.”
No futuro, a equipe planeja adaptar o Clio para ser capaz de lidar com tarefas de nível superior e aproveitar os avanços recentes nas representações visuais fotorrealistas de cenas.
“Ainda estamos dando ao Clio tarefas um tanto específicas, como ‘encontrar um baralho de cartas’”, diz Maggio. “Para busca e resgate, você precisa atribuir mais tarefas de alto nível, como ‘encontrar sobreviventes’ ou ‘recuperar a energia’. Então, queremos chegar a uma compreensão mais humana de como realizar tarefas mais complexas.”
Dominic Maggio et al, Clio: gráficos de cenas 3D de conjunto aberto orientados por tarefas em tempo real, Cartas de Robótica e Automação IEEE (2024). DOI: 10.1109/LRA.2024.3451395. dspace.mit.edu/handle/1721.1/157072
Fornecido pelo Instituto de Tecnologia de Massachusetts
Esta história foi republicada como cortesia do MIT News (web.mit.edu/newsoffice/), um site popular que cobre notícias sobre pesquisa, inovação e ensino do MIT.
Citação: Novo método permite que robôs mapeiem uma cena, identifiquem objetos para completar um conjunto de tarefas (2024, 30 de setembro) recuperado em 30 de setembro de 2024 em https://techxplore.com/news/2024-09-method-enables-robots -scene-tasks.html
Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.