Pesquisador discute como o método recentemente desenvolvido pode ajudar os robôs a identificar objetos em espaços desordenados

Perguntas e respostas: ajudando robôs a identificar objetos em espaços desordenados

Pesquisadores da Universidade de Washington desenvolveram um método que ensina um robô de baixo custo a identificar objetos em uma prateleira desordenada. Para o teste, o robô (mostrado aqui no centro da foto) foi solicitado a identificar todos os objetos na prateleira à sua frente. Crédito: Transações IEEE em Robótica (2023). DOI: 10.1109/TRO.2023.3343994

Imagine uma xícara de café sobre uma mesa. Agora imagine um livro obscurecendo parcialmente a xícara. Como humanos, ainda sabemos o que é a xícara de café, embora não possamos ver tudo. Mas um robô pode ficar confuso.

Os robôs em armazéns e até mesmo em torno de nossas casas lutam para identificar e recolher objetos se estiverem muito próximos uns dos outros ou se um espaço estiver desordenado. Isso ocorre porque os robôs não possuem o que os psicólogos chamam de “unidade de objeto”, ou nossa capacidade de identificar as coisas, mesmo quando não podemos ver todas elas.

Pesquisadores da Universidade de Washington desenvolveram uma maneira de ensinar essa habilidade aos robôs. O método, abreviadamente chamado de THOR, permitiu que um robô de baixo custo identificasse objetos – incluindo uma garrafa de mostarda, uma lata de Pringles e uma bola de tênis – em uma prateleira bagunçada. Num artigo recente publicado em Transações IEEE em Robóticaa equipe demonstrou que o THOR superou os modelos atuais de última geração.

A UW News entrou em contato com o autor sênior Ashis Banerjee, professor associado da UW nos departamentos de engenharia industrial e de sistemas e engenharia mecânica, para obter detalhes sobre como os robôs identificam objetos e como o THOR funciona.

Como os robôs percebem o que está ao seu redor?

Sentimos o mundo ao nosso redor usando visão, som, olfato, paladar e tato. Os robôs detectam o ambiente ao seu redor usando um ou mais tipos de sensores. Os robôs “vêem” coisas usando câmeras coloridas padrão ou câmeras estéreo ou de profundidade mais complexas. Enquanto as câmeras padrão simplesmente gravam imagens coloridas e texturizadas do ambiente, as câmeras estéreo e de profundidade também fornecem informações sobre a distância dos objetos, assim como nossos olhos.

Por si só, no entanto, os sensores não podem permitir que os robôs compreendam o que os rodeia. Os robôs precisam de um sistema de percepção visual, semelhante ao córtex visual do cérebro humano, para processar imagens e detectar onde estão todos os objetos, estimar suas orientações, identificar o que os objetos podem ser e analisar qualquer texto escrito neles.

Por que é difícil para os robôs identificarem objetos em espaços desordenados?

Existem dois desafios principais aqui. Primeiro, é provável que exista um grande número de objetos de diversos formatos e tamanhos. Isto torna difícil para o sistema de percepção do robô distinguir entre os diferentes tipos de objetos. Segundo, quando vários objetos estão localizados próximos uns dos outros, eles obstruem a visão de outros objetos. Os robôs têm dificuldade em reconhecer objetos quando não têm uma visão completa do objeto.

Existem tipos de objetos que são especialmente difíceis de identificar em espaços desordenados?

Muito disso depende de quais objetos estão presentes. Por exemplo, é um desafio reconhecer objetos menores se houver uma variedade de tamanhos presentes. Também é mais difícil diferenciar objetos com formas semelhantes ou idênticas, como diferentes tipos de bolas ou caixas. Desafios adicionais ocorrem com objetos macios ou moles que podem mudar de forma à medida que o robô coleta imagens de diferentes pontos de vista na sala.

Perguntas e respostas: ajudando robôs a identificar objetos em espaços desordenados

As caixas verdes mostradas aqui circundam os objetos que o robô identificou corretamente. Caixas vermelhas cercam itens identificados incorretamente. Crédito: Transações IEEE em Robótica (2023). DOI: 10.1109/TRO.2023.3343994

Então, como funciona o THOR e por que é melhor do que as tentativas anteriores de resolver este problema?

THOR é realmente uma ideia do autor principal Ekta Samani, que concluiu esta pesquisa como estudante de doutorado na UW. O núcleo do THOR é que ele permite que o robô imite como nós, como humanos, sabemos que objetos parcialmente visíveis não estão quebrados ou são objetos inteiramente novos.

THOR faz isso usando a forma dos objetos em uma cena para criar uma representação 3D de cada objeto. A partir daí utiliza a topologia, uma área da matemática que estuda a conectividade entre diferentes partes dos objetos, para atribuir cada objeto a uma classe de objetos “mais provável”. Isso é feito comparando sua representação 3D com uma biblioteca de representações armazenadas.

O THOR não depende do treinamento de modelos de aprendizado de máquina com imagens de salas desordenadas. Ele só precisa de imagens de cada um dos diferentes objetos. O THOR não exige que o robô tenha sensores ou processadores especializados e caros e também funciona bem com câmeras comuns.

Isto significa que o THOR é muito fácil de construir e, mais importante ainda, é facilmente útil para espaços completamente novos com diversos fundos, condições de iluminação, arranjos de objetos e grau de desordem. Ele também funciona melhor do que os métodos de reconhecimento baseados em formas 3D existentes porque sua representação 3D dos objetos é mais detalhada, o que ajuda a identificar os objetos em tempo real.

Como o THOR poderia ser usado?

O THOR pode ser usado com qualquer robô de serviço interno, independentemente de o robô operar na casa de alguém, em um escritório, em uma loja, em um armazém ou em uma fábrica. Na verdade, a nossa avaliação experimental mostra que o THOR é igualmente eficaz para armazéns, salas de estar e espaços familiares.

Embora o THOR tenha um desempenho significativamente melhor do que outros métodos existentes para todos os tipos de objetos nesses espaços desordenados, ele é o melhor na identificação de objetos de estilo de cozinha, como uma caneca ou uma jarra, que normalmente têm formas distintas, mas regulares, e variações moderadas de tamanho. .

Qual é o próximo?

Existem vários problemas adicionais que precisam ser resolvidos e estamos trabalhando em alguns deles. Por exemplo, neste momento, o THOR considera apenas a forma dos objetos, mas versões futuras também poderão prestar atenção a outros aspectos da aparência, como cor, textura ou rótulos de texto. Também vale a pena investigar como o THOR pode ser usado para lidar com objetos moles ou danificados, que possuem formatos diferentes das configurações esperadas.

Além disso, alguns espaços podem estar tão confusos que certos objetos podem nem ser visíveis. Nestes cenários, um robô precisa ser capaz de decidir se movimentar para “ver” melhor os objetos ou, se for permitido, movimentar-se em torno de alguns dos objetos para obter melhores visualizações dos objetos obstruídos.

Por último, mas não menos importante, o robô precisa ser capaz de lidar com objetos que nunca viu antes. Nestes cenários, o robô deve ser capaz de colocar esses objetos em uma categoria de objetos “diversos” ou “desconhecidos” e, em seguida, procurar a ajuda de um ser humano para identificar corretamente esses objetos.

Mais Informações:
Ekta U. Samani et al, Homologia persistente encontra unidade de objeto: reconhecimento de objeto na desordem, Transações IEEE em Robótica (2023). DOI: 10.1109/TRO.2023.3343994

Fornecido pela Universidade de Washington

Citação: Perguntas e respostas: pesquisador discute como o método recentemente desenvolvido pode ajudar os robôs a identificar objetos em espaços desordenados (2024, 7 de fevereiro) recuperado em 7 de fevereiro de 2024 em https://techxplore.com/news/2024-02-qa-discusses-newly-method- robôs.html

Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.



Deixe uma resposta