Um modelo que pode melhorar a capacidade dos robôs de agarrar objetos

Um modelo que pode melhorar a capacidade dos robôs de agarrar objetos

A estrutura da rede proposta. Dada uma imagem de entrada RGB-D, os recursos são extraídos pelo codificador. O mapa de recursos de saída F_e do codificador é refinado ainda mais por meio de um gargalo de atenção multidimensional, onde as saídas da autoatenção residual de várias cabeças (R-MHSA), atenção de amplitude cruzada (CAA) e compensação bruta são concatenadas no canal, que é então ajustado pela atenção do canal e um bloco aleatório para melhor representação de recursos F_b. Seguido por uma operação de convolução, o mapa de recursos é alimentado no decodificador, que adota três deconvoluções gêmeas em cascata TDconv-1, TDconv-2 e TDconv-3 para a predição de compreensão G. Crédito: Ren et al

Ao completar missões e tarefas no mundo real, os robôs devem, idealmente, ser capazes de agarrar com eficácia objetos de várias formas e composições. Até agora, no entanto, a maioria dos robôs só pode agarrar tipos específicos de objetos.

Pesquisadores da Academia Chinesa de Ciências e da Universidade de Pequim desenvolveram recentemente um novo modelo de aprendizado de máquina que pode ajudar a aprimorar as habilidades de preensão dos robôs. Este modelo, apresentado em Transações IEEE em circuitos e sistemas para tecnologia de vídeoé projetado especificamente para prever agarrar objetos nos arredores de um robô, para que eles possam criar estratégias ideais para agarrar esses objetos.

“Em aplicações do mundo real, como manufatura inteligente, interação homem-máquina e serviços domésticos, a preensão robótica está se tornando cada vez mais essencial”, disse Junzhi Yu, um dos pesquisadores que realizou o estudo, ao Tech Xplore. “A detecção de preensão, uma etapa crítica da preensão robótica, envolve encontrar a melhor preensão para um objeto-alvo. As soluções de detecção de preensão de codificador-decodificador convencionais são atraentes em termos de precisão e eficiência, mas ainda são limitadas devido aos artefatos de tabuleiro de xadrez de desiguais a sobreposição de resultados de convolução no decodificador. Além disso, a representação de recursos geralmente é insuficiente.”

O principal objetivo do trabalho recente de Yu e seus colegas foi desenvolver um modelo que superasse as limitações das estruturas de detecção de apreensão existentes. Para fazer isso, eles criaram um método de detecção de apreensão pixel a pixel baseado em deconvolução gêmea e atenção multidimensional, duas técnicas estabelecidas frequentemente usadas para aplicativos de visão computacional.

Um modelo que pode melhorar a capacidade dos robôs de agarrar objetos

Estrutura de uma deconvolução gêmea. F_in∈R^(c_in×h_in×w_in ) e F_out∈R^(C_out 〖×H〗_out×W_out ) denotam o mapa de recursos de entrada e o mapa de recursos de saída, respectivamente, onde c_in,h_in,w_in e C_out,H_out,W_out são o número do canal, altura e largura correspondentes a F_in e F_out. Existem dois ramos em uma deconvolução gêmea: ramo original e ramo gêmeo, onde o primeiro é uma convolução transposta padrão e o último é usado para calcular o grau de sobreposição correspondente ao ramo original para remover artefatos do tabuleiro de damas. A entrada do ramo gêmeo é uma matriz Ones∈R^(1×h_in×w_in ) com todas as entradas 1, cujo tamanho espacial é o mesmo do mapa de características de entrada F_in do ramo original. Além disso, o núcleo do ramo gêmeo tem o mesmo tamanho espacial do ramo original (K_h×K_w) e todas as suas entradas são definidas como 1⁄m, m=K_h×K_w. Com a convolução transposta no ramo gêmeo, a matriz de grau de sobreposição M_w∈R^(1×H_out×W_out ) é calculada correspondendo a todas as posições espaciais da saída F_t∈R^(c_in×H_out×W_out ) do ramo original. Então, uma operação de divisão elemento a elemento é realizada entre cada canal de F_t e M_w. Seguido por uma convolução pontual Conv1×1, a saída final F_out da deconvolução dupla é obtida. Crédito: Ren et al

Seu método foi projetado para eliminar os chamados “artefatos do tabuleiro de damas”, estranhos padrões semelhantes a um tabuleiro de damas que são frequentemente observados em imagens geradas por redes neurais artificiais. Além disso, os pesquisadores fortaleceram a capacidade de seu modelo de refinar recursos específicos nas imagens.

“A rede de detecção de captura pixel a pixel proposta é composta de um codificador, um gargalo de atenção multidimensional e um decodificador duplo baseado em deconvolução”, explicou Yu. “Dada uma imagem de entrada, a extração de recursos é realizada por meio do codificador e o mapa de recursos obtido é ainda mais refinado por meio de nosso módulo de gargalo, que integra a autoatenção residual de múltiplas cabeças (R-MHSA), atenção de amplitude cruzada (CAA) e compensação bruta para melhor focar nas regiões de interesse.”

Os três componentes do módulo gargalo da equipe resultam em três saídas diferentes que são concatenadas no canal e posteriormente ajustadas para melhorar a representação dos recursos. O “mapa de características” resultante e refinado é então enviado para o decodificador do modelo (ou seja, um modelo que aumenta a amostra do mapa de características em uma saída desejável). Este decodificador, em última análise, prevê as capturas que correspondem à imagem de entrada, realizando três chamadas deconvoluções gêmeas em cascata (processos para aumentar a amostra do mapa de recursos).

“Através do nosso módulo de gargalo, a relação intrínseca entre os recursos é explorada e os recursos são efetivamente ajustados a partir das dimensões de espaço e canal”, disse Yu. “Particularmente, a introdução da deconvolução gêmea fornece melhor amostragem adicionando uma ramificação gêmea sobre a ramificação de convolução transposta original. Como resultado, o desafio dos artefatos do tabuleiro de damas foi resolvido.”

Um modelo que pode melhorar a capacidade dos robôs de agarrar objetos

A detecção de agarrar em uma cena real. (a) imagem RGB. (b) Resultados da detecção de objetos em questão com base na máscara R-CNN e supressão de fundo. (c) Resultados da detecção de aperto. Na cena do experimento, os objetos com quatro categorias (garrafa, banana, maçã e laranja) são considerados. Crédito: Ren et al

Uma vantagem notável do método desenvolvido pelos pesquisadores é o uso de deconvoluções gêmeas, por meio das quais um ramo gêmeo é introduzido no ramo de convolução transposto original, melhorando a saída original do modelo. Essa abordagem permite que o modelo remova padrões quadriculados indesejáveis ​​das saídas.

“Deve-se notar que os artefatos do tabuleiro de damas se originam da sobreposição desigual dos resultados da convolução em diferentes posições”, disse Yu. “Aqui, uma ramificação gêmea é introduzida em paralelo na ramificação de convolução transposta original para medir a sobreposição irregular. Mais especificamente, a ramificação gêmea calcula as diferenças relativas de sobreposição entre as posições e a matriz de grau de sobreposição resultante é utilizada para reponderar o mapa de recursos da convolução transposta original.”

Nos testes iniciais, o novo método de detecção de apreensão pixel-wise alcançou resultados muito promissores, já que foi descoberto que ele suaviza a saída original do modelo e elimina artefatos de tabuleiro de damas. Assim, alcançou uma alta precisão de detecção de preensão.

Como parte de seu estudo, Yu e seus colegas também foram capazes de estender sua abordagem para outras tarefas que envolvem a detecção de pixels. Além de melhorar potencialmente as habilidades de compreensão de robôs existentes e recém-desenvolvidos, seu modelo poderá ser aplicado em breve a outros problemas de visão computacional.

“Em nossos próximos trabalhos, planejamos combinar o método proposto com a segmentação de instâncias em sistemas de robôs reais para uma melhor compreensão da previsão”, acrescentou Yu. “Por exemplo, a segmentação de instância pode ser usada para gerar informações valiosas sobre o perfil e a posição do objeto, que são alimentadas em deconvoluções gêmeas do decodificador para melhorar ainda mais o desempenho da rede.”

Mais Informações:
Guangli Ren et al, Pixel-wise Grasp Detection via Twin Deconvolution and Multi-Dimensional Attention, Transações IEEE em circuitos e sistemas para tecnologia de vídeo (2023). DOI: 10.1109/TCSVT.2023.3237866

© 2023 Science X Network

Citação: Um modelo que pode melhorar a capacidade dos robôs de agarrar objetos (2023, 6 de fevereiro) recuperado em 6 de fevereiro de 2023 em https://techxplore.com/news/2023-02-robots-ability-grasp.html

Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem a permissão por escrito. O conteúdo é fornecido apenas para fins informativos.



Deixe uma resposta