No atual zeitgeist da IA, a popularidade dos modelos de sequência disparou devido à sua capacidade de analisar dados e prever o que fazer a seguir. Por exemplo, você provavelmente já usou modelos de previsão do próximo token, como ChatGPT, que antecipa cada palavra (token) em uma sequência para formar respostas às perguntas dos usuários. Existem também modelos de difusão de sequência completa, como Sora, que convertem palavras em visuais deslumbrantes e realistas, “removendo sucessivamente o ruído” de uma sequência de vídeo inteira.
Pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial do MIT (CSAIL) propuseram uma mudança simples no esquema de treinamento de difusão que torna essa eliminação de ruído de sequência consideravelmente mais flexível.
Quando aplicados a campos como visão computacional e robótica, os modelos de difusão de próximo token e de sequência completa apresentam compensações de capacidade. Os modelos de próximo token podem gerar sequências que variam em comprimento.
No entanto, eles criam essas gerações sem ter conhecimento dos estados desejáveis no futuro distante – como direcionar sua geração de sequência em direção a um determinado objetivo a 10 tokens de distância – e, portanto, exigem mecanismos adicionais para o planejamento de longo horizonte (longo prazo). Os modelos de difusão podem realizar essa amostragem condicionada ao futuro, mas não têm a capacidade dos modelos de próximo token de gerar sequências de comprimento variável.
Pesquisadores do CSAIL desejam combinar os pontos fortes de ambos os modelos, então criaram uma técnica de treinamento de modelo de sequência chamada “Forçamento de Difusão”. O nome vem de “Teacher Forcing”, o esquema de treinamento convencional que divide a geração de sequência completa em etapas menores e mais fáceis de geração do próximo token (da mesma forma que um bom professor simplifica um conceito complexo).
O Forçamento de Difusão encontrou um terreno comum entre os modelos de difusão e o forçamento de professores: ambos usam esquemas de treinamento que envolvem a previsão de tokens mascarados (ruidosos) a partir de tokens não mascarados. No caso dos modelos de difusão, eles adicionam gradualmente ruído aos dados, o que pode ser visto como mascaramento fracionário.
O método Diffusion Forcing dos pesquisadores do MIT treina redes neurais para limpar uma coleção de tokens, removendo diferentes quantidades de ruído dentro de cada um e, ao mesmo tempo, prevendo os próximos tokens. O resultado: um modelo de sequência flexível e confiável que resultou em vídeos artificiais de maior qualidade e tomadas de decisão mais precisas para robôs e agentes de IA.
Ao classificar dados ruidosos e prever com segurança as próximas etapas de uma tarefa, o Diffusion Forcing pode ajudar um robô a ignorar distrações visuais para concluir tarefas de manipulação. Ele também pode gerar sequências de vídeo estáveis e consistentes e até mesmo guiar um agente de IA através de labirintos digitais.
Este método poderia potencialmente permitir que robôs domésticos e de fábrica generalizassem para novas tarefas e melhorassem o entretenimento gerado por IA.
“Os modelos de sequência visam condicionar o passado conhecido e prever o futuro desconhecido, um tipo de mascaramento binário. No entanto, o mascaramento não precisa ser binário, “diz o autor principal, Ph.D. em engenharia elétrica e ciência da computação do MIT. . estudante e membro do CSAIL Boyuan Chen.
“Com o Diffusion Forcing, adicionamos diferentes níveis de ruído a cada token, servindo efetivamente como um tipo de mascaramento fracionário. No momento do teste, nosso sistema pode ‘desmascarar’ uma coleção de tokens e difundir uma sequência em um futuro próximo com um ruído mais baixo Ele sabe em que confiar em seus dados para superar insumos fora de distribuição.”
Em vários experimentos, o Diffusion Forcing conseguiu ignorar dados enganosos para executar tarefas enquanto antecipava ações futuras.
Quando implementado em um braço robótico, por exemplo, ajudou a trocar duas frutas de brinquedo em três tapetes circulares, um exemplo mínimo de uma família de tarefas de longo horizonte que exigem memórias. Os pesquisadores treinaram o robô controlando-o à distância (ou teleoperando-o) em realidade virtual.
O robô é treinado para imitar os movimentos do usuário a partir de sua câmera. Apesar de começar em posições aleatórias e ver distrações como uma sacola de compras bloqueando os marcadores, ele colocou os objetos em seus pontos-alvo.
Para gerar vídeos, eles treinaram Diffusion Forcing no jogo “Minecraft” e em ambientes digitais coloridos criados no DeepMind Lab Simulator do Google. Quando fornecido um único quadro de filmagem, o método produziu vídeos mais estáveis e de maior resolução do que linhas de base comparáveis, como um modelo de difusão de sequência completa semelhante ao Sora e modelos de próximo token semelhantes ao ChatGPT.
Essas abordagens criaram vídeos que pareciam inconsistentes, e o último às vezes não conseguia gerar vídeos funcionais além de apenas 72 quadros.
O Diffusion Forcing não apenas gera vídeos sofisticados, mas também pode servir como um planejador de movimento que direciona para os resultados ou recompensas desejados. Graças à sua flexibilidade, o Diffusion Forcing pode gerar planos com horizontes variados, realizar pesquisas em árvores e incorporar a intuição de que o futuro distante é mais incerto do que o futuro próximo.
Na tarefa de resolver um labirinto 2D, o Diffusion Forcing superou seis linhas de base ao gerar planos mais rápidos que levam à localização do objetivo, indicando que poderia ser um planejador eficaz para robôs no futuro.
Em cada demonstração, o Diffusion Forcing atuou como um modelo de sequência completa, um modelo de previsão do próximo token ou ambos. De acordo com Chen, esta abordagem versátil poderia servir potencialmente como uma espinha dorsal poderosa para um “modelo mundial”, um sistema de IA que pode simular a dinâmica do mundo através do treinamento em bilhões de vídeos da Internet.
Isso permitiria que os robôs realizassem novas tarefas, imaginando o que precisam fazer com base no ambiente. Por exemplo, se você pedir a um robô para abrir uma porta sem ser treinado em como fazê-lo, o modelo poderá produzir um vídeo que mostrará à máquina como fazê-lo.
A equipe está atualmente procurando ampliar seu método para conjuntos de dados maiores e os modelos de transformadores mais recentes para melhorar o desempenho. Eles pretendem ampliar seu trabalho para construir um cérebro robótico semelhante ao ChatGPT que ajude os robôs a realizar tarefas em novos ambientes sem demonstração humana.
“Com o Diffusion Forcing, estamos dando um passo para aproximar a geração de vídeo e a robótica”, diz o autor sênior Vincent Sitzmann, professor assistente do MIT e membro do CSAIL, onde lidera o grupo de Representação de Cena.
“No final, esperamos poder usar todo o conhecimento armazenado em vídeos na Internet para permitir que os robôs ajudem na vida cotidiana. Ainda restam muitos outros desafios de pesquisa interessantes, como como os robôs podem aprender a imitar os humanos, observando-os mesmo quando seus próprios corpos são tão diferentes dos nossos.”
A equipe apresentará sua pesquisa no NeurIPS em dezembro, e seu artigo está disponível no site arXiv servidor de pré-impressão.
Boyuan Chen et al, Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion, arXiv (2024). DOI: 10.48550/arxiv.2407.01392
arXiv
Fornecido pelo Instituto de Tecnologia de Massachusetts
Citação: Combinando previsão do próximo token e difusão de vídeo em visão computacional e robótica (2024, 17 de outubro) recuperado em 17 de outubro de 2024 em https://techxplore.com/news/2024-10-combining-token-video-diffusion-vision.html
Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.