Sua lista de tarefas diárias provavelmente é bastante simples: lavar a louça, comprar mantimentos e outras minúcias. É improvável que você tenha escrito “pegue o primeiro prato sujo” ou “lave o prato com uma esponja”, porque cada uma dessas etapas em miniatura da tarefa parece intuitiva. Embora possamos concluir cada etapa rotineiramente sem pensar muito, um robô requer um plano complexo que envolve contornos mais detalhados.
O Improvável AI Lab do MIT, um grupo do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL), ofereceu a essas máquinas uma ajuda com uma nova estrutura multimodal: Modelos de Base Composicional para Planejamento Hierárquico (HiP), que desenvolve planos detalhados e viáveis com o experiência em três modelos de fundação diferentes. Assim como o GPT-4 da OpenAI, o modelo básico sobre o qual o ChatGPT e o Bing Chat foram construídos, esses modelos básicos são treinados em grandes quantidades de dados para aplicações como geração de imagens, tradução de texto e robótica.
O trabalho está publicado no arXiv servidor de pré-impressão.
Ao contrário do RT2 e de outros modelos multimodais que são treinados em dados emparelhados de visão, linguagem e ação, o HiP usa três modelos básicos diferentes, cada um treinado em diferentes modalidades de dados. Cada modelo básico captura uma parte diferente do processo de tomada de decisão e trabalha em conjunto quando chega a hora de tomar decisões. O HiP elimina a necessidade de acesso a dados combinados de visão, linguagem e ação, que são difíceis de obter. O HiP também torna o processo de raciocínio mais transparente.
O que é considerado uma tarefa diária para um ser humano pode ser a “meta de longo horizonte” de um robô – um objetivo abrangente que envolve a conclusão de muitas etapas menores primeiro – exigindo dados suficientes para planejar, compreender e executar objetivos. Embora os pesquisadores de visão computacional tenham tentado construir modelos de base monolíticos para esse problema, combinar dados de linguagem, visuais e de ação é caro. Em vez disso, o HiP representa uma receita multimodal diferente: um trio que incorpora inteligência linguística, física e ambiental de forma barata num robô.
“Os modelos básicos não precisam ser monolíticos”, diz Jim Fan, pesquisador de IA da NVIDIA, que não esteve envolvido no artigo. “Este trabalho decompõe a complexa tarefa de planejamento de agente incorporado em três modelos constituintes: um raciocinador de linguagem, um modelo de mundo visual e um planejador de ação. Isso torna um problema difícil de tomada de decisão mais tratável e transparente.”
A equipe acredita que seu sistema poderia ajudar essas máquinas a realizar tarefas domésticas, como guardar um livro ou colocar uma tigela na máquina de lavar louça. Além disso, o HiP pode ajudar nas tarefas de construção e fabricação em várias etapas, como empilhar e colocar diferentes materiais em sequências específicas.
Avaliando HiP
A equipe CSAIL testou a acuidade do HiP em três tarefas de manipulação, superando estruturas comparáveis. O sistema raciocinou desenvolvendo planos inteligentes que se adaptam às novas informações.
Primeiro, os pesquisadores solicitaram que empilhasse blocos de cores diferentes uns sobre os outros e depois colocasse outros próximos. O problema: algumas das cores corretas não estavam presentes, então o robô teve que colocar blocos brancos em uma tigela colorida para pintá-los. O HiP frequentemente se ajustava a essas mudanças com precisão, especialmente em comparação com sistemas de planejamento de tarefas de última geração, como o Transformer BC e o Action Diffuser, ajustando seus planos para empilhar e posicionar cada quadrado conforme necessário.
Outro teste: organizar objetos como doces e um martelo em uma caixa marrom, ignorando outros itens. Alguns dos objetos que precisava mover estavam sujos, então a HiP ajustou seus planos para colocá-los em uma caixa de limpeza e depois no recipiente marrom. Em uma terceira demonstração, o bot foi capaz de ignorar objetos desnecessários para completar subobjetivos da cozinha, como abrir um micro-ondas, tirar uma chaleira do caminho e acender a luz. Algumas das etapas solicitadas já haviam sido concluídas, então o robô se adaptou ignorando essas instruções.
Uma hierarquia tripartida
O processo de planejamento triplo do HiP opera como uma hierarquia, com a capacidade de pré-treinar cada um de seus componentes em diferentes conjuntos de dados, incluindo informações fora da robótica. Na parte inferior dessa ordem está um grande modelo de linguagem (LLM), que começa a idealizar capturando todas as informações simbólicas necessárias e desenvolvendo um plano de tarefas abstrato. Aplicando o conhecimento do senso comum encontrado na internet, o modelo divide seu objetivo em submetas. Por exemplo, “fazer uma xícara de chá” se transforma em “encher uma panela com água”, “ferver a panela” e as ações subsequentes necessárias.
“Tudo o que queremos fazer é pegar os modelos pré-treinados existentes e fazer com que eles interajam entre si com sucesso”, diz Anurag Ajay, Ph.D. estudante do Departamento de Engenharia Elétrica e Ciência da Computação do MIT (EECS) e afiliado do CSAIL. “Em vez de pressionar por um modelo para fazer tudo, combinamos vários modelos que aproveitam diferentes modalidades de dados da Internet. Quando usados em conjunto, eles ajudam na tomada de decisões robóticas e podem potencialmente ajudar nas tarefas em residências, fábricas e canteiros de obras. “
Esses modelos também precisam de algum tipo de “olho” para compreender o ambiente em que estão operando e executar corretamente cada subobjetivo. A equipe usou um grande modelo de difusão de vídeo para ampliar o planejamento inicial concluído pelo LLM, que coleta informações geométricas e físicas sobre o mundo a partir de imagens na internet. Por sua vez, o modelo de vídeo gera um plano de trajetória de observação, refinando o esboço do LLM para incorporar novos conhecimentos físicos.
Este processo, conhecido como refinamento iterativo, permite ao HiP raciocinar sobre as suas ideias, recebendo feedback em cada etapa para gerar um esboço mais prático. O fluxo de feedback é semelhante ao de escrever um artigo, onde um autor pode enviar seu rascunho a um editor, e com as revisões incorporadas, o editor revisa as últimas alterações e finaliza.
Neste caso, o topo da hierarquia é um modelo de ação egocêntrico, ou uma sequência de imagens em primeira pessoa que inferem quais ações devem ocorrer com base no seu entorno. Durante esta etapa, o plano de observação do modelo de vídeo é mapeado no espaço visível para o robô, ajudando a máquina a decidir como executar cada tarefa dentro do objetivo de longo horizonte. Se um robô usa HiP para fazer chá, isso significa que ele mapeou exatamente onde estão a panela, a pia e outros elementos visuais importantes e começará a completar cada subobjetivo.
Ainda assim, o trabalho multimodal é limitado pela falta de modelos de base de vídeo de alta qualidade. Uma vez disponíveis, eles poderiam interagir com os modelos de vídeo de pequena escala do HiP para melhorar ainda mais a previsão da sequência visual e a geração de ações do robô. Uma versão de qualidade superior também reduziria os atuais requisitos de dados dos modelos de vídeo.
Dito isto, a abordagem da equipe CSAIL usou apenas uma pequena quantidade de dados em geral. Além disso, o treinamento do HiP era barato e demonstrou o potencial do uso de modelos de base prontamente disponíveis para completar tarefas de longo horizonte.
“O que Anurag demonstrou é uma prova de conceito de como podemos pegar modelos treinados em tarefas e modalidades de dados separadas e combiná-los em modelos para planejamento robótico. No futuro, o HiP poderá ser aumentado com modelos pré-treinados que possam processar toque e som para fazer planos melhores”, diz o autor sênior Pulkit Agrawal, professor assistente do MIT em EECS e diretor do Improvável AI Lab. O grupo também está considerando aplicar o HiP para resolver tarefas reais de longo horizonte em robótica.
Ajay e Agrawal são os autores principais de um artigo que descreve o trabalho. A eles se juntam os professores do MIT e os principais investigadores do CSAIL, Tommi Jaakkola, Joshua Tenenbaum e Leslie Pack Kaelbling; Akash Srivastava, afiliado de pesquisa da CSAIL e gerente de pesquisa do MIT-IBM AI Lab; os estudantes de pós-graduação Seungwook Han e Yilun Du; o ex-pós-doutorado Abhishek Gupta, que agora é professor assistente na Universidade de Washington; e o ex-aluno de pós-graduação Shuang Li, Ph.D.
Mais Informações:
Anurag Ajay et al, Modelos de Base Composicional para Planejamento Hierárquico, arXiv (2023). DOI: 10.48550/arxiv.2309.08587
arXiv
Fornecido pelo Instituto de Tecnologia de Massachusetts
Esta história foi republicada como cortesia do MIT News (web.mit.edu/newsoffice/), um site popular que cobre notícias sobre pesquisa, inovação e ensino do MIT.
Citação: Vários modelos de IA ajudam os robôs a executar planos complexos de forma mais transparente (2024, 8 de janeiro) recuperado em 8 de janeiro de 2024 em https://techxplore.com/news/2024-01-multiple-ai-robots-complex-transparently.html
Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.