Um esquema de monitoramento de tempo de execução baseado em incorporação usando raciocinadores de modelo de linguagem rápidos e lentos em conjunto. Crédito: arXiv (2024). DOI: 10.48550/arxiv.2407.08735
Grandes modelos de linguagem (LLMs), como o ChatGPT da OpenAI, são conhecidos por serem altamente eficazes em responder a uma ampla gama de consultas de usuários, generalizando bem em muitas tarefas de processamento de linguagem natural (NLP). Recentemente, alguns estudos também têm explorado o potencial desses modelos para detectar e mitigar falhas de sistemas robóticos.
Pesquisadores da Universidade de Stanford e da NVIDIA introduziram recentemente uma nova estrutura de dois estágios que pode facilitar o uso de LLMs para detectar anomalias do sistema e planejar ações robóticas em tempo real.
Esta abordagem, introduzida em um artigo que ganhou o Outstanding Paper Award na conferência Robotics: Science and Systems (RSS 2024), pode aumentar significativamente a confiabilidade de vários sistemas robóticos, incluindo veículos autônomos. O trabalho está disponível no arXiv servidor de pré-impressão.
“Essa linha de trabalho começou quando nos deparamos com exemplos de modos de falha do mundo real de veículos autônomos, como o caso de um carro autônomo que se confunde com um conjunto de semáforos sendo transportado por um caminhão ou um caso em que um carro autônomo parou na rodovia porque passou por um outdoor com a imagem de um sinal de parada”, disse Rohan Sinha, coautor do artigo, ao Tech Xplore.
“Esses exemplos são frequentemente chamados de entradas fora de distribuição (OOD), casos raros que diferem significativamente dos dados nos quais os VAs são treinados.”
Como parte de seus estudos anteriores, Sinha e seus colaboradores identificaram falhas de OOD que ainda prejudicam o desempenho de veículos autônomos. Eles então se propuseram a investigar até que ponto os métodos de detecção de OOD existentes poderiam descobrir essas falhas.
“Por exemplo, os métodos existentes que rastreiam a novidade visual não tiveram um bom desempenho na detecção desses casos específicos, pois ver placas de pare, outdoors ou objetos semelhantes não é visualmente novo em comparação aos dados de treinamento; somente quando esses objetos aparecem nos outdoors é que eles se tornam anômalos”, disse Sinha.
“Além disso, descobrimos que esses tipos de modos de falha não são fáceis de atribuir a uma falha de componente específico (por exemplo, um sistema de percepção), mas refletem deficiências no nível do sistema no raciocínio contextual. Isso os torna difíceis de serem detectados com técnicas de monitoramento existentes no nível do componente.”
Em um artigo de 2023, os pesquisadores demonstraram o potencial dos LLMs para detectar e entender essas “anomalias semânticas”. No entanto, para usar esses modelos de forma eficaz para evitar falhas de OOD que afetam robôs autônomos, eles primeiro tiveram que superar dois desafios principais de pesquisa.
“Primeiro, tivemos que mitigar os custos computacionais dos LLMs para permitir a reatividade em tempo real. Os melhores LLMs são muito grandes, e isso os torna muito lentos, o que não é muito prático para um robô rápido”, disse Sinha.
“Segundo, precisamos integrar raciocinadores baseados em LLM no controle de robôs dinâmicos e ágeis. O objetivo do nosso artigo recente foi abordar esses dois desafios principais e, assim, demonstrar que os LLMs podem aumentar significativamente a segurança de robôs autônomos.”
Comparados a outros modelos computacionais, os LLMs podem ser lentos no processamento de informações. A principal razão para isso é que, para criar um novo texto, eles geram tokens autorregressivamente e individualmente. Para gerar um texto semelhante a uma cadeia de pensamento que raciocina o que um robô deve fazer (ou seja, planejar as ações de um robô), os modelos transformadores que sustentam o LLM precisam, portanto, prever centenas ou mesmo milhares de tokens, um por um.
Trajetória de malha fechada de um quadricóptero usando o algoritmo AESOP. Crédito: arXiv (2024). DOI: 10.48550/arxiv.2407.08735
“Para superar essa limitação, propomos um pipeline de raciocínio de 2 estágios, onde o primeiro estágio (rápido) aproveita saídas intermediárias, uma única incorporação resultante de uma única passagem direta por um modelo de transformador, para permitir reatividade de baixa latência”, explicou Sinha.
“No segundo estágio (lento), ainda dependemos de toda a cadeia generativa de capacidades de pensamento dos maiores modelos para tomar decisões imediatas em cenários OOD que nunca foram registrados em dados antes.”
Sinha e seus colegas criaram primeiro um banco de dados de vetores de incorporação semântica usando um modelo LLM de base offline e um conjunto de dados existente de experiências nominais. No tempo de execução, a estrutura da equipe incorpora o que um robô está observando no momento e calcula a similaridade da incorporação da observação com aquelas incluídas no conjunto de dados de incorporação. Este é o primeiro estágio do modelo (ou seja, o estágio rápido).
“Se a observação for semelhante a observações anteriores, continuamos com as decisões tomadas pela pilha de autonomia base”, disse Sinha. “Se a observação for anômala, consultamos um modelo grande para raciocinar sobre qual intervenção de preservação de segurança tomar (estágio 2: lento). Emparelhamos essa estrutura de raciocínio de 2 estágios com uma estrutura de controle preditivo de modelo (MPC) que planeja vários fallbacks e leva em consideração a latência do raciocinador lento.”
Com essas duas etapas, a estrutura permite que um robô detecte rapidamente uma anomalia e desacelere suas ações, para que um modelo LLM possa raciocinar sobre o que pode ser feito para mitigar falhas. O plano adaptativo proposto pelo LLM é então executado pelo robô.
Sinha e seus colegas avaliaram sua estrutura proposta em uma série de testes e descobriram que ela poderia aprimorar a detecção de anomalias e o planejamento reativo em sistemas robóticos autônomos. Notavelmente, descobriu-se que sua abordagem supera outros métodos que dependem exclusivamente do raciocínio generativo de LLMs.
“Curiosamente, descobrimos que modelos menores (por exemplo, MPNet com 110M parâmetros) podem se sair tão bem quanto modelos maiores (por exemplo, Mistral 7B) na detecção de anomalias”, disse Sinha. “Detetores de anomalias baseados em incorporação são realmente bons em detectar quando as observações são diferentes de experiências anteriores, enquanto o raciocínio de cadeia de pensamento zero-shot com modelos grandes é realmente necessário para determinar a criticidade de segurança de um cenário OOD e o fallback apropriado.”
No geral, o trabalho recente desta equipe de pesquisadores sugere que a implantação de raciocínio rápido e lento pode melhorar o desempenho e a praticidade do uso de LLMs para detecção de anomalias e tarefas de planejamento robótico. No futuro, sua estrutura pode facilitar o uso de LLMs para aumentar a robustez de robôs, contribuindo potencialmente para a melhoria de vários sistemas robóticos autônomos.
“Nossos raciocínios rápidos são executados em tempo real, aproximadamente 360 vezes mais rápido do que consultar o GPT-4, enquanto o raciocínio lento com o GPT-4 alcançou a maior precisão na determinação dos riscos de segurança de anomalias diferenciadas em nossas avaliações”, acrescentou Sinha.
“Agora planejamos continuar construindo sobre essa estrutura. Por exemplo, planejamos usar o aprendizado contínuo com base na avaliação de anomalias atrasadas do raciocinador generativo para evitar acionar o raciocinador lento em anomalias não críticas à segurança uma segunda vez.”
Rohan Sinha et al, Detecção de anomalias em tempo real e planejamento reativo com grandes modelos de linguagem, arXiv (2024). DOI: 10.48550/arxiv.2407.08735
arXiv
© 2024 Rede Ciência X
Citação: Uma estrutura de dois estágios para melhorar a detecção de anomalias baseada em LLM e o planejamento reativo (2024, 15 de agosto) recuperado em 21 de agosto de 2024 de https://techxplore.com/news/2024-08-stage-framework-llm-based-anomaly.html
Este documento está sujeito a direitos autorais. Além de qualquer uso justo para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.