
Visão geral das tarefas experimentais. Um subconjunto de tarefas consideradas neste artigo, eles incluem sacar um quarteirão Jenga de sua torre, virar um objeto em uma panela, montando dispositivos complexos, como uma correia dentada, um painel, uma placa -mãe e uma prateleira da IKEA. Crédito: https://hil-serl.github.io/static/hil-serl-paper.pdf
Na UC Berkeley, os pesquisadores da IA robótica de Sergey Levine e o aprendizado de aprendizagem olharam para uma mesa onde uma torre de 39 blocos de Jenga estava perfeitamente empilhada. Depois, um robô branco e preto, seu único membro dobrou como uma girafa curvada, em direção à torre, brandindo um chicote de couro preto.
Através do que poderia ter parecido a um espectador casual como um milagre da física, o chicote atingiu exatamente o local certo para enviar um único bloco voando da pilha, enquanto o resto da torre permaneceu estruturalmente sólido.
Essa tarefa, conhecida como “Jenga Chicoteing”, é um hobby perseguido por pessoas com destreza e reflexos para fazê -lo. Agora, ele foi dominado por robôs, graças a um romance, método de treinamento movido a IA.
Ao aprender com demonstrações e feedback humanos, bem como suas próprias tentativas do mundo real, esse protocolo de treinamento ensina robôs a executar tarefas complicadas, como o Jenga, chicoteando com uma taxa de sucesso de 100%.
Além disso, os robôs são ensinados a uma velocidade impressionante, permitindo que eles aprendam dentro de uma a duas horas como montar perfeitamente uma placa -mãe de computador, construir uma prateleira e muito mais.
Alimentado pela IA, o campo de aprendizado do robô procurou quebrar o desafio de como ensinar atividades de máquinas que são imprevisíveis ou complicadas, em oposição a uma única ação, como pegar repetidamente um objeto de um local específico em uma correia transportadora. Para resolver esse dilema, o Labor de Levine se concentrou no que é chamado de “aprendizado de reforço”.
O pesquisador de pós -doutorado Jianlan Luo explicou que, no aprendizado de reforço, um robô tenta uma tarefa no mundo real e, usando feedback das câmeras, aprende com seus erros para eventualmente dominar essa habilidade. Quando a equipe anunciou pela primeira vez um novo conjunto de software usando essa abordagem no início de 2024, Luo disse que estava animado para que outros pudessem replicar rapidamente seu sucesso usando o software de código aberto por conta própria.
Neste outono, a equipe de pesquisa de Levine, Luo, Charles Xu, Zheyuan Hu e Jeffrey Wu divulgou um relatório técnico sobre seu sistema mais recente, aquele que acalmou o chicote de Jenga. Esta versão nova e melhorada adicionada na intervenção humana. As descobertas também são publicadas no arxiv servidor pré -impressão.
Com um mouse especial que controla o robô, um humano pode corrigir o curso do robô, e essas correções podem ser incorporadas ao proverbial Bank de memória do robô. Usando um método de IA chamado Aprendizagem de Reforço, o robô analisa a soma de todas as suas tentativas – assistida e sem assistência, bem -sucedida e malsucedida – para melhor executar sua tarefa.
Luo disse que um humano precisava intervir cada vez menos à medida que o robô aprendeu com a experiência. “Eu precisava cuidar do robô para talvez os primeiros 30% ou algo assim, e depois gradualmente eu poderia realmente prestar menos atenção”, disse ele.
O laboratório colocou seu sistema robótico através de uma manopla de tarefas complicadas além do chicote de Jenga. O robô virou um ovo em uma panela; passou por um objeto de um braço para outro; e montou uma placa -mãe, painel de carros e correia dentada. Os pesquisadores selecionaram esses desafios porque foram variados e, nas palavras de Luo, representaram “todo tipo de incerteza ao executar tarefas robóticas no complexo mundo real”.
A tarefa da correia dentada se destacou em termos de dificuldade. Toda vez que o robô interagia com a correia dentada – imagine a tentativa de manipular uma corrente de colar de disquete em dois pinos -, é necessário antecipar e reagir a essa mudança.
O chicote de Jenga constitui um tipo diferente de desafio. Envolve a física difícil de modelar, por isso é menos eficiente treinar um robô usando simulações sozinhas; A experiência do mundo real foi crítica.
Os pesquisadores também testaram a adaptabilidade dos robôs encenando contratempos. Eles forçariam uma garra a abrir para que ele soltasse um objeto ou movesse uma placa -mãe enquanto o robô tentava instalar um microchip, treinando -o para reagir a uma situação de mudança que poderia encontrar fora de um ambiente de laboratório.
No final do treinamento, o robô poderia executar essas tarefas corretamente 100% do tempo. Os pesquisadores compararam seus resultados a um método comum de “copiar meu comportamento”, conhecido como clonagem comportamental que foi treinada na mesma quantidade de dados de demonstração; Seu novo sistema tornou os robôs mais rápido e preciso.
Essas métricas são cruciais, disse Luo, porque a barra de competência de robô é muito alta. Consumidores e industriais regulares não querem comprar um robô inconsistente. Luo enfatizou que, em particular, processos de fabricação “feitos sob encomenda”, como os usados frequentemente para eletrônicos, automóveis e peças aeroespaciais, poderiam se beneficiar de robôs que podem aprender de maneira confiável e adaptável uma gama de tarefas.
A primeira vez que o robô conquistou o desafio de chicote de Jenga, “isso realmente me chocou”, disse Luo. “A tarefa Jenga é muito difícil para a maioria dos humanos. Eu tentei com um chicote na mão; tive uma taxa de sucesso de 0%”. E mesmo quando empilhados contra um idiota Human Jenga Whipper, acrescentou, o robô provavelmente superará o humano porque não tem músculos que eventualmente se cansarão.
O novo sistema de aprendizado do Levine Lab faz parte de uma tendência mais ampla na inovação de robótica. Nos últimos dois anos, o campo maior se moveu aos trancos e barrancos, impulsionado pelo investimento da indústria e pela IA, que fornece às engenheiros ferramentas turbo de dados para analisar dados de desempenho ou entrada de imagem que um robô pode estar observando. Professores e pesquisadores de Berkeley fazem parte desse aumento na inovação.
Levine co-fundou a Robotics Company Physical Intelligence (PI), atualmente avaliada em US $ 2 bilhões por seu progresso na criação de software que pode funcionar para uma variedade de robôs.
Em 2018, o professor Ken Goldberg e outros pesquisadores de Berkeley formaram a Ambi Robotics; A empresa cria robôs treinados por meio de simulações de IA que agarram e classificam parcelas em diferentes contêineres, tornando-os indispensáveis para empresas de comércio eletrônico.
Pieter Abbeel, diretor do Berkeley Artificial Intelligence Research Lab, co-criou a startup de robótica da AI Covarariant, cujos modelos-e a confiança cerebral-foram alistados pela Amazon no ano passado. E Homayoon Kazerooni, professor de engenharia mecânica, fundou a empresa de capital aberto Ekso Bionics, que torna os “exoesqueletos” robóticos para uso por pessoas com mobilidade limitada.
Quanto à pesquisa de Luo, ele está animado ao ver onde sua equipe e outros pesquisadores podem pressioná -la. Uma próxima etapa, disse ele, seria pré-treinar o sistema com recursos básicos de manipulação de objetos, eliminando a necessidade de aprender aqueles do zero e, em vez disso, progredir diretamente para adquirir habilidades mais complexas. O laboratório também optou por fazer sua pesquisa de código aberto para que outros pesquisadores pudessem usar e desenvolvê -lo.
“Um objetivo essencial deste projeto é tornar a tecnologia tão acessível e fácil de usar como um iPhone”, disse Luo. “Acredito firmemente que quanto mais pessoas podem usá -lo, maior o impacto que podemos causar”.
Jianlan Luo et al. arxiv (2024). Doi: 10.48550/arxiv.2410.21845
Fornecido pela Universidade da Califórnia – Berkeley
Citação: Usando a IA, os pesquisadores inventam uma maneira rápida e precisa de ensinar robôs habilidades complicadas (2025, 29 de janeiro) recuperadas em 29 de janeiro de 2025 em https://techxplore.com/news/2025-01-ai-ai-fast-precise-robots-complyed-complicated .html
Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa particular, nenhuma parte pode ser reproduzida sem a permissão por escrito. O conteúdo é fornecido apenas para fins de informação.