Por que a NVIDIA está ensinando robôs a girar canetas e como a IA generativa está ajudando
Um novo trabalho da Nvidia sugere que os modelos de linguagem podem estar mais próximos de cruzar essa divisão
O campo da robótica, uma aplicação clássica da inteligência artificial, tem sido recentemente enriquecido pela nova e moderna tecnologia da IA generativa, programas como os grandes modelos de linguagem da OpenAI que interagem com declarações em linguagem natural.
Por exemplo, a unidade DeepMind do Google revelou este ano o RT-2, um grande modelo de linguagem que, quando apresentado a uma imagem e um comando, pode fornecer tanto um plano de ação quanto as coordenadas necessárias para completar o comando. No entanto, há um limiar que os programas generativos não conseguem ultrapassar: eles podem lidar com tarefas "de alto nível", como planejar a rota de um robô para um destino, mas não conseguem lidar com tarefas "de baixo nível", como manipular as articulações de um robô para um controle motor fino.
Um novo trabalho da Nvidia sugere que os modelos de linguagem podem estar mais próximos de cruzar essa divisão. Um programa chamado Eureka usa modelos de linguagem para definir metas que, por sua vez, podem ser usadas para direcionar robôs em um nível mais baixo, incluindo fazê-los realizar tarefas de motricidade fina, como mãos de robôs manipulando objetos.
O programa Eureka é apenas o primeiro de muitos esforços que provavelmente terão que ser feitos para cruzar essa divisão, pois o Eureka opera dentro de uma simulação computacional de robótica; ele ainda não controla um robô físico no mundo real.
Os autores, Yecheng Jason Ma e colegas da Nvidia, da Universidade da Pensilvânia, do Caltech e da Universidade do Texas em Austin, observam que "aproveitar [grandes modelos de linguagem] para aprender tarefas complexas de manipulação de baixo nível, como a destreza no giro de canetas, permanece um problema em aberto".
Sergey Levine, professor associado no departamento de engenharia elétrica da Universidade da Califórnia em Berkeley, concorda com essa visão. Ele acredita que os modelos de linguagem não são a melhor escolha para "o último centímetro, a parte que tem a ver com o robô realmente tocando fisicamente as coisas no mundo".
O artigo Eureka aborda o problema indiretamente. Em vez de fazer o modelo de linguagem dizer à simulação do robô o que fazer, ele é usado para criar "recompensas", estados de objetivo para os quais o robô pode se esforçar. A hipótese de Ma e sua equipe é que um grande modelo de linguagem pode fazer um trabalho melhor na elaboração dessas recompensas para o aprendizado por reforço do que um programador de IA humano.
Um dos exemplos mais impressionantes do que alcançaram é fazer uma mão de robô simulada girar uma caneta como um estudante entediado em sala de aula. "Demonstramos pela primeira vez manobras rápidas de giro de caneta em uma mão simulada antropomórfica Shadow Hand", relatam.
Os autores também fazem uma descoberta surpreendente: se combinarem suas recompensas aprimoradas do Eureka com recompensas humanas, a combinação se sai melhor nos testes do que as recompensas humanas ou Eureka sozinhas. Eles supõem que a razão é que os humanos têm uma parte do quebra-cabeça que o programa Eureka não possui, ou seja, um conhecimento do estado das coisas.