- A Nvidia criou o GR00T, um modelo de IA para robôs humanoides que divide a inteligência entre dois sistemas, operando em velocidades diferentes.
- O Sistema 2 pensa antes de agir, usando visão e linguagem para decompor tarefas complexas em etapas e planejar o movimento.
- O Sistema 1 executa o plano em tempo real, traduzindo-o em comandos motores com refinamento contínuo de movimentos.
- O treinamento usa três fontes: dados reais de robôs, simulações no Omniverse e vídeos em primeira pessoa de humanos realizando tarefas.
- Na versão GR00T N1.7, o mesmo cérebro pode controlar corpo inteiro de diferentes robôs a partir de uma única política de IA.
O modelo GR00T divide a cognição dos robôs humanoides em dois sistemas, que atuam em velocidades diferentes e se complementam. O objetivo é permitir que tarefas complexas sejam executadas em tempo real, com planejamento e reação.
O Sistema 2 funciona como o cérebro pensante: analisa imagens, entende instruções em linguagem natural e planeja etapas para cumprir a tarefa. A Nvidia o descreve como pensamento deliberado, lento e contextualizado.
O Sistema 1 traduz o plano em movimentos reais: controla juntas, braços e mãos, ajustando cada fração de segundo conforme o robô se move. A rede utilizada é a diffusion transformer, que refina trajetórias repetidamente.
O funcionamento com dois cérebros funciona como reflexo: o Sistema 1 atua rapidamente para executar ações enquanto o Sistema 2 continua a planejar próximos passos, mantendo a tarefa em andamento.
Treinamento, dados e escala
Treinar esse tipo de sistema exige dados que vão além de robôs em operação. A Nvidia combina dados reais, simulações no Omniverse e vídeos em primeira pessoa de humanos.
A chamada lei de escala da destreza diz que mais de 20 mil horas de vídeo humano em primeira pessoa melhoram a capacidade de manipulação dos robôs, reduzindo a necessidade de teleoperação cara.
GR00T N1.7 e generalização de corpos
A versão GR00T N1.7 amplia a generalização: um único conjunto de políticas de IA pode controlar pernas, braços e mãos de diferentes robôs, adaptando-se a várias configurações físicas.
Com esse avanço, o mesmo comando em linguagem natural pode orientar o robô a andar até um objeto e, ao mesmo tempo, ajustar os dedos para pegá-lo, sem mudar de sistema cognitivo.
Entre na conversa da comunidade