A Nvidia criou o GR00T, um modelo de IA para robôs humanoides que divide a inteligência entre dois sistemas, operando em velocidades diferentes.
O Sistema 2 pensa antes de agir, usando visão e linguagem para decompor tarefas complexas em etapas e planejar o movimento.
O Sistema 1 executa o plano em tempo real, traduzindo-o em comandos motores com refinamento contínuo de movimentos.
O treinamento usa três fontes: dados reais de robôs, simulações no Omniverse e vídeos em primeira pessoa de humanos realizando tarefas.
Na versão GR00T N1.7, o mesmo cérebro pode controlar corpo inteiro de diferentes robôs a partir de uma única política de IA.

O modelo GR00T divide a cognição dos robôs humanoides em dois sistemas, que atuam em velocidades diferentes e se complementam. O objetivo é permitir que tarefas complexas sejam executadas em tempo real, com planejamento e reação.

O Sistema 2 funciona como o cérebro pensante: analisa imagens, entende instruções em linguagem natural e planeja etapas para cumprir a tarefa. A Nvidia o descreve como pensamento deliberado, lento e contextualizado.

O Sistema 1 traduz o plano em movimentos reais: controla juntas, braços e mãos, ajustando cada fração de segundo conforme o robô se move. A rede utilizada é a diffusion transformer, que refina trajetórias repetidamente.

O funcionamento com dois cérebros funciona como reflexo: o Sistema 1 atua rapidamente para executar ações enquanto o Sistema 2 continua a planejar próximos passos, mantendo a tarefa em andamento.

Treinamento, dados e escala

Treinar esse tipo de sistema exige dados que vão além de robôs em operação. A Nvidia combina dados reais, simulações no Omniverse e vídeos em primeira pessoa de humanos.

A chamada lei de escala da destreza diz que mais de 20 mil horas de vídeo humano em primeira pessoa melhoram a capacidade de manipulação dos robôs, reduzindo a necessidade de teleoperação cara.

GR00T N1.7 e generalização de corpos

A versão GR00T N1.7 amplia a generalização: um único conjunto de políticas de IA pode controlar pernas, braços e mãos de diferentes robôs, adaptando-se a várias configurações físicas.

Com esse avanço, o mesmo comando em linguagem natural pode orientar o robô a andar até um objeto e, ao mesmo tempo, ajustar os dedos para pegá-lo, sem mudar de sistema cognitivo.

Converse com o Telinha

Nvidia explica funcionamento dos dois cérebros de seus robôs humanoides

Treinamento, dados e escala

GR00T N1.7 e generalização de corpos

Relacionados:

Comentários 0

Entre na conversa da comunidade

Veja Mais

Converse com o Telinha

Nvidia explica funcionamento dos dois cérebros de seus robôs humanoides

Treinamento, dados e escala

GR00T N1.7 e generalização de corpos

Relacionados:

Comentários 0

Entre na conversa da comunidade

Veja Mais

Fique por dentro das notícias do Khai Dreams