Nas próximas duas décadas, o mercado para robôs humanoides deverá alcançar US$ 38 bilhões. Para lidar com essa demanda significativa, particularmente nos setores de indústria e manufatura, a Nvidia está lançando uma coleção de modelos básicos de robôs, pipelines de dados e estruturas de simulação para acelerar os esforços de desenvolvimento de robôs humanoides de próxima geração.
CONTEÚDO RELACIONADO: Nvidia apresenta superchip para supercomputador pessoal de IA
Durante a CES 2025, que ocorre esta semana em Las Vegas (Estados Unidos), a empresa apresentou o Blueprint Isaac GR00T, voltado para a geração de robôs e que ajuda os desenvolvedores a gerarem dados de movimentos sintéticos exponencialmente grandes para treinar seus humanoides usando aprendizado por imitação.
O aprendizado por imitação, um subconjunto do aprendizado robótico, permite que humanoides adquiram novas habilidades observando e imitando demonstrações humanas especializadas. Coletar esses extensos conjuntos de dados de alta qualidade no mundo real é entediante, demorado e, muitas vezes, proibitivamente caro. Implementar o Blueprint Isaac GR00T para a geração de movimentos sintéticos permite que os desenvolvedores gerem com facilidade conjuntos de dados sintéticos exponencialmente grandes apenas a partir de um pequeno número de demonstrações humanas.
Começando com o fluxo de trabalho GR00T-Teleop, os usuários podem aproveitar o Apple Vision Pro para capturarem ações humanas em um gêmeo digital. Essas ações humanas são imitadas por um robô na simulação e gravadas para uso como dados reais.
O fluxo de trabalho GR00T-Mimic então multiplica a demonstração humana capturada em um conjunto maior de dados de movimentos sintéticos. Para terminar, o fluxo de trabalho GR00T-Gen, baseado nas plataformas NVIDIA Omniverse e NVIDIA Cosmos, expande exponencialmente esse conjunto de dados por meio da aleatorização e do upscaling 3D.
Assim, o conjunto de dados pode ser usado como uma entrada para a política robótica, ensinando aos robôs como se moverem e interagirem de maneira segura e eficiente com o ambiente ao seu redor no NVIDIA Isaac Lab, uma estrutura modular e de código aberto para aprendizado robótico.
Modelos diminuem a lacuna entre a simulação e a realidade
Na CES, a NVIDIA também anuncia o Cosmos, uma plataforma com uma família de World Foundation Models abertos e pré-treinados, feitos especificamente para gerar vídeos com reconhecimento físico. Ele inclui modelos de autorregressão e difusão em uma variedade de tamanhos e formatos de dados de entrada. Os modelos foram treinados com 18 quatrilhões de tokens, incluindo 2 milhões de horas de direção autônoma, robótica, filmagens com drones e dados sintéticos.
Além de ajudar a gerar grandes conjuntos de dados, o Cosmos pode reduzir a lacuna entre a simulação e a realidade, fazendo o upscaling de imagens do 3D para o real.
A Nvidia diz que combinar o Omniverse – uma plataforma para desenvolvedores de interfaces de programação de aplicações e microsserviços para criar aplicações e serviços 3D – com o Cosmos é fundamental, porque ajuda a minimizar as alucinações em potencial comumente associadas aos modelos de mundo, oferecendo salvaguardas cruciais por meio de suas simulações altamente controláveis e fisicamente precisas.
Participe das comunidades do IPNews no Instagram, Facebook, LinkedIn e X