O Google DeepMind apresentou nesta quarta-feira (12), dois novos modelos de inteligência artificial (IA) baseados no Gemini 2.0 para tornar a tecnologia útil e prestativa no mundo físico. São eles: o Gemini Robotics, modelo avançado de visão-linguagem-ação (VLA), e o Gemini Robotics-ER, modelo com compreensão espacial avançada.

A big tech também anunciou parceria com a Apptronik para construir a próxima geração de robôs humanoides com o Gemini 2.0. Além disso, a empresa selecionou determinadas empresas para orientar o futuro do Gemini Robotics-ER, como Agile Robots, Agility Robots, Boston Dynamics e Enchanted Tools.

  • A equipe definiu três princípios para garantir a aplicabilidade do modelo de IA de seu novo robô: adaptação a diferentes situações; interatividade; e habilidades com mãos e dedos;
  • O modelo é “intuitivamente interativo”, com capacidade para entender e responder a comandos formulados em linguagem cotidiana, conversacional e em diferentes idiomas;
  • “Em nosso relatório técnico, mostramos que, em média, a Gemini Robotics mais que dobra o desempenho em um benchmark de generalização abrangente em comparação com outros modelos de visão-linguagem-ação de última geração”, diz o comunicado;
  • Ele monitora, continuamente, seus arredores, detecta mudanças no ambiente e ajusta suas ações de acordo, o que, segundo o Google, pode “ajudar melhor as pessoas a colaborar com assistentes robôs em uma variedade de configurações, de casa ao local de trabalho”.
Captura de tela 2025 03 12 183307 1Milhao Internet
Testes foram realizados em três tipos diferentes de robôs (Imagem: Divulgação/Google)

A Gemini Robotics pode lidar com tarefas extremamente complexas e de várias etapas que exigem manipulação precisa, como dobrar origami ou embalar um lanche em um saco Ziploc.

Os treinamentos foram feitos na plataforma robótica de dois braços ALOHA 2 e, também, nos braços Franka, usados ​​em laboratórios acadêmicos. Para personificações mais complexas, a empresa deve seguir como exemplo o robô humanoide Apollo, da Apptronik.

Leia mais:

IA cada vez mais inteligente

Já o Gemini Robotics-ER foi construído para focar no raciocínio espacial, executando todas as etapas necessárias para controlar um robô imediatamente, incluindo percepção, estimativa de estado, compreensão espacial, planejamento e geração de código.

Captura de tela 2025 03 12 183147 1Milhao Internet
Modelo aprende capacidades inteiramente novas no momento em que é provocado (Imagem: Divulgação/Google)

O modelo pode desenvolver capacidades inteiramente novas no mesmo momento em que é provocado. “Por exemplo, quando lhe é mostrada uma caneca de café, o modelo pode intuir uma pegada apropriada com dois dedos para pegá-la pela alça e uma trajetória segura para se aproximar dela”, explica a empresa.


A tecnologia se destacou em capacidades de raciocínio incorporado, incluindo detecção de objetos e apontar para partes deles, localização de pontos correspondentes e detecção de itens em 3D.