Google apresenta versão do Gemini para robôs na vida real

Tudo sobre Google

Tudo sobre Inteligência Artificial

O Google DeepMind apresentou nesta quarta-feira (12), dois novos modelos de inteligência artificial (IA) baseados no Gemini 2.0 para tornar a tecnologia útil e prestativa no mundo físico. São eles: o Gemini Robotics, modelo avançado de visão-linguagem-ação (VLA), e o Gemini Robotics-ER, modelo com compreensão espacial avançada.

A big tech também anunciou parceria com a Apptronik para construir a próxima geração de robôs humanoides com o Gemini 2.0. Além disso, a empresa selecionou determinadas empresas para orientar o futuro do Gemini Robotics-ER, como Agile Robots, Agility Robots, Boston Dynamics e Enchanted Tools.

A equipe definiu três princípios para garantir a aplicabilidade do modelo de IA de seu novo robô: adaptação a diferentes situações; interatividade; e habilidades com mãos e dedos;
O modelo é “intuitivamente interativo”, com capacidade para entender e responder a comandos formulados em linguagem cotidiana, conversacional e em diferentes idiomas;
“Em nosso relatório técnico, mostramos que, em média, a Gemini Robotics mais que dobra o desempenho em um benchmark de generalização abrangente em comparação com outros modelos de visão-linguagem-ação de última geração”, diz o comunicado;
Ele monitora, continuamente, seus arredores, detecta mudanças no ambiente e ajusta suas ações de acordo, o que, segundo o Google, pode “ajudar melhor as pessoas a colaborar com assistentes robôs em uma variedade de configurações, de casa ao local de trabalho”.

Captura de tela 2025 03 12 183307 1Milhao Internet — Testes foram realizados em três tipos diferentes de robôs (Imagem: Divulgação/Google)

A Gemini Robotics pode lidar com tarefas extremamente complexas e de várias etapas que exigem manipulação precisa, como dobrar origami ou embalar um lanche em um saco Ziploc.

Os treinamentos foram feitos na plataforma robótica de dois braços ALOHA 2 e, também, nos braços Franka, usados em laboratórios acadêmicos. Para personificações mais complexas, a empresa deve seguir como exemplo o robô humanoide Apollo, da Apptronik.

Leia mais:

IA cada vez mais inteligente

Já o Gemini Robotics-ER foi construído para focar no raciocínio espacial, executando todas as etapas necessárias para controlar um robô imediatamente, incluindo percepção, estimativa de estado, compreensão espacial, planejamento e geração de código.

Captura de tela 2025 03 12 183147 1Milhao Internet — Modelo aprende capacidades inteiramente novas no momento em que é provocado (Imagem: Divulgação/Google)

O modelo pode desenvolver capacidades inteiramente novas no mesmo momento em que é provocado. “Por exemplo, quando lhe é mostrada uma caneca de café, o modelo pode intuir uma pegada apropriada com dois dedos para pegá-la pela alça e uma trajetória segura para se aproximar dela”, explica a empresa.

A tecnologia se destacou em capacidades de raciocínio incorporado, incluindo detecção de objetos e apontar para partes deles, localização de pontos correspondentes e detecção de itens em 3D.