
A Google apresentou oficialmente o Gemini 2.5 Computer Use, um novo modelo de inteligência artificial capaz de interagir com sites e interfaces digitais como se fosse uma pessoa real. O lançamento marca um salto importante na automação de tarefas em navegadores, unindo visão computacional, raciocínio e controle de interface — tudo em tempo real.
O modelo já está disponível em prévia pública no Google AI Studio e no Vertex AI, permitindo que desenvolvedores testem e criem agentes com navegação autônoma e interação visual completa.
O que é o Gemini 2.5 Computer Use
O novo modelo é uma evolução direta do Gemini 2.5 Pro, com foco na compreensão visual e interação funcional com interfaces gráficas.
Em vez de usar apenas comandos de API, o Gemini 2.5 Computer Use interpreta capturas de tela (screenshots) de páginas e decide o que fazer visualmente, como:
- Clicar em botões
- Digitar textos em campos específicos
- Rolar páginas (scroll)
- Passar o mouse sobre elementos (hover)
- Abrir menus suspensos
- Navegar entre URLs e abas
Com isso, a IA pode literalmente “usar o computador” de forma parecida com um humano.
Como o modelo funciona
A lógica do Gemini 2.5 Computer Use é cíclica:
- O modelo recebe uma tarefa em linguagem natural (ex: “cadastre esse cliente no sistema”).
- Recebe também uma imagem da tela atual e o histórico das últimas ações.
- Ele então analisa visualmente a interface e gera uma ação concreta — por exemplo, clicar em um botão ou digitar algo.
- O sistema executa essa ação e envia uma nova captura de tela para o modelo.
- O ciclo se repete até a tarefa ser concluída.
Essa abordagem torna o agente independente de integrações diretas de API, o que significa que ele pode operar qualquer site ou sistema web, mesmo aqueles sem suporte oficial para automação.
Principais recursos e capacidades
- 13 tipos de ações compatíveis, incluindo clique, digitação, rolagem e seleção.
- Alta compatibilidade com navegadores, sendo o ambiente ideal para operação.
- Baixa latência e performance superior em benchmarks como:
- Online-Mind2Web
- WebVoyager
- AndroidWorld
- Aplicações práticas: testes de interface, automação de fluxos, integração entre plataformas e uso corporativo interno.
Nos testes apresentados pela Google, o modelo foi capaz de organizar notas em um quadro digital e transferir dados de pets de um site para um CRM, simulando um trabalho humano com precisão impressionante.
Medidas de segurança
A Google implementou várias camadas de proteção contra uso indevido:
- Cada ação é revisada por um serviço de segurança antes da execução.
- Desenvolvedores podem bloquear ações específicas ou exigir confirmação do usuário em tarefas sensíveis, como transações financeiras.
- Há monitoramento contínuo para evitar comportamentos automatizados de risco.
Essas medidas visam garantir que a IA automatize tarefas com responsabilidade e transparência, especialmente em ambientes corporativos.
Casos de uso dentro e fora da Google
O Gemini 2.5 Computer Use já está sendo usado internamente em equipes do Google, especialmente nas áreas de:
- Testes de interface (UI testing)
- Automação de fluxos em plataformas como Search e Firebase
- Assistentes internos para execução de tarefas repetitivas
Desenvolvedores externos também estão criando ferramentas de:
- Automação de sites e painéis administrativos
- Assistentes pessoais inteligentes
- Soluções de produtividade e análise visual de sistemas web
Como testar o Gemini 2.5 Computer Use
Os desenvolvedores podem experimentar o modelo de três maneiras:
- Google AI Studio – acesso via navegador, com ambiente de testes interativo.
- Vertex AI – integração com APIs empresariais e aplicações em nuvem.
- Browserbase – ambiente de demonstração pública para experimentos práticos de automação.
Impacto e o futuro da automação inteligente
O Gemini 2.5 Computer Use representa o início de uma nova fase para a automação visual.
Diferente dos antigos bots de RPA (Robotic Process Automation), o modelo da Google “enxerga” e “entende” a interface como um humano, o que elimina a dependência de scripts fixos ou APIs específicas.
Em breve, essa tecnologia poderá:
- Automatizar cadastros e relatórios empresariais.
- Realizar testes de software visualmente.
- Operar dashboards complexos com base apenas em comandos de texto.
- Criar assistentes corporativos inteligentes capazes de navegar por sistemas reais.
Conclusão
Com o Gemini 2.5 Computer Use, a Google dá um passo além no uso prático da inteligência artificial: um modelo que literalmente usa o computador como nós.
Capaz de clicar, rolar, digitar e decidir sozinho o que fazer em uma página, ele promete revolucionar o modo como IAs se integram à web e aos fluxos de trabalho.
