Google lança Gemini 2.5 Computer Use: a IA que navega na web como um humano

8 de outubro de 2025

Índice

A Google apresentou oficialmente o Gemini 2.5 Computer Use, um novo modelo de inteligência artificial capaz de interagir com sites e interfaces digitais como se fosse uma pessoa real. O lançamento marca um salto importante na automação de tarefas em navegadores, unindo visão computacional, raciocínio e controle de interface — tudo em tempo real.

O modelo já está disponível em prévia pública no Google AI Studio e no Vertex AI, permitindo que desenvolvedores testem e criem agentes com navegação autônoma e interação visual completa.

O que é o Gemini 2.5 Computer Use

O novo modelo é uma evolução direta do Gemini 2.5 Pro, com foco na compreensão visual e interação funcional com interfaces gráficas.
Em vez de usar apenas comandos de API, o Gemini 2.5 Computer Use interpreta capturas de tela (screenshots) de páginas e decide o que fazer visualmente, como:

Clicar em botões
Digitar textos em campos específicos
Rolar páginas (scroll)
Passar o mouse sobre elementos (hover)
Abrir menus suspensos
Navegar entre URLs e abas

Com isso, a IA pode literalmente “usar o computador” de forma parecida com um humano.

Como o modelo funciona

A lógica do Gemini 2.5 Computer Use é cíclica:

O modelo recebe uma tarefa em linguagem natural (ex: “cadastre esse cliente no sistema”).
Recebe também uma imagem da tela atual e o histórico das últimas ações.
Ele então analisa visualmente a interface e gera uma ação concreta — por exemplo, clicar em um botão ou digitar algo.
O sistema executa essa ação e envia uma nova captura de tela para o modelo.
O ciclo se repete até a tarefa ser concluída.

Essa abordagem torna o agente independente de integrações diretas de API, o que significa que ele pode operar qualquer site ou sistema web, mesmo aqueles sem suporte oficial para automação.

Principais recursos e capacidades

13 tipos de ações compatíveis, incluindo clique, digitação, rolagem e seleção.
Alta compatibilidade com navegadores, sendo o ambiente ideal para operação.
Baixa latência e performance superior em benchmarks como:
- Online-Mind2Web
- WebVoyager
- AndroidWorld
Aplicações práticas: testes de interface, automação de fluxos, integração entre plataformas e uso corporativo interno.

Nos testes apresentados pela Google, o modelo foi capaz de organizar notas em um quadro digital e transferir dados de pets de um site para um CRM, simulando um trabalho humano com precisão impressionante.

Medidas de segurança

A Google implementou várias camadas de proteção contra uso indevido:

Cada ação é revisada por um serviço de segurança antes da execução.
Desenvolvedores podem bloquear ações específicas ou exigir confirmação do usuário em tarefas sensíveis, como transações financeiras.
Há monitoramento contínuo para evitar comportamentos automatizados de risco.

Essas medidas visam garantir que a IA automatize tarefas com responsabilidade e transparência, especialmente em ambientes corporativos.

Casos de uso dentro e fora da Google

O Gemini 2.5 Computer Use já está sendo usado internamente em equipes do Google, especialmente nas áreas de:

Testes de interface (UI testing)
Automação de fluxos em plataformas como Search e Firebase
Assistentes internos para execução de tarefas repetitivas

Desenvolvedores externos também estão criando ferramentas de:

Automação de sites e painéis administrativos
Assistentes pessoais inteligentes
Soluções de produtividade e análise visual de sistemas web

Como testar o Gemini 2.5 Computer Use

Os desenvolvedores podem experimentar o modelo de três maneiras:

Google AI Studio – acesso via navegador, com ambiente de testes interativo.
Vertex AI – integração com APIs empresariais e aplicações em nuvem.
Browserbase – ambiente de demonstração pública para experimentos práticos de automação.

Impacto e o futuro da automação inteligente

O Gemini 2.5 Computer Use representa o início de uma nova fase para a automação visual.
Diferente dos antigos bots de RPA (Robotic Process Automation), o modelo da Google “enxerga” e “entende” a interface como um humano, o que elimina a dependência de scripts fixos ou APIs específicas.

Em breve, essa tecnologia poderá:

Automatizar cadastros e relatórios empresariais.
Realizar testes de software visualmente.
Operar dashboards complexos com base apenas em comandos de texto.
Criar assistentes corporativos inteligentes capazes de navegar por sistemas reais.

Conclusão

Com o Gemini 2.5 Computer Use, a Google dá um passo além no uso prático da inteligência artificial: um modelo que literalmente usa o computador como nós.
Capaz de clicar, rolar, digitar e decidir sozinho o que fazer em uma página, ele promete revolucionar o modo como IAs se integram à web e aos fluxos de trabalho.

GRUPO DE PROMOÇÕES NO WHATSAPP E TELEGRAM