Google lança Gemini 2.5 Computer Use: a IA que navega na web como um humano

A Google apresentou oficialmente o Gemini 2.5 Computer Use, um novo modelo de inteligência artificial capaz de interagir com sites e interfaces digitais como se fosse uma pessoa real. O lançamento marca um salto importante na automação de tarefas em navegadores, unindo visão computacional, raciocínio e controle de interface — tudo em tempo real.

O modelo já está disponível em prévia pública no Google AI Studio e no Vertex AI, permitindo que desenvolvedores testem e criem agentes com navegação autônoma e interação visual completa.


O que é o Gemini 2.5 Computer Use

O novo modelo é uma evolução direta do Gemini 2.5 Pro, com foco na compreensão visual e interação funcional com interfaces gráficas.
Em vez de usar apenas comandos de API, o Gemini 2.5 Computer Use interpreta capturas de tela (screenshots) de páginas e decide o que fazer visualmente, como:

  • Clicar em botões
  • Digitar textos em campos específicos
  • Rolar páginas (scroll)
  • Passar o mouse sobre elementos (hover)
  • Abrir menus suspensos
  • Navegar entre URLs e abas

Com isso, a IA pode literalmente “usar o computador” de forma parecida com um humano.


Como o modelo funciona

A lógica do Gemini 2.5 Computer Use é cíclica:

  1. O modelo recebe uma tarefa em linguagem natural (ex: “cadastre esse cliente no sistema”).
  2. Recebe também uma imagem da tela atual e o histórico das últimas ações.
  3. Ele então analisa visualmente a interface e gera uma ação concreta — por exemplo, clicar em um botão ou digitar algo.
  4. O sistema executa essa ação e envia uma nova captura de tela para o modelo.
  5. O ciclo se repete até a tarefa ser concluída.

Essa abordagem torna o agente independente de integrações diretas de API, o que significa que ele pode operar qualquer site ou sistema web, mesmo aqueles sem suporte oficial para automação.


Principais recursos e capacidades

  • 13 tipos de ações compatíveis, incluindo clique, digitação, rolagem e seleção.
  • Alta compatibilidade com navegadores, sendo o ambiente ideal para operação.
  • Baixa latência e performance superior em benchmarks como:
    • Online-Mind2Web
    • WebVoyager
    • AndroidWorld
  • Aplicações práticas: testes de interface, automação de fluxos, integração entre plataformas e uso corporativo interno.

Nos testes apresentados pela Google, o modelo foi capaz de organizar notas em um quadro digital e transferir dados de pets de um site para um CRM, simulando um trabalho humano com precisão impressionante.


Medidas de segurança

A Google implementou várias camadas de proteção contra uso indevido:

  • Cada ação é revisada por um serviço de segurança antes da execução.
  • Desenvolvedores podem bloquear ações específicas ou exigir confirmação do usuário em tarefas sensíveis, como transações financeiras.
  • monitoramento contínuo para evitar comportamentos automatizados de risco.

Essas medidas visam garantir que a IA automatize tarefas com responsabilidade e transparência, especialmente em ambientes corporativos.


Casos de uso dentro e fora da Google

O Gemini 2.5 Computer Use já está sendo usado internamente em equipes do Google, especialmente nas áreas de:

  • Testes de interface (UI testing)
  • Automação de fluxos em plataformas como Search e Firebase
  • Assistentes internos para execução de tarefas repetitivas

Desenvolvedores externos também estão criando ferramentas de:

  • Automação de sites e painéis administrativos
  • Assistentes pessoais inteligentes
  • Soluções de produtividade e análise visual de sistemas web

Como testar o Gemini 2.5 Computer Use

Os desenvolvedores podem experimentar o modelo de três maneiras:

  1. Google AI Studio – acesso via navegador, com ambiente de testes interativo.
  2. Vertex AI – integração com APIs empresariais e aplicações em nuvem.
  3. Browserbase – ambiente de demonstração pública para experimentos práticos de automação.

Impacto e o futuro da automação inteligente

O Gemini 2.5 Computer Use representa o início de uma nova fase para a automação visual.
Diferente dos antigos bots de RPA (Robotic Process Automation), o modelo da Google “enxerga” e “entende” a interface como um humano, o que elimina a dependência de scripts fixos ou APIs específicas.

Em breve, essa tecnologia poderá:

  • Automatizar cadastros e relatórios empresariais.
  • Realizar testes de software visualmente.
  • Operar dashboards complexos com base apenas em comandos de texto.
  • Criar assistentes corporativos inteligentes capazes de navegar por sistemas reais.

Conclusão

Com o Gemini 2.5 Computer Use, a Google dá um passo além no uso prático da inteligência artificial: um modelo que literalmente usa o computador como nós.
Capaz de clicar, rolar, digitar e decidir sozinho o que fazer em uma página, ele promete revolucionar o modo como IAs se integram à web e aos fluxos de trabalho.

GRUPO DE PROMOÇÕES NO WHATSAPP E TELEGRAM

GRUPO DE PROMOÇÕES NO WHATSAPP E TELEGRAM

Google lança Gemini 2.5 Computer Use: a IA que navega na web como um humano
Google lança Gemini 2.5 Computer Use: a IA que navega na web como um humano

      Deixe um comentario

      Promotop
      Logo
      Criar nova conta