摘要：Google 开源了 Computer Use Preview 项目，让 Gemini 模型通过视觉识别接管浏览器自动化，得分远超同类 AI 工具。

谷歌又一强大工具开源，Selenium 慌了！

做过爬虫或者自动化测试的朋友，应该都体会过被 Selenium 和 Puppeteer 支配的恐惧。为了点一个按钮，我们得去扒网页源码，找 ID，找 Class。一旦网页改版，精心写好的脚本瞬间报错，维护起来既耗时又耗力。

如今，Google 把这个想法变成了现实。在 GitHub 上开源了一个名为 Computer Use Preview 的项目，直接让 Gemini 模型接管了浏览器。

01 核心原理：睁眼看世界

以前的自动化是“盲人摸象”，靠代码定位；现在的自动化是“睁眼看世界”，靠视觉识别。该工具模拟人的操作流程：截图 → 分析 → 行动。

它会先给网页截个图，通过 Gemini 2.5 Pro 模型强大的视觉能力，分析出页面上有哪些输入框、按钮和下拉菜单，然后决定下一步该干什么。

02 性能表现：傲视群雄

在官方给出的网页任务完成测试里，Gemini 拿到了 69% 的高分，直接超过了 Claude Sonnet 4.5 的 55% 和 OpenAI Operator 的 61.3%。

03 实用场景

跨网站数据搬运：以前得写复杂脚本处理数据接口，现在直接告诉 AI：“把这上面的宠物信息填到那个系统里”，它就能自己切换页面，复制粘贴。
复杂视觉交互：能够精准识别网页上的各种便签内容，并进行拖拽分类。这种涉及到空间理解的任务，传统脚本很难搞定。

04 如何体验

开发者模式（本地部署）

# 1. 创建虚拟环境
python3 -m venv .venv
source .venv/bin/activate

# 2. 安装依赖和浏览器内核
pip install -r requirements.txt
playwright install chrome

# 3. 开始运行
python main.py --query "去 Google 搜索一下 GitHubDaily"

提醒：目前是 Preview（预览版），存在一些已知限制，如某些系统上抓取不到原生下拉菜单（<select> 元素）。

GitHub 项目地址：https://github.com/google-gemini/computer-use-preview

本文内容整理自微信公众号“逛逛 GitHub”。