Vercel 重磅发布 agent-browser:AI Agent 浏览器自动化的新纪元来了

Vercel 重磅发布 agent-browser:AI Agent 浏�览器自动化的新纪元来了

前几天 Vercel Labs 整了个大活,发布了专门给 AI Agent 用的无头浏览器自动化工具 agent-browser。这玩意儿据说比现在流行的 PlaywrightMCP 能减少高达 93% 的上下文信息消耗,简直不要太巴适!🎉

🔗 Claude Code 国内代理链接
通过此链接注册使用,可以送 20 美金抵扣券直接可用,这波羊毛必须薅!

说实话,现在 AI Agent 玩浏览器自动化都快成标配了。不管是搞爬虫、做测试,还是让 Agent 帮你自动操作网页,都离不开浏览器自动化工具。但是传统的 Playwright、Puppeteer 那一套,对 AI 来说确实有点儿"水土不服"——上下文太长、元素定位太脆弱、输出也不够结构化。agent-browser 就是专门来治这些痛点的,咱们今天就来好好摆一哈这个新玩具。

产品介绍:专门为 AI 量身打造的浏览器工具

agent-browser 是一个基于 Rust 的 CLI 工具,后面跟着一个 Node.js 守护进程来管理浏览器实例。这个架构设计得挺巧妙:Rust 负责快速解析命令和通信,Node.js 负责管理 Playwright 浏览器。要是 Rust 二进制文件用不了,它还能自动降级到纯 Node.js 模式,兼容性杠杠的。

它最核心的特点就是对 LLM 友好。咱们来看看它都解决了哪些问题:

1. 稳定的元素引用系统

这是 agent-browser 最大的杀手锏。传统方式用 CSS 选择器定位元素(比如#submit),但这玩意儿太脆弱了——前端随便改个 class 名字,你的脚本就废了。agent-browser 用了一套类似快照+引用的机制:

# 先获取页面快照,会返回带引用的结构化数据agent-browser snapshot# 输出:# - heading "登录" [ref=e1] [level=1]# - textbox "邮箱" [ref=e3]# - button "提交" [ref=e2]# 然后用稳定的引用来操作agent-browser click @e2# 点击提交按钮agent-browser fill @e3"test@example.com"# 填写邮箱

这个@e2引用是从快照中直接拿到的,不管页面怎么变,只要快照对了,引用就不会错。这比 CSS 选择器靠谱多了!

2. 结构化的 JSON 输出

agent-browser 的所有命令都支持--json参数,输出标准化的 JSON:

{"success":true,"data":{"snapshot":"...","refs":{"e1":{"role":"heading","name":"登录"},"e2":{"role":"button","name":"提交"}}}}

AI 解析这种格式的数据简直不要太轻松,比让它去读一堆 HTML 代码强了不知道多少倍。

3. 语义化定位器

除了引用系统,它还支持各种语义化的定位方式:

# 按 ARIA 角色定位agent-browserfindrole button click --name"提交"# 按文本内容定位agent-browserfindtext"登录"click# 按标签定位agent-browserfindlabel"邮箱"fill"test@test.com"# 当然也支持传统 CSS 选择器agent-browser click"#submit"

这些定位器组合起来用,基本上没有找不着的元素。

产品横向对比:agent-browser vs PlaywrightMCP

咱们来对比一下这两个工具,看看 agent-browser 到底强在哪里:

特性agent-browserPlaywrightMCP
架构Rust CLI + Node.js Daemon纯 TypeScript/Node.js
上下文消耗基准(减少 93%)高(需要完整 DOM 树)
元素定位稳定引用系统CSS 选择器为主
输出格式原生支持 JSON需要 MCP 协议转换
启动速度极快(Rust 二进制)较慢(Node.js 启动)
平台支持跨平台 + Serverless 友好主要依赖 Node.js 环境
会话隔离原生支持多会话需要额外配置
AI 友好度专门为 Agent 设计通用工具

上下文减少 93% 是咋做到的?

这主要是因为 agent-browser 做了几个优化:

  1. 智能快照过滤:可以只抓取交互元素(-i参数),去掉那些没用的 div 块
  2. 深度限制:限制快照的深度(-d 3只抓前 3 层),去掉深层嵌套
  3. 紧凑模式:去掉空的结构元素(-c参数),只保留有内容的部分
  4. 作用域限定:只在特定区域内抓取(-s "#main"),忽略页面其他部分
# 这条命令会生成一个非常精简的快照agent-browser snapshot -i -c -d3-s"#main"--json

这些优化组合起来,上下文自然就小多了。

安装和部署

安装这个工具简单得很,几条命令就搞定了:

通过 npm 安装(推荐)

npminstall-g agent-browser agent-browserinstall# 下载 Chromium 浏览器

从源码编译

如果你想自己编译一把,也可以:

gitclone https://github.com/vercel-labs/agent-browsercdagent-browserpnpminstallpnpmbuildpnpmbuild:native# 需要先安装 Rust (https://rustup.rs)pnpmlink--global# 全局可用agent-browserinstall

Linux 系统依赖

Linux 用户可能需要额外安装一些系统依赖:

agent-browserinstall--with-deps# 或者手动安装:npx playwright install-deps chromium

快速上手示例

咱们来看一个完整的例子,模拟用户登录流程:

# 1. 打开网页agent-browseropenhttps://example.com/login# 2. 获取页面结构快照agent-browser snapshot -i --json# 3. 填写表单(使用从快照中获取的引用)agent-browser fill @e3"user@example.com"agent-browser fill @e4"password123"# 4. 提交表单agent-browser click @e5# 5. 等待跳转完成agent-browserwait--text"欢迎"# 6. 截图保存agent-browser screenshot login-success.png# 7. 关闭浏览器agent-browser close

高级功能

agent-browser 还有很多高级功能,简单给大伙儿介绍一下:

多会话管理

可以同时跑多个隔离的浏览器实例,互不干扰:

agent-browser --session agent1opensite-a.com agent-browser --session agent2opensite-b.com# 查看活动会话agent-browser session list

网络拦截和 Mock

# 拦截特定请求agent-browser network route"**/api/**"--abort# Mock API 响应agent-browser network route"**/api/user"--body'{"name":"测试用户"}'

认证头管理

跳过登录流程,直接用 token 访问:

agent-browseropenapi.example.com --headers'{ "Authorization": "Bearer <token>" }'

Serverless 部署

支持轻量级 Chromium 构建,适合部署在 Vercel/AWS Lambda 上:

importchromiumfrom'@sparticuz/chromium';import{BrowserManager}from'agent-browser';exportasyncfunctionhandler(){constbrowser=newBrowserManager();awaitbrowser.launch({executablePath:awaitchromium.executablePath(),headless:true,});}

总结

agent-browser 是一个很聪明的产品。它没有重新发明轮子,而是站在 Playwright 的肩膀上,针对 AI Agent 的使用场景做了专门的优化。稳定的引用系统、精简的上下文输出、友好的 JSON 接口,这些都让 AI 操作浏览器变得更加可靠和高效。

如果你在做 AI Agent 相关的开发,或者想让 Claude/GPT 帮你自动化操作网页,这个工具绝对值得一试。毕竟减少 93% 的上下文不是开玩笑的,这意味着更快的响应速度、更低的成本、更稳定的运行。

项目现在还在活跃开发中(才发布几天就已经快 5000 star 了),虽然还有一些 bug,但潜力巨大。感兴趣的兄弟伙可以去 GitHub 上看看,顺便点个 star 支持一下!

GitHub 地址:https://github.com/vercel-labs/agent-browser

好啦,今天的分享就到这里。有什么问题欢迎在评论区交流,咱们一起摆摆技术龙门阵!🚀

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1164515.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

人工智能下游应用端产业链梳理与投资逻辑分析【20260115】

文章目录 人工智能下游应用端产业链梳理与投资逻辑分析 一、 自研大模型企业:掌握核心技术,构筑竞争壁垒 二、 绑定头部大厂的相关个股:借势生态,快速落地 2.1 绑定智谱AI:核心大模型生态伙伴 2.2 绑定字节跳动:流量与技术双轮驱动 2.3 绑定阿里:电商与企业服务生态核心…

京东价格API:历史价格趋势分析与定价参考技术实现

本文介绍如何通过京东开放平台API获取商品历史价格数据&#xff0c;并基于时间序列分析构建定价参考模型。以下为完整技术方案&#xff1a;一、API接入准备认证流程开发者需注册京东宙斯账号&#xff0c;申请price_histroy接口权限&#xff0c;获取app_key和app_secret。请求头…

python+Java的网盘程序升级版。无感知备份文档,保护数据资产利器。

之前的版本&#xff0c;经过使用中测试&#xff0c;发现让普通使用者设置备份路径&#xff0c;可能有点难度。特增加了默认设置&#xff0c;直接读取电脑所有盘符&#xff0c;监控所有文件的创建和修改记录&#xff0c;实时备份。还增加了特殊路径忽略配置&#xff0c;因为有些…

人工智能-AI下游应用端核心赛道(教育/医疗/金融)个股对比表【20260115】

文章目录 AI下游应用端核心赛道(教育/医疗/金融)个股对比表 一、AI+教育赛道:因材施教,政策驱动规模化落地 二、AI+医疗赛道:效率革命,刚需驱动商业化加速 三、AI+金融赛道:风控为王,技术驱动效率提升 四、三大赛道核心投资逻辑与筛选指南 总结 AI下游应用端核心赛道(…

红外图像水管管道破裂漏水检测数据集VOC+YOLO格式93张1类别

数据集格式&#xff1a;Pascal VOC格式YOLO格式(不包含分割路径的txt文件&#xff0c;仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)&#xff1a;93标注数量(xml文件个数)&#xff1a;93标注数量(txt文件个数)&#xff1a;93标注类别数&…

无人机航拍黑匣子目标检测数据集_91张高清图像_907个精确标注_适用于计算机视觉模型训练与评估

无人机航拍黑匣子目标检测数据集分析报告 引言与背景 随着计算机视觉技术的快速发展&#xff0c;目标检测在各个领域的应用日益广泛&#xff0c;特别是在航拍图像分析方面具有重要价值。无人机航拍视角独特&#xff0c;能够从高空俯瞰地面场景&#xff0c;为目标监测、资源调…

sward快速上手教程,从安装到入门

sward&#xff0c;一款国产开源的知识管理工具&#xff0c;包含知识库管理、文档管理、文档审批、文档共享等模块&#xff0c;支持富文本文档、markdown等格式&#xff0c;产品简洁易用、开源免费&#xff0c;本文将介绍如何安装及快速入门。 1、安装 sward支持多系统安装&am…

演示开挂!宏智树 AI AIPPT 功能让学术办公 PPT 一键封神

作为深耕论文写作科普的教育博主&#xff0c;后台总能刷到这样的求助&#xff1a;“开题报告 PPT 逻辑乱成麻&#xff0c;被导师批得一无是处”“论文答辩 PPT 数据堆砌&#xff0c;评委全程皱眉头”“工作汇报 PPT 设计土气&#xff0c;汇报效果大打折扣”。制作一份优质 PPT&…

Python深拷贝与浅拷贝数据讲解:理解对象复制的核心机制

在Python编程中&#xff0c;对象复制是一个常见但容易出错的操作。许多开发者在处理可变对象&#xff08;如列表、字典&#xff09;时&#xff0c;常常会遇到"修改副本却影响了原对象"的困惑。这背后正是深拷贝和浅拷贝机制在起作用。本文将系统讲解这两种拷贝方式的…

科普课堂|宏智树 AI:手把手带教,毕业论文写作通关秘籍

作为深耕论文写作科普的教育博主&#xff0c;后台每天都被毕业生的求助填满&#xff1a;“选题太宽泛&#xff0c;导师说没研究价值怎么办&#xff1f;”“文献看了上百篇&#xff0c;综述还是写成了流水账&#xff1f;”“数据堆了一堆&#xff0c;不知道怎么分析才够硬核&…

AI提示词(Prompt)入门:什么是Prompt?为什么要写好Prompt?

AI提示词&#xff08;Prompt&#xff09;入门&#xff1a;什么是Prompt&#xff1f;为什么要写好Prompt&#xff1f; 在AI技术飞速迭代的今天&#xff0c;大语言模型已成为工作生活中的常用工具——写方案、改文案、查资料、做分析&#xff0c;只需输入一段文字&#xff0c;AI就…

Qt 小技巧:如何用 Q_PROPERTY 管理属性

在 Qt 开发中&#xff0c;属性是对象的重要组成部分。尤其是在与 UI 交互时&#xff0c;如何高效、清晰地管理属性就显得尤为重要。今天&#xff0c;我们将深入探讨 Qt 中的 Q_PROPERTY 宏&#xff0c;它是如何帮助我们简化属性的声明、管理与使用的。如果你曾经在 Qt 中编写过…

kanass实践教程 - 如何使用kanass高效的管理项目

kanass是一款简洁易用的项目管理工具&#xff0c;它为项目经理管理项目提供了更丰富、更简单的管理方式&#xff0c;本篇文章主要介绍项目经理如何通过kanass来管理项目。1、创建项目点击项目->添加项目->选择项目模板系统提供多种项目模版&#xff0c;如敏捷式项目、瀑布…

Java毕设项目:基于SpringBoot+vue的社区旧衣物回收与捐赠系统设计与实现基于SpringBoot的社区旧衣物回收与捐赠系统设计与实现(源码+文档,讲解、调试运行,定制等)

博主介绍&#xff1a;✌️码农一枚 &#xff0c;专注于大学生项目实战开发、讲解和毕业&#x1f6a2;文撰写修改等。全栈领域优质创作者&#xff0c;博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围&#xff1a;&am…

2026年节假日表SQL

2025节假日表 drop TABLE calendar_holiday; CREATE TABLE calendar_holiday (date DATE PRIMARY KEY,year INT NOT NULL,month INT NOT NULL,day INT NOT NULL,weekday_name VARCHAR(10) NOT NULL, -- 星期一 ~ 星期日is_weekend TINYINT DEFAULT 0, -- 是否为周末 (0:否…

灵魂拷问:你写的测试代码比AI生成的更优雅吗?

优雅测试代码的定义与行业背景 在软件测试领域&#xff0c;“优雅”的测试代码不仅关乎功能正确性&#xff0c;更强调可读性、简洁性、可维护性和高效性——它像一首精炼的诗&#xff0c;让后续维护者一目了然。随着AI工具&#xff08;如GitHub Copilot、Testim&#xff09;的…

基于深度学习的安全帽检测系统(YOLOv8+YOLO数据集+UI界面+Python项目+模型)

一、项目介绍 摘要 本项目基于YOLOv8&#xff08;You Only Look Once v8&#xff09;目标检测算法&#xff0c;开发了一套高效、精准的安全帽佩戴检测系统&#xff0c;主要用于监控建筑工地、工厂、电力设施等高危作业环境&#xff0c;确保工作人员正确佩戴安全帽&#xff0c…

基于深度学习的水果检测系统(YOLOv8+YOLO数据集+UI界面+Python项目+模型)

一、项目介绍 摘要 本项目基于YOLOv8&#xff08;You Only Look Once version 8&#xff09;深度学习目标检测算法&#xff0c;开发了一套高效精准的水果自动检测与识别系统。系统能够智能识别6类常见水果&#xff1a;苹果&#xff08;Apple&#xff09;、香蕉&#xff08;Ba…

开题报告通关秘籍!宏智树 AI 教你三步搞定学术蓝图

作为深耕论文写作科普的教育博主&#xff0c;后台每天都被 “开题报告改了 N 遍还被毙” 的求助淹没。选题太泛没焦点、文献综述像流水账、技术路线混乱不清…… 这些问题堪称学术萌新的 “开题噩梦”。其实&#xff0c;一份合格的开题报告&#xff0c;本质是向导师证明 “你的…

软考-系统架构师-未来信息综合技术(二)

四、机器人技术 4.1、机器人的定义与构成 4.1.1、定义条件 具有如下3个条件的机器可以称为机器人&#xff1a; 1&#xff09;具有脑、手、脚等三要素的个体&#xff1b; 2&#xff09;具有非接触传感器&#xff08;用眼、耳接收远方信息&#xff09;和接触传感器&#xff1b; 3…