技能
邮件与工具 官方
Agent Browser — 代理浏览器
容器代理内置网页浏览功能。打开页面、填写表单、截取屏幕截图并提取数据。
功能特性
- 导航到任意 URL,前进/后退、刷新页面
- 获取页面快照,列出可交互元素及其可点击引用
- 填写表单、点击按钮、选择下拉菜单、上传文件
- 截取屏幕截图并将页面导出为 PDF
- 提取文本、HTML、属性和元素数量
- 保存和恢复会话间的身份验证状态
前置条件
- 已安装并运行 NanoClaw
安装
Built-in 工作原理
每个 NanoClaw 容器都内置了 agent-browser,这是一个基于 Playwright 构建的 CLI 工具,为代理提供完整的浏览器自动化能力。代理可以使用它浏览网页、与页面交互以及提取信息——无需显示服务器或图形界面。
核心工作流程很简单:导航到页面,获取快照查看页面内容,然后通过元素引用进行交互。快照会返回一棵无障碍树,其中每个可交互元素都有一个引用标识,如 @e1、@e2。代理通过引用来点击、填写和读取元素,页面变化后重新获取快照。
这是一项内置功能——无需安装技能,也无需任何配置。代理会根据任务需要自行决定何时使用浏览器。
代理能做什么
搜索和阅读。 代理可以打开 URL、读取页面内容并提取特定数据。它能够浏览多页结果、跟踪链接,并从任意元素中提取文本或属性。
表单交互。 代理可以填写输入框、勾选复选框、选择下拉选项并提交表单。它能处理多步骤流程,如登录页面、结账流程或多部分表单。
截图和 PDF。 代理可以截取整个页面或可见区域的屏幕截图,也可以将页面导出为 PDF。当用户需要保存网页内容的可视记录时非常实用。
身份验证。 代理可以登录网站并将会话状态保存到文件中。在后续运行时,它会加载已保存的状态并跳过登录流程。只要状态文件位于已挂载的目录中,即使容器重启也能正常工作。
限制
- 浏览器在容器内以无头模式运行,无法实时查看其界面。
- 具有严格反爬检测的网站(验证码、Cloudflare 挑战等)可能会阻止自动化访问。
- JavaScript 密集型的单页应用(SPA)可以正常工作,但代理可能需要等待导航后元素加载完成。
- 浏览器无法访问宿主机的浏览器配置文件、Cookie 或已保存的密码。
使用技巧
- 当任务需要浏览网页时,代理会主动使用浏览器——你不需要特别说”使用浏览器”。只需说”东京现在天气怎么样”或”填写那个页面上的表单”就够了。
- 对于需要登录的网站,代理可以保存身份验证状态并在之后复用。如果你经常使用某个网站,第一次会话完成登录后,后续会话就会自动跳过登录步骤。
- 截图保存在容器内部。如果你需要持久保存,请确保输出目录位于已挂载的路径中。