技能
邮件与工具 官方

Agent Browser — 代理浏览器

容器代理内置网页浏览功能。打开页面、填写表单、截取屏幕截图并提取数据。

功能特性

  • 导航到任意 URL,前进/后退、刷新页面
  • 获取页面快照,列出可交互元素及其可点击引用
  • 填写表单、点击按钮、选择下拉菜单、上传文件
  • 截取屏幕截图并将页面导出为 PDF
  • 提取文本、HTML、属性和元素数量
  • 保存和恢复会话间的身份验证状态

前置条件

  • 已安装并运行 NanoClaw

安装

Built-in

工作原理

每个 NanoClaw 容器都内置了 agent-browser,这是一个基于 Playwright 构建的 CLI 工具,为代理提供完整的浏览器自动化能力。代理可以使用它浏览网页、与页面交互以及提取信息——无需显示服务器或图形界面。

核心工作流程很简单:导航到页面,获取快照查看页面内容,然后通过元素引用进行交互。快照会返回一棵无障碍树,其中每个可交互元素都有一个引用标识,如 @e1@e2。代理通过引用来点击、填写和读取元素,页面变化后重新获取快照。

这是一项内置功能——无需安装技能,也无需任何配置。代理会根据任务需要自行决定何时使用浏览器。

代理能做什么

搜索和阅读。 代理可以打开 URL、读取页面内容并提取特定数据。它能够浏览多页结果、跟踪链接,并从任意元素中提取文本或属性。

表单交互。 代理可以填写输入框、勾选复选框、选择下拉选项并提交表单。它能处理多步骤流程,如登录页面、结账流程或多部分表单。

截图和 PDF。 代理可以截取整个页面或可见区域的屏幕截图,也可以将页面导出为 PDF。当用户需要保存网页内容的可视记录时非常实用。

身份验证。 代理可以登录网站并将会话状态保存到文件中。在后续运行时,它会加载已保存的状态并跳过登录流程。只要状态文件位于已挂载的目录中,即使容器重启也能正常工作。

限制

  • 浏览器在容器内以无头模式运行,无法实时查看其界面。
  • 具有严格反爬检测的网站(验证码、Cloudflare 挑战等)可能会阻止自动化访问。
  • JavaScript 密集型的单页应用(SPA)可以正常工作,但代理可能需要等待导航后元素加载完成。
  • 浏览器无法访问宿主机的浏览器配置文件、Cookie 或已保存的密码。

使用技巧

  • 当任务需要浏览网页时,代理会主动使用浏览器——你不需要特别说”使用浏览器”。只需说”东京现在天气怎么样”或”填写那个页面上的表单”就够了。
  • 对于需要登录的网站,代理可以保存身份验证状态并在之后复用。如果你经常使用某个网站,第一次会话完成登录后,后续会话就会自动跳过登录步骤。
  • 截图保存在容器内部。如果你需要持久保存,请确保输出目录位于已挂载的路径中。