5个支持自动执行浏览器任务的AI工具

5个支持自动执行浏览器任务的AI工具

人工智能改变了我们与网络交互的方式,例如我们处理某些浏览器任务的方式。从数据提取和表单提交到工作流自动化,人工智能工具可以轻松处理这些流程。

因此,您无需手动点击页面或复制信息,就可以使用这些工具自动执行这些任务,从而节省时间并简化工作流程。

在本文中,我们精选并测试了一些目前可用的浏览器自动化工具。如果您是开发人员、研究人员或商务人士,我相信您会喜欢这些工具,因为它们可以帮助您提高工作效率。

1. BrowserUse

BrowserUse 是一款开源工具,旨在使 AI 代理能够与 Web 浏览器交互。这使得 AI 代理能够在浏览器环境中执行任务,例如浏览网站、提取信息以及与 Web 应用交互。

BrowserUse

它支持多种模型,包括 OpenAIAntrhopicGeminiDeepSeek 甚至 Ollama

您可以使用它执行各种任务,包括网页抓取、购物、求职、发送电子邮件、保存文件等等。由于它由 Playwright 提供支持,因此它与 Playwright 支持的所有浏览器兼容,包括 Chromium、Firefox 和 Safari。

BrowserUse 在其代码库中提供了许多示例和用例,您可以从中学习或汲取灵感。以下是它如何为您求职的示例。

5个支持自动执行浏览器任务的AI工具插图2

优点

  • 支持多种 AI 模型,包括 Ollama。
  • 与 Playwright 支持的所有浏览器兼容。

缺点

  • 需要 Python 和其他一些技术知识才能设置和使用

2. Stagehand

Stagehand 是一个基于人工智能的网页浏览框架,旨在简化和改进浏览器自动化任务。

Stagehand

它允许您更高效地将自然语言指令转换为无头浏览器操作。这不仅降低了传统浏览器自动化的复杂性,还可以加快您的开发工作流程。

Stagehand 也与 Playwright 协同运行。但它的不同之处在于,它提供了易于理解的 JavaScript API,使其更容易与您现有的基于 JavaScript 的项目集成。

您可以使用它来自动化各种任务,从网页抓取到测试和监控。体验它的易用性。

优点

  • 使用 NPX 软件包轻松安装
  • 易于使用的 JavaScript API
  • 支持各种浏览器自动化任务

缺点

  • 仅支持 OpenAI 和 Anthropic AI 模型

3. Skyvern

Skyvern 是一款利用 LLM 和计算机视觉技术跨多种浏览器自动化工作流程的工具。

Skyvern

它配备了多个 AI 代理,旨在处理不同的任务:

  • 双重身份验证代理,能够处理双因素身份验证;
  • 自动完成代理,能够使用动态自动完成功能填写表单;
  • 数据提取代理,能够提取网站上的信息,例如文本和表格,并将其组织成适当的格式;
  • 可交互元素代理,能够解析 HTML 以识别可交互的元素,例如按钮、链接和输入字段;
  • 密码代理,能够管理用户名和密码等敏感输入。

它结合了提示符、计算机视觉和这些智能代理,能够实时分析网页并与之交互。这使得它能够通过将视觉元素映射到给定工作流程所需的操作,在从未见过的网站上导航和自动执行任务,而无需自定义代码。

它支持多种 AI 模型,包括 OpenAI、Anthropic、AWS Bedrock,并且很快还将支持 Ollama 和 Gemini。

优点

  • 这是一款先进的工具,配备反机器人检测机制、代理网络和 CAPTCHA 验证,可帮助您完成更复杂的工作流程。
  • 支持各种不同的 AI 模型。
  • 提供用户友好的界面来创建和管理自动化工作流程。
  • 底层由 Playwright 提供支持,可与 Chrome、Firefox 和 Safari 等不同浏览器兼容。

缺点

  • 需要一定的技术知识才能在自托管设置中使用。

4. Shortest

Shortest 是一个开源的、由人工智能驱动的测试框架,它允许您使用简单的英语指令编写端到端测试。

Shortest

这使您能够专注于描述测试场景,而 Shortest 负责处理实现细节。例如,使用 Shortest 函数,您可以指定诸如使用用户名和密码登录应用程序之类的操作。

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
import { shortest } from '@antiwork/shortest'
shortest('Login to the app using email and password', {
username: process.env.GITHUB_USERNAME,
password: process.env.GITHUB_PASSWORD
})
import { shortest } from '@antiwork/shortest' shortest('Login to the app using email and password', { username: process.env.GITHUB_USERNAME, password: process.env.GITHUB_PASSWORD })
import { shortest } from '@antiwork/shortest'

shortest('Login to the app using email and password', {
    username: process.env.GITHUB_USERNAME,
    password: process.env.GITHUB_PASSWORD
})

它基于 Playwright 构建,并提供与 GitHub 的无缝集成,以实现持续集成和部署工作流。

查看下面的实际工作原理。

5个支持自动执行浏览器任务的AI工具插图2

优点

  • 专为端到端测试而设计
  • 提供 JavaScript API
  • 无缝集成 Github 和 Playwright,如果您已经在使用这些工具,可以更轻松地上手。

缺点

  • 它仅设计用于自动化端到端测试。如果您希望自动化其他浏览器任务,可能需要考虑其他工具。

5. Automa

Automa 是一款免费的开源浏览器扩展程序,旨在自动执行各种 Web 任务,例如自动填写表单、截取屏幕截图、从网站抓取数据以及下载资源。

Automa

自动执行浏览器任务非常简单。

它提供了一个用户友好的低代码界面,允许您通过连接不同的块来创建自动化工作流。它还具有工作流记录功能,可以自动捕获您的操作,并且市场提供了许多共享工作流,您可以根据自己的需求添加和自定义它们。

虽然它本身并非 AI 驱动的工具,但其易用性使其成为热门选择。它还提供了一个自定义块,您可以在其中放置自己的函数,以便与 OpenAI、Claude 或 DeepSeek 等 AI 服务集成。

它适用于 ChromeFirefox 浏览器,您可以直接从各自的扩展程序商店安装。

优点

  • 以浏览器扩展程序形式提供,安装非常简单。
  • 提供用户友好的界面,方便创建自动化工作流程
  • 支持自定义模块,方便与外部 AI 服务集成

缺点

  • 由于它本身并非 AI 驱动的工具,因此可能不如列表中的其他工具先进

小结

人工智能工具可以帮助您自动化浏览器任务,节省时间并简化工作流程。在本文中,我们精选了一些目前市面上最好的免费开源人工智能工具。

不妨尝试一下,看看它们如何帮助您提高工作效率。

评论留言