通过自动化任务,自主代理让我们的生活变得更轻松,同时也改变了我们与技术的交互方式。去年,OpenAI 通过推出预定任务和操作员代理,为人工智能聊天机器人带来了代理功能,而 Anthropic 也通过在 Claude 上使用计算机实现了同样的功能。现在,中国通过 Manus AI 进入了自主人工智能代理的世界,与美国同行展开正面竞争。这种新型代理聊天机器人可以利用实时数据检索、多步骤推理和 API 集成,通过简单的提示执行复杂的任务,而无需人工监督。在 Manus AI 与 Operator 的对比中,我们将探讨中国有史以来第一个人工智能代理的功能,并将其性能与 OpenAI 在 ChatGPT 上的代理进行比较。
什么是 Manus AI?
Manus AI 是中国自主研发的人工智能聊天机器人,可以在云端异步完成端到端的任务。与 Grok 和 ChatGPT 等其他聊天机器人不同,Manus 不仅能回答问题、生成内容和提供想法,还能做更多事情。它可以搜索网络、进行分析、编写完整的代码块,并自始至终独立运行任务。
它就像一个多代理系统,由计算机用户代理、网络搜索代理、数据分析代理以及更多其他代理组成。利用这些代理工具,聊天机器人可以编写自己的代码,在自己的沙盒中执行代码,并在没有任何人工干预的情况下提供最终结果。也就是说,你可以给它分配任务,关上笔记本电脑,等待任务完成后的通知。
它已经在 Upwork 和 Fiverr 等自由职业平台上自主完成任务,甚至还参加了 Kaggle 竞赛,展示了它的各种能力。虽然有些用户称它为“通用的 Devin AI”,但总的来说,Manus AI 集深度研究、操作员、代码执行和 MCP(模型上下文协议)于一身!
Manus AI 与现有自主代理的对比
Manus AI 的界面类似于 OpenAI 的 ChatGPT 和 Anthropic 的 Claude 3.7,它能在屏幕上实时显示思维过程,并提供分屏打开回复的选项。此外,它还提供了在独立文件夹中访问所有相关文件的权限,与 Claude 的人工智能类似。
尽管如此,Manus AI 似乎比其他现有的代理工具更加智能。原因如下
- 避免多余任务:它能识别重复的内容或以前完成的任务,避免不必要的重复。
- 适应新指令:用户可以在它工作时修改指令,而 Manus AI 会立即根据新的准则进行调整。
- 更快的响应时间:与其他人工智能模型相比,Manus AI 处理任务的速度更快。
什么是ChatGPT Operator?
Operator 是 OpenAI 的一个人工智能代理,通过 ChatGPT 界面与网页浏览器交互,自主执行任务。它能与按钮、菜单和文本字段等网页元素进行交互,执行填写表格、在线下单和预约等任务。
该功能目前只面向美国和英国的 ChatGPT 专业版用户,旨在实现重复性在线任务的自动化。虽然它可以独立运行,但会提示用户确认特定操作,尤其是涉及登录凭据或付款等敏感信息的操作。
Manus AI与OpenAI Operator:功能比较
功能 | Manus AI | OpenAI Operator |
自主任务执行 | 通过将复杂任务分解为可执行步骤,能够自主规划和执行复杂任务,直接交付完整结果。 | 设计用于自主浏览网页浏览器,以执行在线购物、预约和填写表格等任务。 |
工具集成 | 在沙盒环境中集成各种工具,包括浏览器、代码编辑器和应用程序接口,以实现任务自动化。 | 在网页浏览器中运行,与按钮和文本字段等网页元素交互,以执行任务。 |
多模态支持 | 支持多模式输入和输出,包括文本、图像等,以处理不同格式的复杂任务。 | 主要侧重于通过浏览器交互自动执行基于网络的任务。 |
性能 | 在 GAIA 基准测试中取得了优异的性能,单任务成本约为 2 美元,大大低于同类服务。 | 目前处于研究预览阶段,将根据用户反馈不断开发和完善。 |
可用性 | 处于测试阶段,只能通过邀请码访问。感兴趣的用户可通过官方网站申请测试版访问权限。 | 作为研究预览版提供给美国和英国的 ChatGPT Pro 用户,并计划逐步扩大访问范围。 |
Manus AI与OpenAI Operator:性能比较
既然我们已经熟悉了 Manus AI 和 OpenAI Operator 的功能,那就让我们来试试这些功能,看看这两种模式的性能如何。在 Manus AI 与 OpenAI Operator 对比的这一部分,我们将在两个模型上测试三种不同的提示,并比较它们的响应。以下是我们要测试的 3 个任务:
- 构建一个游戏
- 设计一个房间
- 创建一个网站
任务 1:制作游戏
在第一个任务中,我们将测试这些代理人工智能模型的游戏制作能力。我们将让它们制作一款 Minecraft 风格的超级马里奥游戏,看看它们谁做得更好。
提示词:Make me a super mario game in Minecraft style.
Source: https://manus.im/
Manus AI响应情况
OpenAI Operator响应情况
比较分析
Manus AI 首先以步骤清单的形式列出计划。它搜索每个需求并收集各种游戏元素(如纹理、角色等)的相关数据。然后,该模型在其编码窗口中编写游戏逻辑的 js 代码,包括收集的数据,然后在自己的沙盒中运行。在整个过程中,它会显示每个思考步骤,有时还会根据需要返回并更改任务列表。
OpenAI Operator 使用 CSS 和 JavaScript 创建了一个基于 HTML 的简单游戏。它首先设置了基本的游戏结构,然后在网上搜索要添加的角色和其他细节。每一步,它都会在动态浏览器界面上实时显示进展情况。在制作游戏时,它在浏览器上打开了一个现有的超级马里奥游戏,然后将其用作模板。
任务 2:设计房间
在下一个任务中,让 Manus AI 和 OpenAI Operate 从头开始设计一个空间。我们将向它们提供空间的尺寸、我们需要的家具清单和预算。让我们看看它们能否设计出空间,并在预算范围内为我们找到合适的产品。
提示词:Design a 14×16 ft room with a calm, pop culture vibe, including a workspace and bed area. Use plants and decor, starting from scratch with a $15,000 budget. List products to buy and their arrangement for a stylish look.
Source: https://x.com/PriyanshKSingh/status/1897734666314301832
Manus AI响应情况
OpenAI Operator响应情况
比较分析
Manus AI 做出了出色的回应,为房间的不同部分选择了家具,并进行了整体布局。虽然最初的布局是二维的,但它还根据要求创建了三维布局和北欧风格的设计。在整个过程中,大部分决定都是由聊天机器人做出的,只有在做出回应后才会询问用户的反馈和修改意见。
OpenAI Operator 首先搜索家具和装饰品,然后列出符合预算的所选物品清单,最后根据所选物品设计布局。虽然网络搜索是自主进行的,但它在继续之前会不断要求用户确认每一件物品,因此自始至终都需要人工监督。
任务 3:创建网站
在最后一项任务中,我们将考察这两个代理工具在创建网站方面的能力。我们将要求这两个模型创建一个学习量子计算的教育网站。让我们看看它们能给我们带来什么。
提示词:Create a dynamic teaching webpage for quantum computing.
Source: https://x.com/roxasorag/status/1897670878554648604
Manus AI响应情况
对比分析
与之前的任务类似,Manus AI 也能快速理解提示并获得结果。它实时显示了整个思考过程,甚至随着进程不断修改最初的计划。最后,代理聊天机器人为量子计算创建了一个多页面、高度互动的学习中心。
OpenAI Operator 的步骤较少,但在网站建设方面花费了更多时间。它通过实时网络搜索来了解如何进行提示,并展示了思考过程。最后,它确实编写了网站的 html 代码,但生成的网页在多次尝试后仍无法打开。
总体比较摘要
Task | Manus AI | OpenAI Operator |
构建游戏 | 在自己的沙盒中自主地逐步计划、收集资源、编写和执行代码。 | 创建一个基于 HTML 的简单游戏,搜索资源并使用现有模板。 |
设计房间 | 提供完整的布局、产品建议和预算分配。根据要求生成 3D 布局和备用样式。 | 进行产品网络搜索,创建布局,但需要用户频繁确认。 |
创建网站 | 建立一个具有实时推理功能的多页互动量子计算学习中心。 | 执行网络搜索,生成代码,但未能呈现可正常运行的网页。 |
小结
在 Manus AI 与 OpenAI 的 Operator 的对比中,两个模型都展示了令人印象深刻的自主执行任务的能力。不过,Manus AI 似乎拥有更先进、更独立的方法和更快的执行速度。
它能高效地计划和执行多步骤任务,最大限度地减少冗余,并动态地适应新指令。此外,它还能在用户干预最少的情况下生成完整的功能性输出,显示出卓越的执行能力。
另一方面,OpenAI 的 Operator 擅长基于网络的结构化自动化,但仍然严重依赖用户确认,缺乏 Manus AI 的自主水平。因此,Manus AI 已经奠定了坚实的基础,并标志着其作为中国首个人工智能代理的地位。到目前为止,它的表现有望成为现有自主代理(如 OpenAI 的 Operator)的替代品。
评论留言