MiniMax-M1和MiniMax Agent:中国最大的开源推理模型和代理

MiniMax-M1 和 MiniMax Agent

中国人工智能公司 MiniMaxAI 刚刚发布了一个名为 MiniMax-M1 的大规模开源推理模型。该模型于为期五天的 MiniMaxWeek 活动第一天发布,似乎与 OpenAI o3、Claude 4、DeepSeke-R1 等同类模型形成了强劲的竞争。除了聊天机器人之外,MiniMax 还发布了一个测试版代理,该代理能够运行代码、构建应用程序、创建演示文稿等。在本文中,我们将探讨 MiniMax-M1 的主要功能、学习如何使用它,并在一些任务上进行测试。我们还将探索 MiniMax 代理,所以请读到最后,观看代理的实际运行!

什么是MiniMax-M1?

MiniMax-M1 是一个开源的、大规模的混合注意力推理模型,由上海的 AI 初创公司 MiniMax 开发。该思维模型具备网页搜索功能,可以处理各种格式的文本、图像、演示文稿等多模态输入。

MiniMax-M1

该模型基于混合专家 (MoE) 架构,共计训练了 4560 亿个参数,每个 token 激活约 459 亿个参数。此外,该模型采用 Apache 2.0 许可证发布,真正实现了开源。

MiniMax 为其 M1 模型引入了 Lightning Attention 机制,大幅降低了推理成本。具体来说,在生成 10 万个 token 时,它仅使用了 DeepSeek-R1 25% 的 FLOP。该模型通过大规模强化学习 (RL) 进行训练,采用 CISPO(裁剪重要性采样策略优化),该策略裁剪采样权重而非更新权重。这使得该模型在 512 块 A800 GPU 上进行了为期 3 周的高效训练,成本仅为约 53.47 万美元。这远低于 OpenAI 和谷歌等竞争对手的数百万美元投入。

主要特点

全新 MiniMax-M1 模型的主要特点如下:

  1. 混合注意力机制 + 多方注意力机制 (MoE) 高效性:M1 将多方注意力机制架构与 Lightning 注意力机制相结合,与大多数其他模型相比,计算资源节省高达 75%。
  2. 超大上下文窗口:M1 最大的亮点在于其海量上下文窗口,包含 100 万个输入 token 和高达 8 万个输出 token,堪比谷歌 Gemini2.5Pro。
  3. 提供 4 万和 8 万两种思维预算:MiniMax 提供 M1-4 万(中级)和 M1-8 万(高级)版本。8 万版本在扩展推理和复杂任务方面表现更佳。
  4. 扩展代理推理和长上下文推理:模型基准测试结果显示,它在长上下文基准测试(OpenAI-MRCR、LongBench-v2)和代理工具使用(TAU-bench)方面均表现出色。

MiniMax-M1:基准测试性能

以下是 M1-80k 模型在主要基准测试领域的表现:

MiniMax-M1:基准测试性能

  • AIME 2024:MiniMax-M1 得分最高(86.0%),超越所有专有模型,例如 OpenAI o3、Claude 4 Opus 和 Gemini 2.5 Pro。
  • LiveCodeBench:MiniMax-M1 在该编码基准测试中的得分为 65.0%,略低于 OpenAI o3 和 Gemini。
  • SWE-bench Verified:在该软件工程基准测试中,MiniMax-M1 得分为 56.0%,明显优于 DeepSeek-R1 和 Qwen3 超过 10%。
  • TAU-bench:在代理工具使用方面,MiniMax-M1 得分为 62.8%,超越了 DeepSeek 和 Qwen3。这表明该模型拥有强大的工具使用能力。
  • MRCR:MRCR 基准测试了模型在多轮文档分析和长上下文推理方面的能力。MiniMax-M1 在测试中获得了 73.4% 的得分,接近顶级商业模型,并远远领先于其他开源模型。

如何访问MiniMax-M1

MiniMax-M1 完全开源,可在 GitHubHugging Face 上获取。您也可以直接在其聊天机器人界面上使用该模型:https://chat.minimax.io/

MiniMax API 提供结构化的函数调用接口和其他聊天机器人 API。它还提供搜索、图像/视频生成、语音合成和语音克隆工具,现已针对代理工作流程进行了定制。

MiniMax-M1:动手测试

现在我们已经知道如何访问 MiniMax-M1,让我们开始尝试一下吧。在本节中,我将测试三个不同的问题来评估模型在以下方面的表现:

  1. 编写动画模拟代码
  2. 实时搜索网页
  3. 解决逻辑推理难题

任务 1:动画模拟

提示词:“Generate a simulation of a red pentagon, rotating clockwise inside a black hexagon. There are 2 balls moving inside the pentagon – one blue, one yellow – bouncing off of the walls following the laws of Physics. Every time a ball hits an edge, its colour must change. And every time they collide with each other, they must both become the mixture of both their colours.”

输出:

点评

大约10分钟后,MiniMax-M1生成了简洁高效的代码,并提供了合理的解释来创建模拟。它看起来视觉清晰,物理准确,完全遵循了提示。然而,球有时会卡在边缘,我发现这是一个错误。此外,球最终会被抛出模拟,这是我没有预料到的。但总的来说,我还是喜欢这个结果。

任务 2:网页搜索

现在让我们看看模型实时网页搜索的效果如何。在这个任务中,我将使用 MiniMax M1 查找我所在城市本周的活动。我将开启“搜索”模式。

提示词:“What stand-up comedy shows are happening in Gurgaon this week?”

输出:

MiniMax-M1 网页搜索任务

点评

MiniMax M1 几乎立即搜索了 30 个不同的网站,包括 District、All Events,甚至 Facebook 和 Instagram 上的活动列表。它收集了所有信息,并向我提供了所有正在进行的脱口秀活动的列表。搜索结果正确,但模型无法读取或检测活动的时间和地点。不过,它在右侧列出了所有来源网站,方便访问预订网站。

任务 3:逻辑谜题

MiniMax M1 是一个具有思考能力的推理模型。因此,我将在这个任务中给它一个逻辑谜题来解答。我还会为此打开“思考”模式,以了解模型的思考过程。

提示词:“Four people are crossing a bridge at night, so they all need a torch – but they just have one that only lasts 15 minutes. Alice can cross in one minute, Ben in two minutes, Cindy in five minutes and Don in eight minutes. No more than two people can cross at a time; and when two cross, they have to go at the slower person’s pace. How do they get across in 15 minutes?”

输出:

“The optimal solution to get all four across in 15 minutes is as follows:

  1. Alice and Ben cross together (2 minutes).Time elapsed: 2 minutesPeople on far side: Alice, Ben
  2. Alice returns alone (1 minute).Time elapsed: 3 minutesPeople on start side: Alice, Cindy, Don
  3. Cindy and Don cross together (8 minutes).Time elapsed: 11 minutesPeople on far side: Cindy, Don, Ben
  4. Ben returns alone (2 minutes).Time elapsed: 13 minutesPeople on start side: Alice, Ben
  5. Alice and Ben cross together again (2 minutes).Time elapsed: 15 minutesAll four on far side: Alice, Ben, Cindy, Don

Key strategy: Use the two fastest individuals (Alice and Ben) to shuttle the torch efficiently, minimizing the time slower individuals (Cindy and Don) spend crossing together. This balances the need to move slower individuals while preserving torch time.”

点评

MiniMax-M1 大约花了 2 分钟(准确地说是 125.2 秒)来思考这个问题并找到解决方案。该模型的逻辑思维过程准确无误,最终得出了正确答案。它无需回溯任何思路,但在某些时候,它的思考时间会稍长一些。

MiniMax Agent实战

现在,让我们来看看 MiniMax 新品中最酷炫的部分——MiniMax Agent。虽然目前还处于测试阶段,但它的功能和丰富的用例使其在 AI 代理领域前景广阔。为了测试它的实力,我给它提了一个建议,让我创建一个交互式网站。具体步骤如下。

提示词:“Build an interactive website featuring a virtual tour of India.

  1. It must show the country map with the states marked, letting the user read the name of the state and the respective capital city when they hover the mouse over it.
  2. It must zoom into the chosen state upon clicking, showing all the famous monuments and landmarks as representative icons.
  3. Again, their names and location (name of city) must be shown when hovered above the icon.
  4. Upon clicking on an icon, a side panel must pop up showing actual images, the location, visiting times, and entrance fee of the landmark.
  5. The user must have the option of choosing multiple landmarks, and the app/website must create a realistic itinerary of visiting all those places, also stating how many days it would take to cover them all. This must also take into consideration the commute time based on Google Maps.”

输出:

这是它为我建立的网站:

点评

MiniMax Agent 出色地创建了一个满足我需求的交互式网站。虽然最终的网站与我之前在提示中描述的并不完全一致,但不得不说,它的效果令人印象深刻。该代理自行查找信息、添加文本和图片、获取 API 密钥、访问谷歌地图和其他应用、构建整个系统,甚至还进行了测试。整个过程大约花了 20 分钟,甚至还提供了流程文档、测试结果以及所有其他细节。一个免费工具能如此出色地完成所有这些工作,真是令人惊叹!

您可以在此处体验完整网站:https://03w1ujb85t.space.minimax.io/

您也可以点击此处免费试用该代理。使用您的电子邮件 ID 注册后,MiniMax 将赠送您 1,000 个免费积分,可用于运行代理。

小结

MiniMax-M1 代表了开源 AI 的重大飞跃。它是首创的混合注意力机制 (MoE) 模型,兼具规模和计算效率。凭借惊人的 1M 令牌上下文窗口,该新模型能够进行长篇推理和文档理解。尽管训练成本低廉,但在标准基准测试中仍表现出极具竞争力甚至更优异的性能。

MiniMax Agent 也同样令人印象深刻,能够独立创建演示文稿、网站和应用程序。聊天机器人界面和侧边的实时更新功能让用户仿佛身临其境地体验编程。总而言之,MiniMax-M1 为开源模型开发树立了新的标杆。它融合了技术复杂性、经济高效性和易用性,为下一代 AI 聊天机器人和代理构建了坚实的基础。由于它免费向所有人开放,欢迎大家试用,并在评论区分享您的使用感受。

评论留言