MiniMax-M1和MiniMax Agent:中國最大的開源推理模型和代理

MiniMax-M1 和 MiniMax Agent

中國人工智慧公司 MiniMaxAI 剛剛釋出了一個名為 MiniMax-M1 的大規模開源推理模型。該模型於為期五天的 MiniMaxWeek 活動第一天釋出,似乎與 OpenAI o3、Claude 4、DeepSeke-R1 等同類模型形成了強勁的競爭。除了聊天機器人之外,MiniMax 還發布了一個測試版代理,該代理能夠執行程式碼、構建應用程式、建立簡報等。在本文中,我們將探討 MiniMax-M1 的主要功能、學習如何使用它,並在一些任務上進行測試。我們還將探索 MiniMax 代理,所以請讀到最後,觀看代理的實際執行!

什麼是MiniMax-M1?

MiniMax-M1 是一個開源的、大規模的混合注意力推理模型,由上海的 AI 初創公司 MiniMax 開發。該思維模型具備網頁搜尋功能,可以處理各種格式的文字、影像、簡報等多模態輸入。

MiniMax-M1

該模型基於混合專家 (MoE) 架構,共計訓練了 4560 億個引數,每個 token 啟用約 459 億個引數。此外,該模型採用 Apache 2.0 許可證釋出,真正實現了開源。

MiniMax 為其 M1 模型引入了 Lightning Attention 機制,大幅降低了推理成本。具體來說,在生成 10 萬個 token 時,它僅使用了 DeepSeek-R1 25% 的 FLOP。該模型透過大規模強化學習 (RL) 進行訓練,採用 CISPO(裁剪重要性取樣策略最佳化),該策略裁剪取樣權重而非更新權重。這使得該模型在 512 塊 A800 GPU 上進行了為期 3 周的高效訓練,成本僅為約 53.47 萬美元。這遠低於 OpenAI 和谷歌等競爭對手的數百萬美元投入。

主要特點

全新 MiniMax-M1 模型的主要特點如下:

  1. 混合注意力機制 + 多方注意力機制 (MoE) 高效性:M1 將多方注意力機制架構與 Lightning 注意力機制相結合,與大多數其他模型相比,計算資源節省高達 75%。
  2. 超大上下文視窗:M1 最大的亮點在於其海量上下文視窗,包含 100 萬個輸入 token 和高達 8 萬個輸出 token,堪比谷歌 Gemini2.5Pro。
  3. 提供 4 萬和 8 萬兩種思維預算:MiniMax 提供 M1-4 萬(中級)和 M1-8 萬(高階)版本。8 萬版本在擴充套件推理和複雜任務方面表現更佳。
  4. 擴充套件代理推理和長上下文推理:模型基準測試結果顯示,它在長上下文基準測試(OpenAI-MRCR、LongBench-v2)和代理工具使用(TAU-bench)方面均表現出色。

MiniMax-M1:基準測試效能

以下是 M1-80k 模型在主要基準測試領域的表現:

MiniMax-M1:基準測試效能

  • AIME 2024:MiniMax-M1 得分最高(86.0%),超越所有專有模型,例如 OpenAI o3、Claude 4 Opus 和 Gemini 2.5 Pro。
  • LiveCodeBench:MiniMax-M1 在該編碼基準測試中的得分為 65.0%,略低於 OpenAI o3 和 Gemini。
  • SWE-bench Verified:在該軟體工程基準測試中,MiniMax-M1 得分為 56.0%,明顯優於 DeepSeek-R1 和 Qwen3 超過 10%。
  • TAU-bench:在代理工具使用方面,MiniMax-M1 得分為 62.8%,超越了 DeepSeek 和 Qwen3。這表明該模型擁有強大的工具使用能力。
  • MRCR:MRCR 基準測試了模型在多輪文件分析和長上下文推理方面的能力。MiniMax-M1 在測試中獲得了 73.4% 的得分,接近頂級商業模型,並遠遠領先於其他開源模型。

如何訪問MiniMax-M1

MiniMax-M1 完全開源,可在 GitHubHugging Face 上獲取。您也可以直接在其聊天機器人介面上使用該模型:https://chat.minimax.io/

MiniMax API 提供結構化的函式呼叫介面和其他聊天機器人 API。它還提供搜尋、影像/影片生成、語音合成和語音克隆工具,現已針對代理工作流程進行了定製。

MiniMax-M1:動手測試

現在我們已經知道如何訪問 MiniMax-M1,讓我們開始嘗試一下吧。在本節中,我將測試三個不同的問題來評估模型在以下方面的表現:

  1. 編寫動畫模擬程式碼
  2. 即時搜尋網頁
  3. 解決邏輯推理難題

任務 1:動畫模擬

提示詞:“Generate a simulation of a red pentagon, rotating clockwise inside a black hexagon. There are 2 balls moving inside the pentagon – one blue, one yellow – bouncing off of the walls following the laws of Physics. Every time a ball hits an edge, its colour must change. And every time they collide with each other, they must both become the mixture of both their colours.”

輸出:

點評

大約10分鐘後,MiniMax-M1生成了簡潔高效的程式碼,並提供了合理的解釋來建立模擬。它看起來視覺清晰,物理準確,完全遵循了提示。然而,球有時會卡在邊緣,我發現這是一個錯誤。此外,球最終會被丟擲模擬,這是我沒有預料到的。但總的來說,我還是喜歡這個結果。

任務 2:網頁搜尋

現在讓我們看看模型即時網頁搜尋的效果如何。在這個任務中,我將使用 MiniMax M1 查詢我所在城市本週的活動。我將開啟“搜尋”模式。

提示詞:“What stand-up comedy shows are happening in Gurgaon this week?”

輸出:

MiniMax-M1 網頁搜尋任務

點評

MiniMax M1 幾乎立即搜尋了 30 個不同的網站,包括 District、All Events,甚至 Facebook 和 Instagram 上的活動列表。它收集了所有資訊,並向我提供了所有正在進行的脫口秀活動的列表。搜尋結果正確,但模型無法讀取或檢測活動的時間和地點。不過,它在右側列出了所有來源網站,方便訪問預訂網站。

任務 3:邏輯謎題

MiniMax M1 是一個具有思考能力的推理模型。因此,我將在這個任務中給它一個邏輯謎題來解答。我還會為此開啟“思考”模式,以瞭解模型的思考過程。

提示詞:“Four people are crossing a bridge at night, so they all need a torch – but they just have one that only lasts 15 minutes. Alice can cross in one minute, Ben in two minutes, Cindy in five minutes and Don in eight minutes. No more than two people can cross at a time; and when two cross, they have to go at the slower person’s pace. How do they get across in 15 minutes?”

輸出:

“The optimal solution to get all four across in 15 minutes is as follows:

  1. Alice and Ben cross together (2 minutes).Time elapsed: 2 minutesPeople on far side: Alice, Ben
  2. Alice returns alone (1 minute).Time elapsed: 3 minutesPeople on start side: Alice, Cindy, Don
  3. Cindy and Don cross together (8 minutes).Time elapsed: 11 minutesPeople on far side: Cindy, Don, Ben
  4. Ben returns alone (2 minutes).Time elapsed: 13 minutesPeople on start side: Alice, Ben
  5. Alice and Ben cross together again (2 minutes).Time elapsed: 15 minutesAll four on far side: Alice, Ben, Cindy, Don

Key strategy: Use the two fastest individuals (Alice and Ben) to shuttle the torch efficiently, minimizing the time slower individuals (Cindy and Don) spend crossing together. This balances the need to move slower individuals while preserving torch time.”

點評

MiniMax-M1 大約花了 2 分鐘(準確地說是 125.2 秒)來思考這個問題並找到解決方案。該模型的邏輯思維過程準確無誤,最終得出了正確答案。它無需回溯任何思路,但在某些時候,它的思考時間會稍長一些。

MiniMax Agent實戰

現在,讓我們來看看 MiniMax 新品中最酷炫的部分——MiniMax Agent。雖然目前還處於測試階段,但它的功能和豐富的用例使其在 AI 代理領域前景廣闊。為了測試它的實力,我給它提了一個建議,讓我建立一個互動式網站。具體步驟如下。

提示詞:“Build an interactive website featuring a virtual tour of India.

  1. It must show the country map with the states marked, letting the user read the name of the state and the respective capital city when they hover the mouse over it.
  2. It must zoom into the chosen state upon clicking, showing all the famous monuments and landmarks as representative icons.
  3. Again, their names and location (name of city) must be shown when hovered above the icon.
  4. Upon clicking on an icon, a side panel must pop up showing actual images, the location, visiting times, and entrance fee of the landmark.
  5. The user must have the option of choosing multiple landmarks, and the app/website must create a realistic itinerary of visiting all those places, also stating how many days it would take to cover them all. This must also take into consideration the commute time based on Google Maps.”

輸出:

這是它為我建立的網站:

點評

MiniMax Agent 出色地建立了一個滿足我需求的互動式網站。雖然最終的網站與我之前在提示中描述的並不完全一致,但不得不說,它的效果令人印象深刻。該代理自行查詢資訊、新增文字和圖片、獲取 API 金鑰、訪問谷歌地圖和其他應用、構建整個系統,甚至還進行了測試。整個過程大約花了 20 分鐘,甚至還提供了流程文件、測試結果以及所有其他細節。一個免費工具能如此出色地完成所有這些工作,真是令人驚歎!

您可以在此處體驗完整網站:https://03w1ujb85t.space.minimax.io/

您也可以點選此處免費試用該代理。使用您的電子郵件 ID 註冊後,MiniMax 將贈送您 1,000 個免費積分,可用於執行代理。

小結

MiniMax-M1 代表了開源 AI 的重大飛躍。它是首創的混合注意力機制 (MoE) 模型,兼具規模和計算效率。憑藉驚人的 1M 令牌上下文視窗,該新模型能夠進行長篇推理和文件理解。儘管訓練成本低廉,但在標準基準測試中仍表現出極具競爭力甚至更優異的效能。

MiniMax Agent 也同樣令人印象深刻,能夠獨立建立簡報、網站和應用程式。聊天機器人介面和側邊的即時更新功能讓使用者彷彿身臨其境地體驗程式設計。總而言之,MiniMax-M1 為開源模型開發樹立了新的標杆。它融合了技術複雜性、經濟高效性和易用性,為下一代 AI 聊天機器人和代理構建了堅實的基礎。由於它免費向所有人開放,歡迎大家試用,並在評論區分享您的使用感受。

評論留言