還記得今年早些時候,大量中國開源模型席捲GenAI行業嗎?雖然DeepSeek佔據了大部分頭條新聞,但Kimi K1.5卻是榜單上最引人注目的名字之一。而且這個模型非常酷。七個月後,Moonshot攜全新代理開源模型Kimi K2強勢迴歸。它擁有1萬億個引數和320億個啟用的混合專家(MoE)架構,效能卓越。讓我們一起深入瞭解它!
什麼是Kimi K2?
如上所述,Kimi K2是一個強大的全新開源模型,專為處理複雜任務而構建。憑藉其先進的架構和智慧決策能力,它不僅能響應提示,還能採取實際行動。從程式設計到資料分析,它旨在讓每個人都能使用高階AI工具。
它有兩種版本:
- Kimi-K2-Base:一款強大的基礎模型,非常適合需要完全自定義和微調功能的研究人員和開發者。
- Kimi-K2-Instruct:一款經過後訓練的指令遵循模型,適用於通用聊天和反射級代理任務。
基準測試和效能
Source: Kimi K2
Kimi K2 在以下基準測試中取得了領先且開源的成果:
- SWE-bench Verified:單次嘗試準確率 65.8%
- SWE-bench Multilingual:47.3%(測試模型中最高)
- LiveCodeBench v6:53.7%
- OJBench:27.1%
- Tau2-bench(加權平均值):66.1%
- AceBench (en):80.1%
- AIME 2025:49.5%
- GPQA-Diamond:75.1%
這些分數凸顯了 Kimi K2 在代理編碼、工具使用和複雜 STEM 任務方面的優勢,其表現經常超越或匹敵 Claude 和 GPT-4 等專有模型。
不知道這些基準測試如何運作?請檢視我們關於頂級 LLM 基準測試的詳細指南。
Kimi K2如何學習(訓練前和訓練後)?
想象一下,透過向機器人輸入一個巨大的圖書館來訓練它。這被稱為預訓練。Kimi K2 讀取了 15.5 萬億個詞條,相當於將網際網路內容翻了好幾遍。它會嘗試猜測下一個單詞,檢查是否正確,並隨著時間的推移不斷改進。閱讀的越多,它就越熟練。
Source: Kimi K2
但有一個問題:人工編寫的資料有限。因此,Kimi K2 不再僅僅讀取資料,而是開始自主學習。這被稱為後訓練。它會從自身創造的經驗中學習,例如嘗試使用工具或解決任務並判斷其表現如何。
為了確保它在學習大量資料時不會感到困惑,Kimi K2 使用了一種名為 MuonClip 的特殊最佳化器。你可以把它想象成一位訓練教練,保持一切平衡。其他模型有時會在訓練過程中“崩潰”,這意味著它們的內部數學運算過於極端。MuonClip 透過溫和地控制可能失控的部分(查詢/鍵矩陣)來防止這種情況,從而確保一切平穩可靠。
Kimi K2如何學習使用工具(像開發人員一樣)?
假設你想讓你的 AI 助手預訂航班或編寫程式碼。為此,它需要知道如何使用工具。Kimi K2 透過模擬來學習這一點。
Source: Kimi K2
它的工作原理如下:
- 從目標開始(例如回答問題)。
- 建立一個領域(主題或環境)。
- 新增真實或模擬的工具。
- 構建數百個嘗試使用這些工具完成任務的代理。
- 模擬與這些代理互動的使用者。
- 智慧 AI 評委檢查他們的工作並篩選出不合格的。
這有助於 Kimi K2 在幫助真實使用者之前練習數千種不同的工具使用場景。
Kimi K2 還使用了強化學習。這就像學習翫遊戲,玩家可以透過正確的操作獲得積分。對於數學或程式設計等任務,它可以檢查答案是否正確。但對於寫作或幫助使用者等任務,沒有“正確”答案。因此,Kimi K2 充當了它自己的評審員。它會評判自己的表現,給予反饋,並不斷從中學習。它還會使用明顯正確的任務(例如數學)來提高對模糊任務的評分。
如何訪問?
您可以透過多種方式訪問 Kimi K2,具體取決於您是普通使用者、開發者還是執行自己的基礎架構:
線上試用 Kimi K2
- 網站:https://www.kimi.com/
- 從模型選擇器中選擇 Kimi K2(通常顯示為“Kimi-K2”或“K2”)
- 無需安裝;開始聊天或上傳任務
透過API使用Kimi K2
- 訪問 Moonshot 平臺:https://platform.moonshot.cn
- API 相容 OpenAI/Anthropic 格式
- 支援工具使用和代理工作流
- 包含用於聊天、檔案工具和代理編排的端點
在本地或您自己的伺服器上執行Kimi K2
- 模型權重:已在 GitHub 和/或 Hugging Face 上開源(即將推出)
- 推薦的推理引擎:
vLLM
SGLang
KTransformers
TensorRT-LLM
如果您正在進行內部微調、研究或擴充套件,這將是理想的選擇。
在下一節中,我將使用此模型執行一些任務,並分享我的經驗。
任務 1:研究並建立報告
提示詞: “Based on the latest trends in Generative AI and Agentic AI, give me a report of which skills will be relevant in 2025 for working professionals across marketing, banking, social media, product management, software development, content, HR and manufacturing.“
輸出:
觀察:
研究部分做得很好,報告中使用的語言感覺很自然,整體對話充滿人情味。然而,生成 PDF 格式的輸出有些困難。
任務 2:預訂機票
提示詞:“I’m based in Shenzhen and will be traveling for the Kaohsiung WordPress Meetup this July (Tuesday, July 22, 2025
7:00 PM to 9:00 PM GMT+8). Could you share what to expect at the conference, and also help me find the cheapest flight options?“
輸出:
觀察:
活動細節準確無誤,提供的酒店和航班資訊也準確無誤。這對行程規劃非常有幫助。最棒的是?這一切都完全免費。
小結
我對 Kimi K2 的查詢響應方式印象深刻,感覺就像與人交流一樣。它的獨特之處在於,大多數高階功能都是免費的,不像 Manus、Genspark 或 OpenAI 的 Operator 等其他平臺那樣需要付費訂閱。Kimi K2 的響應速度很快,其處理各種任務的能力表明它是一個真正強大的代理模型。它結合了大規模訓練、工具使用和自適應智慧,為能夠思考、行動和適應的通用人工智慧系統鋪平了道路。
無論您是在構建編碼代理、進行現實世界的資料科學研究,還是設計下一代介面,Kimi K2 都能賦予您創造的力量。
立即試用,並在下方評論區分享您的想法。
常見問題解答
問題 1:Kimi K2 與其他開源模型有何不同?
答:Kimi K2 的突出之處在於其代理功能,這意味著它可以使用工具採取行動,而不僅僅是生成文字。它也是少數採用混合專家架構且開源的模型之一。
問題2:我可以免費使用 Kimi K2 嗎?
是的,Kimi K2 的許多功能都可以透過其網站和應用程式免費使用,而其他平臺則對類似功能收費。
問題3:開發者可以用 Kimi K2 做什麼?
開發者可以使用 API 將 Kimi K2 整合到他們的應用中,在本地硬體上執行它,或者針對自定義任務微調基礎模型。它與 vLLM 和 TensorRT-LLM 等主流推理引擎相容。
問題4:Kimi K2 支援工具使用和編碼任務嗎?
當然。Kimi K2 可以執行 Shell 命令、編輯和部署程式碼、構建互動式網站,甚至可以與遊戲引擎協同工作。它針對工具互動和軟體開發都進行了最佳化。
評論留言