还记得今年早些时候,大量中国开源模型席卷GenAI行业吗?虽然DeepSeek占据了大部分头条新闻,但Kimi K1.5却是榜单上最引人注目的名字之一。而且这个模型非常酷。七个月后,Moonshot携全新代理开源模型Kimi K2强势回归。它拥有1万亿个参数和320亿个激活的混合专家(MoE)架构,性能卓越。让我们一起深入了解它!
什么是Kimi K2?
如上所述,Kimi K2是一个强大的全新开源模型,专为处理复杂任务而构建。凭借其先进的架构和智能决策能力,它不仅能响应提示,还能采取实际行动。从编程到数据分析,它旨在让每个人都能使用高级AI工具。
它有两种版本:
- Kimi-K2-Base:一款强大的基础模型,非常适合需要完全自定义和微调功能的研究人员和开发者。
- Kimi-K2-Instruct:一款经过后训练的指令遵循模型,适用于通用聊天和反射级代理任务。
基准测试和性能
Source: Kimi K2
Kimi K2 在以下基准测试中取得了领先且开源的成果:
- SWE-bench Verified:单次尝试准确率 65.8%
- SWE-bench Multilingual:47.3%(测试模型中最高)
- LiveCodeBench v6:53.7%
- OJBench:27.1%
- Tau2-bench(加权平均值):66.1%
- AceBench (en):80.1%
- AIME 2025:49.5%
- GPQA-Diamond:75.1%
这些分数凸显了 Kimi K2 在代理编码、工具使用和复杂 STEM 任务方面的优势,其表现经常超越或匹敌 Claude 和 GPT-4 等专有模型。
不知道这些基准测试如何运作?请查看我们关于顶级 LLM 基准测试的详细指南。
Kimi K2如何学习(训练前和训练后)?
想象一下,通过向机器人输入一个巨大的图书馆来训练它。这被称为预训练。Kimi K2 读取了 15.5 万亿个词条,相当于将互联网内容翻了好几遍。它会尝试猜测下一个单词,检查是否正确,并随着时间的推移不断改进。阅读的越多,它就越熟练。
Source: Kimi K2
但有一个问题:人工编写的数据有限。因此,Kimi K2 不再仅仅读取数据,而是开始自主学习。这被称为后训练。它会从自身创造的经验中学习,例如尝试使用工具或解决任务并判断其表现如何。
为了确保它在学习大量数据时不会感到困惑,Kimi K2 使用了一种名为 MuonClip 的特殊优化器。你可以把它想象成一位训练教练,保持一切平衡。其他模型有时会在训练过程中“崩溃”,这意味着它们的内部数学运算过于极端。MuonClip 通过温和地控制可能失控的部分(查询/键矩阵)来防止这种情况,从而确保一切平稳可靠。
Kimi K2如何学习使用工具(像开发人员一样)?
假设你想让你的 AI 助手预订航班或编写代码。为此,它需要知道如何使用工具。Kimi K2 通过模拟来学习这一点。
Source: Kimi K2
它的工作原理如下:
- 从目标开始(例如回答问题)。
- 创建一个领域(主题或环境)。
- 添加真实或模拟的工具。
- 构建数百个尝试使用这些工具完成任务的代理。
- 模拟与这些代理交互的用户。
- 智能 AI 评委检查他们的工作并筛选出不合格的。
这有助于 Kimi K2 在帮助真实用户之前练习数千种不同的工具使用场景。
Kimi K2 还使用了强化学习。这就像学习玩游戏,玩家可以通过正确的操作获得积分。对于数学或编程等任务,它可以检查答案是否正确。但对于写作或帮助用户等任务,没有“正确”答案。因此,Kimi K2 充当了它自己的评审员。它会评判自己的表现,给予反馈,并不断从中学习。它还会使用明显正确的任务(例如数学)来提高对模糊任务的评分。
如何访问?
您可以通过多种方式访问 Kimi K2,具体取决于您是普通用户、开发者还是运行自己的基础架构:
在线试用 Kimi K2
- 网站:https://www.kimi.com/
- 从模型选择器中选择 Kimi K2(通常显示为“Kimi-K2”或“K2”)
- 无需安装;开始聊天或上传任务
通过API使用Kimi K2
- 访问 Moonshot 平台:https://platform.moonshot.cn
- API 兼容 OpenAI/Anthropic 格式
- 支持工具使用和代理工作流
- 包含用于聊天、文件工具和代理编排的端点
在本地或您自己的服务器上运行Kimi K2
- 模型权重:已在 GitHub 和/或 Hugging Face 上开源(即将推出)
- 推荐的推理引擎:
vLLM
SGLang
KTransformers
TensorRT-LLM
如果您正在进行内部微调、研究或扩展,这将是理想的选择。
在下一节中,我将使用此模型执行一些任务,并分享我的经验。
任务 1:研究并创建报告
提示词: “Based on the latest trends in Generative AI and Agentic AI, give me a report of which skills will be relevant in 2025 for working professionals across marketing, banking, social media, product management, software development, content, HR and manufacturing.“
输出:
观察:
研究部分做得很好,报告中使用的语言感觉很自然,整体对话充满人情味。然而,生成 PDF 格式的输出有些困难。
任务 2:预订机票
提示词:“I’m based in Shenzhen and will be traveling for the Kaohsiung WordPress Meetup this July (Tuesday, July 22, 2025
7:00 PM to 9:00 PM GMT+8). Could you share what to expect at the conference, and also help me find the cheapest flight options?“
输出:
观察:
活动细节准确无误,提供的酒店和航班信息也准确无误。这对行程规划非常有帮助。最棒的是?这一切都完全免费。
小结
我对 Kimi K2 的查询响应方式印象深刻,感觉就像与人交流一样。它的独特之处在于,大多数高级功能都是免费的,不像 Manus、Genspark 或 OpenAI 的 Operator 等其他平台那样需要付费订阅。Kimi K2 的响应速度很快,其处理各种任务的能力表明它是一个真正强大的代理模型。它结合了大规模训练、工具使用和自适应智能,为能够思考、行动和适应的通用人工智能系统铺平了道路。
无论您是在构建编码代理、进行现实世界的数据科学研究,还是设计下一代界面,Kimi K2 都能赋予您创造的力量。
立即试用,并在下方评论区分享您的想法。
常见问题解答
问题 1:Kimi K2 与其他开源模型有何不同?
答:Kimi K2 的突出之处在于其代理功能,这意味着它可以使用工具采取行动,而不仅仅是生成文本。它也是少数采用混合专家架构且开源的模型之一。
问题2:我可以免费使用 Kimi K2 吗?
是的,Kimi K2 的许多功能都可以通过其网站和应用程序免费使用,而其他平台则对类似功能收费。
问题3:开发者可以用 Kimi K2 做什么?
开发者可以使用 API 将 Kimi K2 集成到他们的应用中,在本地硬件上运行它,或者针对自定义任务微调基础模型。它与 vLLM 和 TensorRT-LLM 等主流推理引擎兼容。
问题4:Kimi K2 支持工具使用和编码任务吗?
当然。Kimi K2 可以执行 Shell 命令、编辑和部署代码、构建交互式网站,甚至可以与游戏引擎协同工作。它针对工具交互和软件开发都进行了优化。
评论留言