中国在人工智能领域发展迅速,推出了 DeepSeek 和 Qwen 等模型,可与全球巨头相媲美。DeepSeek 已获得广泛认可,可与 ChatGPT 相媲美,而 Qwen 则凭借其多功能聊天机器人取得了长足进步,在一个界面中提供了视觉、推理和编码功能。QwQ 32B 是 Qwen 的最新推理模型。它是一个中型模型,可与 DeepSeek-R1 和 o1-mini 等顶级推理模型竞争,展示了中国在人工智能创新方面取得的令人瞩目的进展。
什么是QwQ 32B?
QwQ-32B 是 Qwen 系列(通义千问)中的一个 32 亿参数人工智能模型。它使用强化学习(RL)来提高推理和解决问题的能力,其表现不逊于 DeepSeek-R1 等大型模型。它能根据反馈调整推理,并有效地使用工具。该模型是开放式的,在 Apache 2.0 许可下可在 Hugging Face 和 ModelScope 上获取,并可通过 Qwen Chat 访问。它凸显了 RL 如何以有意义的方式提升人工智能能力。
性能
QwQ-32B 已通过各种基准测试,以评估其数学推理、编码技能和解决问题的能力。下面的结果比较了它与其他顶级模型的性能,如 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 和原始 DeepSeek-R1。
Source: Qwen
LiveBench 评估了各种任务的推理模型,结果显示 QwQ-32B 的性能介于 R1 和 o3-mini 之间,但成本仅为后者的 1/10。价格估算基于 API 或 OpenRouter 数据,QwQ-Preview 在 DeepInfra 上的价格为每个输出 token 0.18 美元。因此,与其他领先型号相比,QwQ-32B 是一种高效、经济的选择。
Source: N8 Programs
阿里巴巴的 QwQ-32B 在 GPQA Diamond 中的科学推理得分率为 59%,在 AIME 2024 中的数学得分率为 86%。与顶级机型相比,它的数学成绩优秀,但科学推理能力落后。
Source: xNomad
它也是 HuggingFace 上的热门话题,排名第一。
Source: HuggingFace
如何访问QwQ 32B?
要访问 QwQ-32B 模型,您有几种选择,这取决于您的需求–是想随意试用、本地运行,还是将其集成到您的项目中。
通过Qwen聊天工具(最简单的选项)
- 访问 https://chat.qwen.ai/。
- 如果还没有账户,请创建一个。
- 登录后,查找模型选择器菜单(通常是一个下拉菜单或选择列表)。
- 从可用型号列表中选择“QwQ-32B”。
- 开始输入提示语,测试其推理、数学或编码能力。
通过Hugging Face下载并本地运行
要求:
- 硬件:配备至少 24GB VRAM 的高端 GPU(如 NVIDIA RTX 3090 或更高版本)。对于未量化的 FP16,您需要约 80GB VRAM(如英伟达 A100 或 H100)。量化版本(如 4 位)可在更少的 20GB VRAM 上运行。
- 软件:Python 3.8 及以上版本、Git 和像 pip 或 conda 这样的软件包管理器。你还需要最新版本的 Hugging Face 变压器库(4.37.0 或更高)。
安装依赖项:
pip install transformers torch
从 Hugging Face 下载模型和分词器:
from transformers import AutoModelForCausalLM, AutoTokenizer model_name = "Qwen/QwQ-32B" model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype="auto", device_map="auto") tokenizer = AutoTokenizer.from_pretrained(model_name)
进行简单推理:
prompt = "How many r's are in the word 'strawberry'?" messages = [{"role": "user", "content": prompt}] text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True) model_inputs = tokenizer([text], return_tensors="pt").to(model.device) generated_ids = model.generate(**model_inputs, max_new_tokens=512) response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0] print(response)
使用Ollama简化本地设置
- 从 ollama.com 为您的操作系统(Windows、macOS 或 Linux)下载并安装 Ollama。
- 打开终端并调出 QwQ-32B 型号:
ollama pull qwq:32b
- 运行模型:
ollama run qwq:32bCopy Code
- 直接在终端中键入提示即可与之交互。
实例测试QwQ 32B
提示词:Create a static webpage with illuminating candle with sparks around the flame
提示词:Develop a seated game where you can fire missiles in all directions. At first, the enemy’s speed is very slow, but after defeating three enemies, the speed gradually increases. implement in p5.js
提示词:Write a Python program that shows a ball bouncing inside a spinning hexagon. The ball should be affected by gravity and friction, and it must bounce off the rotating walls realistically.
推荐阅读: QwQ-32B vs DeepSeek-R1:32B模型能否挑战671B参数模型?
小结
QwQ-32B 代表了人工智能推理模型的一次重大飞跃,其性能可与 R1 和 o3-mini 等顶级模型相媲美,而成本却只是它们的一小部分。其令人印象深刻的 LiveBench 分数和成本效益(每个输出令牌的价格仅为 0.18 美元)使其成为各种应用的实用和便捷之选。这一进步彰显了高性能人工智能变得更加经济实惠和可扩展的潜力,为该领域更广泛的应用和创新铺平了道路。
评论留言