
掌握 Claude Sonnet 4.5 和 Opus 4.1 的最新提示工程技术。学习如何使用 XML 标签构建结构化提示、利用扩展思维解决复杂问题,以及如何通过“上下文优先”策略提升 30% 的响应质量。含完整迁移教程。
- 了解哪些提示技巧能为 Claude Sonnet 4.5 和 Opus 4.1 带来可衡量的性能提升。
- 从 Claude 3.5 到 Claude 4.x 的行为转变导致现有提示失效(我们将向您展示具体是哪些提示)。
- 阅读前后对比示例,了解具体指标的实际效果差异。
- 了解五种经过测试数据和企业部署验证的成熟技巧。
- 最后,我们将向您展示如何将提示从 Claude 3.5 迁移到 Claude 4.x 系统。
Claude Sonnet 4.5 于 2025 年 9 月发布时,导致许多现有提示失效。这并非因为该版本存在漏洞,而是因为 Anthropic 重构了 Claude 执行指令的方式。
早期版本会推断您的意图,并对模糊的请求进行扩展。而 Claude 4.x 则会严格按照您的指示执行操作,不多不少。

为了理解这些新方法,我们根据 Anthropic 的文档、社区实验和实际部署情况,评估了 25 种常用的提示工程技术,以找出哪些提示与 Claude 4.x 版本配合得更好。以下是五种技术:
Claude 4.5中哪些变化导致现有提示失效?
Claude 4.5 模型优先考虑精确的指令,而非“好心”的猜测。
之前的版本会帮你填充空白。如果你要求“仪表盘”,它会默认你想要图表、筛选器和数据表。
Claude 4.5 会严格按照你的要求执行。如果你要求一个仪表盘,它可能只会显示一个带有标题的空白框架,因为你没有要求其他功能。
Anthropic 明确指出:“需要‘额外功能’的客户可能需要更明确地提出这些功能的要求。”
所以,我们需要停止把模型当作魔法棒,而应该把它当作一个思维严谨的员工来对待。
5个经证实能显著提升Claude表现的技巧
根据我们的研究,这五种技巧在 Claude 完成我们布置的任务时,都能持续显著地提升它的表现。
1. 结构化且带标签的提示
Claude Sonnet 4.5 的系统提示在各处都使用了结构化提示。Simon Willison 深入研究了系统提示,发现其中包含一些被 <behavior_instructions>、<artifacts_info> 和 <knowledge_cutoff> 等标签包裹的部分。
实际上,您可以编辑“样式”来查看 Anthropic 的结构化提示是如何运作的。

我们可以推断,Claude 接受过结构化提示的训练,并且知道如何解析它们。XML、JSON 或其他带标签的提示格式都能很好地工作。
之前:Analyze this code for security vulnerabilities and performance issues. Focus on authentication flows and database queries. Provide specific recommendations with code examples.(译文:分析此代码是否存在安全漏洞和性能问题。重点关注身份验证流程和数据库查询。提供具体的建议并附上代码示例。)

之后(结构化提示):
<task>Analyze the provided code for security and performance issues</task><focus_areas>– Authentication flows– Database query optimization</focus_areas>
<code>[your code here]</code>
<output_requirements>– Identify specific vulnerabilities with severity ratings– Provide corrected code examples– Prioritize recommendations by business impact</output_requirements>

对比这些输出,你会发现结构化提示会提供更多上下文信息,帮助你理解并修复代码中的安全问题。它会解释问题所在,说明修复方案的作用,并提供相应的代码修复。
其他适用格式:
JSON:
{
"task": "Review authentication code",
"focus_areas": ["Password hashing", "Session security", "SQL injection"],
"context": "Healthcare app, HIPAA required",
"output_format": "Risk, impact, fix, severity per vulnerability"
}
Clear Headers:
TASK: Review authentication code for vulnerabilities
FOCUS: Password hashing, sessions, SQL injection
CONTEXT: Healthcare app requiring HIPAA compliance
OUTPUT FORMAT: Risk → HIPAA impact → Fix → Severity
三种方法的效果都一样好。
结构化提示最适用的情况:
- 包含多个提示组件(任务、背景、示例、要求)
- 输入内容较长(超过 10,000 个代码或文档标记)
- 步骤清晰的顺序工作流程
- 需要反复参考特定部分的任务
何时可以跳过结构化提示:纯文本即可满足需求的简单问题。
有效性评分:复杂任务 9/10,简单查询 5/10。
2. 扩展思维在复杂问题中的应用
扩展思维能够显著提升复杂推理任务的完成能力,但代价是速度有所下降。
Anthropic 公司发布的 Claude 4 系统公告显示,启用扩展思维后,系统性能得到了显著提升。在 AIME 2025 数学竞赛中,该系统的成绩也得到了显著提高。

Cognition AI 报告称,Sonnet 4.5 的规划性能提升了 18%,并称之为“自 Claude Sonnet 3.6 以来最大的提升”。
之前(标准模式):Solve this logic puzzle: Five houses in a row, each a different color…(译文:解决以下逻辑谜题:五个房子排成一排,每个房子颜色都不同……)

拓展思考:Understand the logic of this puzzle systematically. Go through the constraints step by step, checking each possibility before reaching conclusions.Five houses in a row, each a different color…(译文:系统地理解这个谜题的逻辑。逐步检查限制条件,在得出结论前逐一检验每一种可能性。五栋房子排成一排,每栋房子颜色都不同……)

对于像上面这样的简单提示,您可能感觉不到太大区别。但对于复杂、特殊的难题(例如自定义代码库、多步骤逻辑规划),区别就显而易见了。
扩展功能适用场景:
- 需要验证的多步骤逻辑规划
- 具有多条解法的数学推理
- 跨越多个文件的复杂编码任务
- 正确性比速度更重要的场景
不适用场景:快速迭代、简单查询、创意写作、时间紧迫的任务
有效性评分:复杂推理 10/10,简单查询 3/10
3. 明确具体地描述需求
Claude 4 模型经过训练,能够比以往的几代模型更精确地执行指令。
Anthropic 的文档指出:
Claude 4.x 模型对清晰明确的指令反应良好。明确描述您期望的输出有助于提升结果。如果客户希望获得之前 Claude 模型所具备的‘超越以往’的功能,则可能需要在新模型中更明确地提出这些功能需求。
文档还指出,如果您提供规则存在的理由(而不仅仅是命令),Claude 能够根据解释进行泛化。这意味着提供理由有助于模型在未明确涵盖的特殊情况下正确应用原则。
16x Eval 的测试表明,当指令明确规定了需求、格式和成功标准时,Opus 4 和 Sonnet 4 在 TODO 任务上的得分均为 9.5/10。这些模型展现出了令人印象深刻的简洁性和指令执行能力。
之前(隐含预期):Create an analytics dashboard.(译文:创建分析仪表板。)

你会注意到,这个输出结果完全符合我们的要求。虽然 Claude 在美观方面做了一些创意发挥,但它没有任何实际功能。
后续(明确要求):Create an analytics dashboard. Include as many relevant features and interactions as possible. Go beyond the basics to create a fully-featured implementation with data visualization, filtering capabilities, and export functions.(译文:创建一个分析仪表板。尽可能包含所有相关功能和交互。超越基础功能,创建一个功能齐全的实现,包括数据可视化、筛选功能和导出功能。)

第二个输出包含更详细的提示,功能更丰富,它基于一些虚拟数据构建了一个仪表盘,以图形和表格两种格式呈现,并使用标签页分隔所有数据。
这就是最新版 Claude 中明确说明指令的作用。
为了进一步阐明这一点,这里还有一个例子,展示了上下文如何提升指令的执行效果:
之前(无上下文的命令):NEVER use ellipses in your response.(切勿在回复中使用省略号。)
之后(基于上下文的指令):Your response will be read aloud by a text-to-speech engine, so avoid ellipses since the engine won’t know how to pronounce them.(译文:您的回复将由文本转语音引擎朗读,因此请避免使用省略号,因为引擎无法正确发音。)
明确指令的关键原则:
- 明确定义“全面”的含义,以适应您的具体任务:不要假设 Claude 会推断出质量标准。
- 解释规则存在的原因,而不仅仅是陈述规则:Claude 能更好地从有针对性的指令中进行概括。
- 明确指定输出格式:要求输出“散文段落”,而不是寄希望于 Claude 不会默认生成项目符号列表。
- 提供具体的成功标准:任务完成的标准是什么?
有效性评分:所有任务类型均为 9/10
4. 展示预期行为示例
少量提示可以为 Claude 提供示例输入和输出,以展示期望的行为。这种方法有效,但前提是示例必须高质量且与任务相关,而且效果会因用例而异。
Claude 4.x 模型非常注重细节和示例,这是其精确执行指令的一部分。请确保您的示例与您希望鼓励的行为相符,并尽量避免您希望避免的行为。
Anthropic 建议,对于复杂任务,应提供 3-5 个多样化且相关的示例。示例越多,性能越好。
以下是一个实际应用示例:

在这里,Claude 在格式、表情符号的使用、信息传递和语气方面都进行了自由发挥。通用的企业用语
添加示例之所以有效,是因为它们能展示而非讲述,同时还能阐明仅凭描述难以表达的细微要求。

此输出更贴近我在提示中提供的示例。您可以使用少量示例的方法,使 LinkedIn 帖子与您表现最佳的帖子类似。一篇关于有限状态机 (FSM) 设计的学术论文表明,结构化示例的成功率比没有示例的说明高出 90%。
如何实现:
- 将示例放在
<example>标签中,并用<examples>标签分组。 - 将示例放在第一条用户消息的开头。
- 对于复杂的任务,使用 3-5 个不同的示例。
- 确保示例中的每个细节都与预期输出完全一致(Claude 4.x 会复制命名约定、代码风格、格式和标点符号)。
- 避免冗余示例。
示例的最佳应用场景:
- 需要精确结构的数据格式化。
- 需要特定方法的复杂编码模式。
- 展示推理方法的分析任务。
- 需要一致风格和约定的输出。
何时可以跳过示例:简单的查询,说明就足够了;或者当您希望 Claude 使用其自身的判断时。
有效性评分:格式化任务 10/10,简单查询 6/10。
5. 在提问前添加上下文
Claude 的上下文窗口大小为 20 万个词元(某些情况下可达 100 万),可以理解上下文中任何位置的查询。但 Anthropic 的文档建议将较长的文档(2 万个词元以上)放在提示的顶部,查询之前。
测试表明,与先问后答的排序方式相比,这种做法可以将响应质量提高高达 30%,尤其是在处理复杂的多文档输入时。
原因在于,Claude 的注意力机制会赋予提示末尾的内容更高的权重。将问题放在上下文之后,可以让模型在生成答案时参考之前的内容。
之前(问题优先):Analyze the quarterly financial performance and identify key trends.[20,000 tokens of financial data](译文:分析季度财务业绩并识别关键趋势。[20,000 个财务数据词元])
之后(上下文优先):[20,000 tokens of financial data]Based on the quarterly financial data provided above, analyze performance and identify key trends in revenue growth, margin expansion, and operating efficiency. Focus on actionable insights for executive decision-making.(译文:[20,000 个财务数据词元]基于以上提供的季度财务数据,分析业绩并识别收入增长、利润率提升和运营效率方面的关键趋势。重点关注可供高管决策的可操作性见解。)
适用场景:需要 Claude 大量参考先前内容的长上下文分析。
可跳过场景:少于 5,000 个词元的简短提示。
有效性评分:长上下文任务 8/10,简短提示 4/10
哪些提示技巧不再有效:破除常见误区
Claude 4.5 的改动使一些在早期版本中行之有效的常用技巧失效。
1. 强调词(全部大写,“必须”、“总是”)
使用全部大写字母不再能保证系统执行指令。Chris Tyson 的分析发现,Claude 现在更注重上下文和逻辑,而非强调。
如果你写“绝不捏造数据”,但上下文暗示你需要估算值,Claude 4.5 会优先考虑逻辑需求,而非你使用大写字母的指令。
改用条件逻辑:
- 错误:始终使用精确数字!
- 正确:如果有已验证的数据,请使用精确数字。如果没有,请提供范围并将其标记为估算值。
2. 手动输入思维导图指令
在使用扩展思维模式时,告诉模型“按步骤思考”会浪费代币。
启用“扩展思维”后,模型会自行管理推理预算。此时添加“分步”指令是多余的。
正确的做法:
信任工具。如果启用“扩展思维”,请移除所有关于如何思考的指令。
3. 负面约束(“不要做X”)
直接告诉 Claude 不要做什么往往会适得其反。
关于“粉红大象”指令的研究表明,告诉高级模型不要思考某些事情反而会增加它关注该事情的可能性。
Claude 的注意力机制会突出显示被禁止的概念,使其在上下文窗口中保持活跃。
因此,请将每个负面指令重新表述为正面指令:
- 错误做法:不要写冗长空洞的引言。不要使用“深入研究”或“编织”之类的词语。
- 正确做法:直接切入核心论点。使用简洁有力的语言。
如何将提示词从Claude 3.5迁移到Claude 4.5?
如果您要从 Claude 3.5 迁移到 4.5,可以按照五个经过开发者验证的系统步骤来迁移您的提示词库。
本示例将使用一个常见的托管场景。目标是为在其 WordPress 网站上遇到“503 服务不可用”错误的客户生成技术支持响应。

1. 审核隐含假设
首先,确定提示中哪些部分依赖于模型来猜测上下文。在旧版本中,模型会推断您正在使用最常见的软件栈。Claude 4.5 不会进行这种推断。
旧版提示:“My website is loading slowly and showing errors. You are an expert server administrator. Think step by step and tell me how to fix the configuration to make it faster.”

审核结果:
- “Website”指的是通用设置,而非特定的内容管理系统(例如 WordPress)。
- “Slowly”一词含义主观,可能指首字节响应时间过长或资源渲染缓慢。
- “Errors”缺少诊断所需的具体 HTTP 状态代码。
- “Expert server administrator”和“Think step by step”是不必要的指导性说明。
在响应中,Claude 4.5 会要求提供更多信息,因为它经过训练,不会妄下断言。
2. 重构以明确具体性
现在,请重写提示信息,以定义环境、具体问题和所需的输出格式。您必须提供模型之前猜测的技术细节。
重构后的提示词:“My WordPress site running on Nginx and Ubuntu 20.04 is experiencing high Time to First Byte (TTFB) and occasional 502 Bad Gateway errors. You are an expert server administrator. Think step by step and provide specific Nginx and PHP-FPM configuration changes to resolve these timeouts.”

结果:现在提示信息会明确指出具体的软件栈(Nginx、Ubuntu、WordPress)和具体错误(502 Bad Gateway),从而降低了出现与 Apache 或 IIS 无关建议的可能性。Claude 会提供分析和分步解决方案。
3. 实现条件逻辑
Claude 4.5 在处理决策树时表现出色。与其要求模型给出单一的静态解决方案,不如指示模型根据其分析的数据处理不同的场景。
使用逻辑提示词:“My WordPress site running on Nginx and Ubuntu 20.04 is experiencing high TTFB and 502 Bad Gateway errors. You are an expert server administrator. Think step by step.If the error logs show ‘upstream sent too big header’, provide configuration changes for buffer sizes. If the error logs show ‘upstream timed out’, provide configuration changes for execution time limits.”

结果:输出结果将变为动态的。该模型会根据您定义的特定根本原因逻辑提供针对性的解决方案,而不是提供通用的修复列表。
4. 移除过时的指示语
旧版提示通常包含用户认为可以提升性能的思考指令。但对于 Claude 4.5 而言,这些指令已不再必要且冗余,因为它已扩展了思考功能。
清理后的提示:“My WordPress site running on Nginx and Ubuntu 20.04 is experiencing high TTFB and 502 Bad Gateway errors.If the error logs show ‘upstream sent too big header’, provide configuration changes for buffer sizes. If the error logs show ‘upstream timed out’, provide configuration changes for execution time limits.”

结果:更简洁的提示,专注于技术任务本身,避免了“你是专家”和“按步骤思考”等干扰性语句。
5. 系统性测试
使用 XML 或清晰的头部信息将各个组件组装成结构化格式。这样可以与模型的训练数据相匹配,从而获得最一致的结果。
ROLE: Linux System Administrator specializing in Nginx and WordPress performance. TASK: Resolve 502 Bad Gateway errors and reduce Time to First Byte (TTFB) for a WordPress site on Ubuntu 20.04. LOGIC: - If logs show 'upstream sent too big header', increase fastcgi_buffer_size and fastcgi_buffers. - If logs show 'upstream timed out', increase fastcgi_read_timeout in nginx.conf and request_terminate_timeout in www.conf. OUTPUT REQUIREMENTS: - Provide exact configuration lines to change. - Explain the impact of each change on server memory.

结果:回复更有条理,让我能够按照要求使用可复制粘贴的配置文件数据解决问题,并且对解决方案的解释也更加清晰。
这对您的工作流程意味着什么
Claude 4.x 模型的工作方式与之前的模型有所不同。它们会严格按照您的指令执行,而不是假设您的意图,这在您需要获得一致结果时尤为重要。如果您需要重复运行相同的任务,那么在初期投入到提示设计方面的精力将会得到回报。
本指南中的每项技术都经过精心挑选,因为它们与 Claude 4.x 的构建方式高度契合。XML 标签、扩展思维模式、明确的指令、少量示例以及上下文优先的方法之所以有效,是因为根据 Claude 的提示指南和一些经验证据,这很可能是 Anthropic 训练模型的方式。
因此,不妨从本指南中选择一两项技术,并在您的实际工作流程中进行测试。评估哪些更改和方法对您有利。最好的方法是以你日常工作流程中的真实数据为依据的方法。


评论留言