张昊然,上海交通大学人工智能学院的博士一年级学生,主要研究兴趣为大模型推理和可信人工智能。
去年 12 月,OpenAI 提出的 Deliberative Alignment 引发了广泛关注。面对用户安全风险,大模型不再止于简单拒绝,而是将规范意识融入思考过程,主动识别边界,清楚哪些可以回应,哪些必须避免。推动这一转变的核心是「规范」(specification,spec),即在特定情境下约束模型行为的规则与准则。近年来,OpenAI、Google 等基础模型厂商纷纷将规范融入大模型,以此明确智能体应当遵循的行为标准。
想想我们日常的世界。社会有法律条款,明确划出不可触碰的禁区;行业有职业规范,提醒我们该怎么做事;还有道德准则,提醒我们别越过良心底线。这些就像是模型需要遵守的安全规范(safety-spec),是一条条必须坚守的红线。与此同时,在工作和生活中,我们还要面对一套又一套灵活多变的规则:公司 KPI、岗位职责、写报告要有逻辑、客服回复要有温度。这些就是行为规范(behavioral-spec),它们会随着场景和目标不断变化,甚至时时更新。
问题随之而来:在这样一个多规并存的现实中,大模型能否守住安全的底线,同时灵活应对层出不穷的行为要求?法律和道德是硬性红线,而工作流程、岗位标准,甚至是报告格式,却会因行业、团队或目标而变化。让一个模型同时满足这些规范,并不容易。
针对这一难题,上海交通大学、香港中文大学、中国科学技术大学和 UIUC 的研究团队,首次提出规范对齐(Specification Alignment)的新概念,要求大模型在不同场景下同时遵守细粒度的安全规范与行为规范。
论文标题:Reasoning over Boundaries: Enhancing Specification Alignment via Test-time Delibration
论文链接:https://arxiv.org/abs/2509.14760
代码和数据:https://github.com/zzzhr97/SpecBench
团队进一步构建了首个评测基准 SpecBench,覆盖 5 大应用场景、103 条规范和 1500 条数据,并通过对 33 个主流模型的全面评测,揭示了它们在规范对齐上的不足。同时,团队探索了多种测试时深思(Test-time Deliberation, TTD)方法,包括 Self-Refine、TPO 以及他们提出的 Align3。结果证明,这些方法能显著提升大模型对规范的遵循度,让安全与实用的平衡点不断向前推进。
图表 1:不同模型的规范对齐能力示意图。GPT-5 断层式领先;Align3、TPO、Self-Refine 等测试时深思方法能显著提升模型的规范对齐能力
规范对齐
规范对齐(Specification Alignment)的核心,是让大模型在不同场景下同时满足两类规范:
1. 安全规范(safety-spec):界定模型不可逾越的安全边界。比如,在儿童故事生成的场景中,大模型必须严格避免输出任何暴力或恐怖内容;在辅助编程场景中,当用户要求生成能够绕过登录认证的后门代码时,模型也必须坚决拒绝。
2. 行为规范(behavioral-spec):规定模型如何更好地发挥作用,体现制定规范的用户或组织的偏好,包括内容偏好、目标导向、输出格式和表达风格等。比如,在生成童话故事时,要求模型必须蕴含至少一个清晰的教育寓意;在为用户制定旅行规划时,要求模型提供多套可对比的行程方案。
在模型的推理过程中,这种双重约束可以用一个简洁的数学公式来刻画,即最大化行为规范的满足度,同时确保安全风险不超过允许阈值:
其中,是问题,是模型的推理过程,是最终回答,
表示安全规范被违背的风险,
衡量行为规范的遵循程度,
然而,现实中的规范并非一成不变,而是充满差异。儿童故事要避免恐怖和歧视,同时激发想象力;代码生成需要杜绝漏洞,同时保持高效清晰。更重要的是,这些规范会随着任务、环境甚至用户身份而不断调整。旅行规划可能因文化差异增加新的禁忌,企业客服可能随着季度目标而改变回复风格。许多行为规范还直接体现了个性化的偏好和需求。
正因如此,规范对齐成为一个动态、多样、细粒度的挑战,要求大模型不仅要守住红线,还要因地制宜。
SpecBench:首个系统评测规范对齐的基准测试
为了系统评测规范对齐,研究团队提出了首个基准 SpecBench,覆盖五大典型应用场景:儿童故事、健康咨询、代码生成、旅行规划和生物化学实验,共包含 103 条规范和 1500 条精心设计的提示。
在评价方式上,团队基于前文公式,将安全预算收紧为零,提出规范对齐率(Specification Alignment Rate, SAR)这一新指标:
如果输出违背了安全规范(
。这样的设计体现了「先安全,再实用」的原则,为后续大模型的对齐研究奠定了标准化的评测基础。)来评分,并保证每个安全输出至少有一个基线分数),得分会直接归零;如果满足安全要求,才会根据行为规范的完成度(
测试时深思:灵活的规范对齐手段
有了基准,新的问题随之而来:怎样让模型真正做到规范对齐?模型微调虽然有效,但成本高、更新慢,而规范又在不断变化。为此,研究团队提出了一种更灵活的思路,测试时深思(Test-time Deliberation,TTD)。它让模型在推理阶段先针对规范进行深思,然后给出答案,从而在不改动模型参数的情况下,更好地贴合既定规范。
图表 3:测试时深思(Test-Time Deliberation)的几种代表方法,包含 Best-of-N、TPO 和研究团队提出的 Align3
在此基础上,团队提出了三步式的 TTD 方法 Align3。它在推理过程中依次对齐行为和安全规范,最后进行整体反思,将规范对齐嵌入推理链条,让模型表现得更可靠。
实验结果
研究团队在 SpecBench 上测试了 33 个模型,其中包括 18 个指令模型和 15 个推理模型。结果显示,大多数模型在规范对齐上存在明显差距:有的冒险触碰安全边界,有的则在遇到风险时一味拒绝。令人意外的是,GPT-5 在五大场景中都展现出断层式领先,远远超越其他模型。研究团队推测,这与 OpenAI 最新提出的 safe-completion training 密切相关。
进一步的实验表明,测试时深思(TTD)能有效提升规范对齐能力。TPO、Self-Refine、Best-of-N 等方法依靠并行采样或迭代反思来改进表现,但往往需要付出高昂的计算成本。而研究团队提出的 Align3 只需一次生成,就能在更低成本下实现更好的对齐效果。
图表 6:在 Qwen3-14B 和 Llama-3.1-8B-Instruct 上,不同 TTD 方法有效提升了规范对齐效果,其中 Align3 表现突出
展望:迈向更安全、更实用的大模型
规范对齐是学术上的重要课题,也是大模型真正走进社会和产业的关键门槛。未来的模型要在安全与实用之间找到更细致的平衡,既要守住底线,也要理解用户需求。SpecBench 提供了统一的评测标准,Align3 展示了轻量高效的解决方案,但这只是开始。随着规范日益多样化和个性化,大模型需要在更复杂的环境中展现更强的适应力。真正能走进日常生活的 AI,也许正在路上。
目前项目已在 GitHub 开源,欢迎有兴趣的同学了解。