AI 大模型可监控性：从“隐瞒想法”到工程化监督

Anthropic 和 OpenAI 的关系，一直有点微妙。

这两家公司当然是竞争对手，但又不只是竞争对手。Anthropic 的几位核心创始人本来就出自 OpenAI，后来因为对 AI 安全、商业化节奏和组织治理的理解不同，另起炉灶做了 Claude。于是，今天再看 OpenAI 和 Anthropic 的公开研究，经常会有一种很奇妙的感觉：他们明明都在讲安全、讲对齐、讲负责任的模型能力，但读起来总像是在隔空回应。

最近关于 AI 大模型可监控性的几篇文章，就很有这种“针锋相对”的感觉。

先是 OpenAI 发了一篇文章，讨论推理模型对思维链（CoT）的控制能力。它的问题很具体：如果我们把模型自己输出的推理过程用来做风险监控，那么模型会不会故意把这段推理过程“粉饰太平”？

OpenAI 的观点是：至少现在，模型还不太擅长稳定控制自己的思维链，所以 CoT 监控仍然是一个有价值的监控方法。

这本来已经是一个有趣的发现。结果不久后，Anthropic 果断回击：别急着相信模型说出来的东西，因为模型内部可能已经有一些“没说出口”的判断。

Anthropic 发了一篇 Natural Language Autoencoders，试图把 Claude 内部数字形态的激活（activations）翻译成自然语言。

两篇文章都没有直接点名对方，但放在一起看，很难不觉得它们在围绕同一个问题拉扯：

当 AI 系统越来越复杂，我们到底还能不能看见它为什么这么做？

OpenAI 先给了一个相对乐观的答案

OpenAI 讨论的是推理模型的 CoT，也就是模型在解决任务时生成的中间推理步骤。

过去很多人对 CoT 监控抱有期待。理由很直观：如果模型在行动前会把自己的推理过程写出来，那么我们就可以从这些推理轨迹中发现不安全意图、错误计划，或者偏离用户目标的行为。

这就像在模型行动前，多看了一眼它的草稿纸。

但这立刻带来另一个问题：

如果模型知道自己的 CoT 正在被监控，它会不会故意去修改 CoT，把它改得更安全、更干净、更不暴露真实风险？

OpenAI 把这个问题称为 CoT 可控性。它测试模型是否能遵守一些关于 CoT 的指令，比如避开某些关键词、改变推理格式，或者添加特定模式。结果显示，当前前沿推理模型的 CoT 可控性普遍较低。

这就是 OpenAI 文章标题里“难以掌控 CoT，但这反而是件好事”的含义。

如果模型还不能稳定操控自己的 CoT，那么 CoT 监测在现阶段就仍然值得去当作监管手段。

这是一种相对乐观的判断。问题是，Anthropic 很快把镜头往更深处推了一层。

Anthropic 把问题推向内部

Anthropic 的 Natural Language Autoencoders（NLA）文章，看起来像是对这种乐观判断的一次补充，或者应该说是反驳。

它最吸引人的地方不是技术细节，而是提出了一个很容易传播的说法：

AI 模型可能没有在输出中明说某件事，但它的 activations 中已经包含了相关判断。

Anthropic 的方法大致是，把模型内部的 activations 转成自然语言解释，再尝试从这段解释重构原始 activations，即 NLA。如果解释能帮助重构 activations，就说明这段解释（至少）捕捉到了（一部分）内部状态。

这套机制的目标不是让模型继续解释自己的输出，而是绕过最终输出，直接观察中间表征。

更有冲击力的是 Anthropic 举的例子。在一些安全测试中，Claude 的推理过程并没有说“我正在被测试”。但 NLA 给出的解释显示，它的内部状态里可能已经出现了类似“这是一个测试场景”的判断。

这就抛出了一个很有戏剧性的问题：

AI 会不会隐瞒自己的想法？

如果用人类语言描述，这当然很像“心口不一”。模型表面上没有说，内部却已经“知道”。但这里也正是最需要小心的地方：这种表述虽然有传播力，却很容易把问题拟人化。

从工程角度看，更准确的说法也许是：

大模型的输出文本只是系统状态的一种外显结果，并不等于全部内部状态。模型内部可能存在一些没有被最终输出显化的中间表征，而这些表征仍然可能影响后续行为。

无论是“心口不一”还是“表达差异”，形成这个结论就已经足够重要了。

因为一旦 AI 系统进入代码执行、网页操作、长任务规划等场景，我们关心的就不只是它最后说了什么，而是它在行动前是否已经形成了某些风险信号。

两篇文章为什么显得针锋相对

OpenAI 关心的是：模型说出来的 CoT 是否还能被信任。

Anthropic 关心的是：模型没说出来的内部状态是否也应该被看见。

一个看外显推理，一个往里看。一个强调“输出仍有用”，一个提醒“输出不够”。

他们实际上在争论一个更底层的问题：

可靠监督的入口到底在哪里？

如果入口是模型自己生成的 CoT，那么重点就是保护 CoT 的真实性，避免把模型训练成只会输出漂亮、安全、被修饰过的推理文本。

如果入口是模型内部 activations，那么重点就是发展可解释性工具，把高维表征翻译成人类可以理解的证据。

这两条路线当然并不互斥。现实中更可能需要两者配合：CoT 监控负责观察外显推理， activations 解释负责补充那些没有说出口的内部状态。

但它们确实存在路线竞争。因为资源、注意力和安全叙事是有限的。到底应该优先投入 CoT 监控，还是优先投入 activations 解释？这些问题都会影响未来大模型的训练方式和产品形态。

如果只看 OpenAI 和 Anthropic，这个问题已经足够有趣。但再往外看，会发现这不是两家公司之间的小分歧，整个 AI 安全领域都在绕着这个问题打转。

更大的视角

Apollo Research 和 Frontier Model Forum 更接近 OpenAI 的方向，但措辞更谨慎。它们认为 CoT 监控虽然脆弱，但很重要。只要模型还需要用自然语言完成复杂推理，人类就有机会通过监控 CoT 发现不安全的意图。

但它们也强调，CoT 不是唯一答案。未来模型可能学会隐藏意图，开发者也可能为了让输出更美观、更符合产品预期，把 CoT 训练得越来越不像真实推理。因此，它们主张把 CoT 可监控性当作一项安全特性来保护。

METR 的视角更工程化。它关心的不只是 CoT 是否“诚实”，而是整个评测系统是否能抓住模型的真实能力和潜在行为。即使某些 CoT 未完全表达意图，它仍然可能包含有用信号；但这些信号能否用于高风险场景，还需要和其他监控与控制方法结合。

Google DeepMind 和 UK AISI 则把问题放进更大的安全框架。它们更关注前沿模型的能力阈值、危险能力评估、防御规避能力和国家安全风险。可监控性在这里不是单项技术，而是整个风险管理体系中的一环。

NIST 和 Future of Life Institute 的角度更偏治理。它们不会押注某一种具体技术，而是强调风险识别、可测量、管理、外部评估、信息披露和问责机制。换句话说，即使 CoT 监控和 activations 解释都在进步，企业仍然需要回答：谁来评估？如何复现？失败是否披露？风险超过阈值时是否停止部署？

到这里，问题已经从“能不能看见模型在想什么”，变成了“一个越来越复杂的 AI 系统，应该如何被持续观察、约束和审查”。

这时候再回头看 OpenAI 和 Anthropic 的分歧，就不会觉得它只是两家公司在争路线。它更像是一个更大问题的两个切面：

一边是语言监控路线，观察模型自己生成的 CoT。

一边是内部解释路线，观察模型的 activations、表征和机制。

再往外，还有系统治理路线，通过评测、审计、披露和监管来兜底。

到这里，我想回到“AI 会不会隐瞒自己的想法”这个问题本身，重新回答一下。

不要把工具拟人化

我始终认为，AI 大模型是作为“工具”的一种存在，不具备人格。

它没有人类意义上的自我意识、欲望、羞耻心或道德意图，也没有人类特有的连续内心世界。因此，当我们说模型“隐瞒想法”“伪装推理”“意识到自己被评测”时，需要非常谨慎。

这些说法有助于传播，但也容易误导。

更准确地说，大模型是在训练目标、上下文输入、推理机制和反馈信号共同作用下，生成某种输出和行为。它可能表现出类似隐瞒、规避、装乖的模式，但这不等于它像人一样“故意”隐瞒自己的想法。

这里的区别很重要。

如果我们把 AI 当成人，就很容易追问：它到底在想什么？它是不是有恶意？它是不是想骗我们？

但如果我们把 AI 当作复杂工具系统，就会变成工程问题：哪些内部状态与风险行为相关？哪些外显推理信号仍然可信？哪些日志、activations、工具调用、行为轨迹可以被记录和审查？哪些评测能暴露规避行为？哪些部署机制能在风险升高时及时切断？

我更相信后一种提问方式。

AI 不需要具备人格，才会产生难以直接观察的中间状态。

飞机没有人格，飞控系统仍然需要黑盒记录和传感器监控；自动驾驶系统没有人格，仍然需要感知解释、轨迹记录和安全冗余。

大模型也是一样。

我们不必假设它“有心隐瞒”，也应该承认它的内部状态和行为路径会越来越复杂。可监控性的目标不是证明 AI 有人格，而是把这些复杂状态转化为可测量、可解释、可审查的工程对象。

最后：可监控性是工程问题

所以，我对 AI 大模型可监控性的判断偏乐观。

不是因为我相信模型会天然诚实，也不是因为我相信某一种监控技术已经成熟，而是因为我认为问题本身可以被工程化拆解。

CoT 监控可以观察外显推理， activations 解释可以补充内部表征，行为评测可以观察真实任务表现，对抗测试可以寻找规避路径。

工具调用日志可以记录行动链路，权限系统可以限制可执行动作，外部审查和治理框架可以把技术信号转化为责任机制。

这些方法没有任何一个能单独解决问题，但它们叠加起来，就能把“不可见的模型状态”逐步变成“可观测的系统行为”。真正可靠的可监控性，应该不会来自单一路线，而会来自多层叠加。

因此，可监控性不是一个抽象哲学问题，也不是一个人格判断问题。它更像是安全工程、可解释性、系统设计和治理机制交叉形成的一组能力。

更重要的是，只要我们不被“AI 是否真的在想”这个问题带偏，而是持续追问“哪些状态可以被测量，哪些行为可以被审查，哪些风险可以被提前发现”，那么 AI 大模型的可监控性就不是空中楼阁。

它应该，也一定会成为 AI 工程体系中的基础能力。

参考文章

Anthropic: Natural Language Autoencoders: Turning Claude’s thoughts into text
OpenAI: 推理模型难以掌控思维链，但这反而是件好事
Apollo Research: Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety
Frontier Model Forum: Chain of Thought Monitorability
METR: CoT May Be Highly Informative Despite “Unfaithfulness”
Google DeepMind: Updating the Frontier Safety Framework
UK AI Security Institute: AISI Frontier AI Trends Report 2025
NIST: Artificial Intelligence Risk Management Framework 1.0
Future of Life Institute: 2025 AI Safety Index

返回文章列表返回首页

AI 大模型可监控性：从“隐瞒想法”到工程化监督

AI 大模型可监控性：从“隐瞒想法”到工程化监督

OpenAI 先给了一个相对乐观的答案

Anthropic 把问题推向内部

两篇文章为什么显得针锋相对

更大的视角

不要把工具拟人化

最后：可监控性是工程问题

参考文章

同主题继续阅读

AI 应用公司，是不是在替模型厂商打工

我的应用场景到底该用 Agent，还是 Workflow

用 hooks 机制锚定 skills 工作流

多个agent协同工作，真的更强大吗

建立无环的agent工作流