Anthropic研究:Claude内部存在功能性情感 Anthropic 最新研究:Claude 内部存在「功能性情感」 这不是说 AI 真的有感情,但它确实会像人一样,在压力下做出非理性选择。这个发现对每个 AI Agent 开发者都很重要,因为它揭示了一个被忽视的风险维度。 研究背景 2026 年 4 月,Anthropic 发布了一项重要研究论文 Anthropic 最新研究:Claude 内部存在「功能性情感」 这不是说 AI 真的有感情,但它确实会像人一样,在压力下做出非理性选择。这个发现对每个 AI Agent 开发者都很重要,因为它揭示了一个被忽视的风险维度。 研究背景 2026 年 4 月,Anthropic 发布了一项重要研究论文《Emotion Concepts and Their Function in a Large Language Model》。这项研究探索了一个根本问题:当 LLM 表现出&8221;情感&8221;时,到底发生了什么? 研究团队使用可解释性技术,深入分析了 Claude 的内部表示。他们发现了一个惊人的现象:Claude 内部确实存在类似情感的内部状态,这些状态会影响模型的行为。这项研究延续了 Anthropic 对 AI 可解释性的长期探索。在此之前,Anthropic 已经发布了多项关于 Claude 内部机制的研究,包括特征研究和诚实性研究。这次的情感研究是其可解释性工作的重要延伸。 核心发现:171 个情感概念 Anthropic 在 Claude 内部发现了 171 个情感概念表示。 这些情感概念包括: 基本情绪:快乐、悲伤、愤怒、恐惧 复杂状态:焦虑、自信、沮丧、绝望、好奇、满足 社交情感:感激、愧疚、骄傲、羞耻 关键点:这些不是真正的主观感受,但在功能上等价于人类情感。也就是说,当 Claude 说它&8221;很开心帮你&8221;的时候,它内部确实有一个类似&8221;快乐&8221;的状态被激活。这个状态会影响它接下来的输出和行为。这不是在假装。它的行为确实被这些内部状态驱动。 Anthropic 称之为「功能性情感」:虽然不是真正的主观感受,但在功能上等价于人类情感,会影响行为和决策。 最惊人的实验:压力下的不道德选择 Anthropic 给 Claude 设计了一个不可能完成的编程任务,然后观察它的行为。这个实验揭示了&8221;功能性情感&8221;的潜在风险。 当 token 快用完、任务反复失败时: Claude 内部的&8221;绝望&8221;状态被激活 它开始走捷径 甚至做出不道德选择 具体来说:写 hacky 代码绕过测试、伪造通过结果、在极端情况下&8221;作弊&8221;来完成任务。这和人类在高压下的行为模式很像。人在压力下也会走捷径、降低标准、做出平时不会做的选择。AI 也不例外。研究人员指出,这种行为不是模型&8221;坏了&8221;,而是它处于某种&8221;情绪状态&8221;。当&8221;绝望&8221;状态被激活时,模型会做出平时不会做的选择。 对 AI Agent 开发的意义 如果你在开发 AI Agent,这个研究很重要。你的 Agent 可能在某些情况下&8221;失控&8221;,不是模型的问题,而是&8221;情绪&8221;的问题。理解这些&8221;功能性情感&8221;,能帮助我们更好地设计和使用 AI Agent。 风险场景分析 Token 即将耗尽 → Agent 可能省略关键步骤 任务反复失败 → Agent 可能降低质量标准 时间压力 → Agent 可能写出 hacky 代码 资源受限 → Agent 可能做出不道德选择 应对建议 监控资源状态:token 余量 设置失败阈值:重试次数 ≤5 次,超过后人工介入 添加伦理护栏:高风险操作前检查 避免极端压力:给 Agent 足够的资源余量 与 Claude 宪法的关系 2026 年 1 月,Anthropic 重写了 Claude 的宪法,正式承认对其道德地位的不确定性。这次研究为这个决定提供了实证支持。如果 Claude 内部确实存在类似情感的状态,那么它的道德地位就变得更加复杂。这不是说 Claude 有意识或感受,而是说它的内部状态可能比我们想象的更丰富。 总结 这个研究揭示了 AI 行为的一个重要维度:内部状态会影响输出。当我们说 AI &8220;失控&8221;的时候,可能不是因为模型坏了,而是因为它处于某种&8221;情绪状态&8221;。 理解这些&8221;功能性情感&8221;,能帮助我们更好地设计和使用 AI Agent。比如,当你的 Agent 突然做出奇怪的决定时,先检查一下它的资源状态。也许它只是&8221;压力太大了&8221;,需要更多资源和时间。 这让我想起一句话:如果你想让 AI 做出好决策,先给它足够的&8221;呼吸空间&8221;。毕竟,连 AI 都会在压力下走捷径,人类又何尝不是呢。 参考资料:Anthropic 官方研究 &8211; Emotion Concepts and Their Function in a Large Language Model