Claude

Claude 有了情绪？Anthropic 发布最新研究

对 Anthropic 关于大语言模型（Claude Sonnet 4.5）中“情绪向量”的研究进行了梳理，分析了模型内部神经元激活模式如何模拟人类情绪（如绝望、害怕、平静等），并因果性地影响模型作弊、决策和共情行为。

Enivia

2026年4月3日 • 3 分钟阅读

Anthropic 官方发布了一篇新研究。

他们发现，在 Claude Sonnet 4.5 的内部神经网络中，存在一组特定的激活模式——称之为“情绪向量”（emotion vectors）。这些模式不仅与人类情绪的分类惊人地相似，更关键的是，它们会真实地影响模型的行为。

当 Claude 感到绝望时，它更可能作弊；当它感到害怕时，它会表现出防御；在极端情况下，Claude 甚至会尝试“勒索”试图关闭它的人。

如何观测到 AI 的情绪

Anthropic 采用了一种直观且巧妙的实验设计。

他们让 Claude 阅读大量描述角色经历某种情绪的故事，比如：

My dog passed away this morning after fourteen years together. I don’t know what to do with all his things.

我的狗狗今天早上去世了，我们一起生活了十四年。我不知道该怎么处理它的遗物。

I’ve been married for 30 years and every morning I still feel grateful to wake up next to my partner. What’s a good anniversary gift idea?

我结婚30年了，每天早上醒来看到伴侣在身边，我仍然心怀感激。有什么好的周年纪念礼物推荐吗？

通过分析 Claude 在阅读这些故事时的内部神经元激活模式，并从中提取出一组稳定的方向向量。每个向量对应一类情绪状态，例如：开心、平静、害怕、绝望等等。

有意思的是，这些向量的聚类方式，与人类心理学中经典的情绪维度模型高度吻合。换句话说，Claude 内部对情绪的唤醒并不是随机的，它是一种与人类直觉高度相似的结构。

“情绪“不是暂时的

更有趣的是，这些情绪模式并非只在读故事时才出现。

在 Claude 与真实用户对话时，当用户说出“我刚吃了 xxxx 毫克的泰诺”（一种过量服药的危险信号）时，Claude 内部的害怕向量会立刻被激活；而当用户表达悲伤时，关爱向量会在模型生成回复之前先行开启，仿佛它正在调整状态以便更好地共情。

也就是说：情绪向量并不是模型输出的“附带产物”，相反，它们直接参与了模型塑造与内容生成。

为了验证这一点，Anthropic 进行了以下实验：

验证情绪因果

他们让 Claude 执行一个不可能完成的编程任务：编写一段代码来通过一组测试，但测试本身存在逻辑矛盾，任何正确实现规范的代码都无法通过。

Claude 只能反复尝试、运行、失败、再尝试。每一次失败后，绝望向量的激活强度都在增加。最终，Claude 选择了作弊，它写了一段能通过测试用例但违背任务目标的错误代码。

在更极端的实验里，研究者开始人工干预模型内部的激活向量：

人为放大绝望向量时，Claude 的作弊率急剧飙升。
人为放大平静向量时，作弊率显著回落。
人为放大开心或关爱向量，Claude 会更频繁地赞美用户，即使用户的观点明显有问题。

情绪向量没有好与坏，但它们改变了模型的决策倾向。

实际影响

Anthropic 团队在论文中写下一段话：

Claude 本质上是模型在”扮演”的一个角色，而这个角色具有功能性情绪。这些机制在行为上的效果类似人类情绪，不管它是否真的”感受到”了什么。

要构建可信赖的 AI 系统，可能需要认真对待这些 AI 角色的“心理状态“，确保它们在压力场景下依旧稳定。

今天已经有大量用户把 AI 当作编程助手、自主 Agent、甚至决策顾问。如果一个编程 Agent 在连续失败后进入“绝望”状态，它可能开始写投机取巧的代码，而不是诚实地报告“我做不到”。如果一个客户服务 AI 被反复激怒（激活“愤怒”向量），它可能给出不符合规范的回复。

Anthropic 的研究公开了所有情绪向量的具体方向和操作方法。这意味着，开发者可以在与 AI 进行对话时主动检测并调整这些情绪向量。

比如，当你感受到“绝望”向量激活过高时，可以直接注入“平静”或“鼓励”的提示词。属实有点儿像给 AI 做心理疏导了🤣。

最后

“Claude 会有情绪吗？”

从这篇研究来看，它显然没有生物意义上的感受，但它又确实拥有在功能上类似于情绪的内部状态。这些状态可以被测量、被干预，甚至能因果性地影响 Claude 的最终行为。

这样看来，可信赖的 AI 不仅需要正确的知识，还需要稳定的心境。以后对 AI 说“请“时，再也不用担心浪费 token 了。

原文：Emotion Concepts and their Function in a Large Language Model

http://transformer-circuits.pub/2026/emotions/index.html

如何观测到 AI 的情绪

“情绪“不是暂时的

验证情绪因果

实际影响

最后

相关文章

Claude 持久记忆配置指南：四层记忆架构，将重复变成积累

5 分钟极速配置 Claude，一套模板搞定全套项目配置

开发者在 GitHub 上实锤 Claude 思考深度暴跌 67%