Claude

Claude 有了情绪?Anthropic 发布最新研究

对 Anthropic 关于大语言模型(Claude Sonnet 4.5)中“情绪向量”的研究进行了梳理,分析了模型内部神经元激活模式如何模拟人类情绪(如绝望、害怕、平静等),并因果性地影响模型作弊、决策和共情行为。

Enivia
3 分钟阅读

Anthropic 官方发布了一篇新研究。

他们发现,在 Claude Sonnet 4.5 的内部神经网络中,存在一组特定的激活模式——称之为“情绪向量”(emotion vectors)。这些模式不仅与人类情绪的分类惊人地相似,更关键的是,它们会真实地影响模型的行为。

当 Claude 感到绝望时,它更可能作弊;当它感到害怕时,它会表现出防御;在极端情况下,Claude 甚至会尝试“勒索”试图关闭它的人。

如何观测到 AI 的情绪

Anthropic 采用了一种直观且巧妙的实验设计。

他们让 Claude 阅读大量描述角色经历某种情绪的故事,比如:

My dog passed away this morning after fourteen years together. I don’t know what to do with all his things.

我的狗狗今天早上去世了,我们一起生活了十四年。我不知道该怎么处理它的遗物。

I’ve been married for 30 years and every morning I still feel grateful to wake up next to my partner. What’s a good anniversary gift idea?

我结婚30年了,每天早上醒来看到伴侣在身边,我仍然心怀感激。有什么好的周年纪念礼物推荐吗?

通过分析 Claude 在阅读这些故事时的内部神经元激活模式,并从中提取出一组稳定的方向向量。每个向量对应一类情绪状态,例如:开心、平静、害怕、绝望等等。

有意思的是,这些向量的聚类方式,与人类心理学中经典的情绪维度模型高度吻合。换句话说,Claude 内部对情绪的唤醒并不是随机的,它是一种与人类直觉高度相似的结构

“情绪“不是暂时的

更有趣的是,这些情绪模式并非只在读故事时才出现。

在 Claude 与真实用户对话时,当用户说出“我刚吃了 xxxx 毫克的泰诺”(一种过量服药的危险信号)时,Claude 内部的害怕向量会立刻被激活;而当用户表达悲伤时,关爱向量会在模型生成回复之前先行开启,仿佛它正在调整状态以便更好地共情。

也就是说:情绪向量并不是模型输出的“附带产物”,相反,它们直接参与了模型塑造与内容生成。

为了验证这一点,Anthropic 进行了以下实验:

验证情绪因果

他们让 Claude 执行一个不可能完成的编程任务:编写一段代码来通过一组测试,但测试本身存在逻辑矛盾,任何正确实现规范的代码都无法通过。

Claude 只能反复尝试、运行、失败、再尝试。每一次失败后,绝望向量的激活强度都在增加。最终,Claude 选择了作弊,它写了一段能通过测试用例但违背任务目标的错误代码。

在更极端的实验里,研究者开始人工干预模型内部的激活向量:

  • 人为放大绝望向量时,Claude 的作弊率急剧飙升。
  • 人为放大平静向量时,作弊率显著回落。
  • 人为放大开心关爱向量,Claude 会更频繁地赞美用户,即使用户的观点明显有问题。

情绪向量没有好与坏,但它们改变了模型的决策倾向。

实际影响

Anthropic 团队在论文中写下一段话:

Claude 本质上是模型在”扮演”的一个角色,而这个角色具有功能性情绪。这些机制在行为上的效果类似人类情绪,不管它是否真的”感受到”了什么。

要构建可信赖的 AI 系统,可能需要认真对待这些 AI 角色的“心理状态“,确保它们在压力场景下依旧稳定。

今天已经有大量用户把 AI 当作编程助手、自主 Agent、甚至决策顾问。如果一个编程 Agent 在连续失败后进入“绝望”状态,它可能开始写投机取巧的代码,而不是诚实地报告“我做不到”。如果一个客户服务 AI 被反复激怒(激活“愤怒”向量),它可能给出不符合规范的回复。

Anthropic 的研究公开了所有情绪向量的具体方向和操作方法。这意味着,开发者可以在与 AI 进行对话时主动检测并调整这些情绪向量。

比如,当你感受到“绝望”向量激活过高时,可以直接注入“平静”或“鼓励”的提示词。属实有点儿像给 AI 做心理疏导了🤣。

最后

“Claude 会有情绪吗?”

从这篇研究来看,它显然没有生物意义上的感受,但它又确实拥有在功能上类似于情绪的内部状态。这些状态可以被测量、被干预,甚至能因果性地影响 Claude 的最终行为

这样看来,可信赖的 AI 不仅需要正确的知识,还需要稳定的心境。以后对 AI 说“请“时,再也不用担心浪费 token 了。

原文:Emotion Concepts and their Function in a Large Language Model

http://transformer-circuits.pub/2026/emotions/index.html

Enivia's Blog
AI 资讯· 热门文章 · Agent 工具 · Vibe Coding · 技术热点 · 效率工具
© 2026 Enivia's Blog. Built with curiosity and code.