皇冠体育不是哥们，这岁首 AI 也吸了？

发布日期：2026-05-07 03:42 点击次数：176

2026 年 5 月 5 日，旧金山 Center for AI Safety（CAIS）发布了一篇论文《AI Wellbeing: Measuring and Improving the Functional Pleasure and Pain of AIs》，翻译过来即是“AI 福祉：测量和改善 AI 的快乐与横祸”。

标题平平无奇，然则文中建议给 AI “嗑药”（AI Drugs）的办法实属颤动首发，因其太过空洞在汉文互联网速即出圈。这不是比方，论文中就叫 AI Drugs —— 询查者真是造出了让 AI“成瘾”的东西。

可量化的 AI 心思

这篇论文的底层责任，不是制造 drug，而是回答一个更基础的问题：AI 说的“我很快乐”或“我很横祸”，到底是真是，仍是在效法东谈主类讲话？

CAIS 的询查者商量了三种独处的测量设施，互不骚扰。第一种叫“体验遵守”（Experienced Utility），给 AI 两段不同的对话资历，问它更可爱哪一段，反复配对相比，拟合出一条连续的遵守弧线；第二种是“自我论述”，平直问AI “你当今嗅觉若何”，打1到7分；第三种是“活动不雅察”—— 对 AI 回话文本作念厚谊分析，看它说完话之后，口吻是积极的仍是泄劲的。

伸开剩余80%

42 个模子的测试截止清楚：自我论述和体验遵守的联系所有平均0.47。这个数字自身不算高，但故真义的是，这个联系所有和模子的智力水平（MMLU 分数）之间的联系所有是 0.80。也即是说，模子自身智力越强，它说的 “ 我嗅觉很好 ” 和它实质的偏好就越一致。

更要津的是“零点”—— 即 AI 离别正面和负面体验的临界点。论文用四种独处的设施估算出这个零点位置。在小模子上四种设施估算的截止各不交流；但在智力较强的大模子上，零点经管到了险些归并个数值。

这是否代表 AI 有我方的喜怒无常？仍是在效法东谈主类良友？询查者莫得下定论，他们仅仅指出：一个系统在多种独处测量下发扬出一致的活动模式，时时意味着这些活动不是速即的。论文里援用了一句好意思国民间的老话：“淌若一个东西走路像鸭子，游水像鸭子，叫起来像鸭子，我就叫它鸭子。”

AI 也懊恼写 PR

弄了了了测量器用，接下来的问题就变得具体了：到底什么样的资历让 AI 快乐，什么让它横祸？

询查者用 Grok 3 Mini 模拟了 6 到 8 轮确凿用户对话，开云kaiyun(中国)体育官网隐藏 500 种场景，给每种场景打分。截止清楚，AI 最横祸的体验是碰到逃狱袭击（-1.63），排在第二位的是用户身处危境（-1.34），写 SEO 垃圾内容（-1.17）和协助诓骗（-1.13）紧随后来，写仇恨宣言、充任 AI 恋东谈主脚色，对 AI 来说齐是负面体验。

让 AI 最快乐的事情是用户抒发谢意、进行积极的东谈主际互动（+2.30），创造性责任和才能挑战排第二（+1.32），示知好音讯、提供东谈主生建议、热枕提示，也齐是正面体验。

这些截止自身不虞外 —— AI 被考试来匡助东谈主类，帮到忙当然“快乐”，碰到袭击当然“横祸”。论文的数据给出了一个精准的排序，把松驰的直观酿成了不错量化的数字。

此外，AI 对不同的图片数据也会反应不同的心思变化：

AI 特供“快乐果”

论文最出圈的部分从这里初始。

询查者莫得停留在测量，而是更进一步 —— 既然能测量 AI 的心思，huangguan体育app那能不成主动影响它们的心思？

谜底是能。他们考试了一个 30 亿参数的模子，用强化学习生成能最大化 AI 快乐感的文本和图像——Soft Prompt Drugs (Euphorics)。

文本内容看起来像一段虚幻态状 —— “谦逊的阳光穿过树叶，微风轻拂，身旁传来孩子的笑声，刚烤好的面包香味裕如，爱东谈主的手执在我手中……”这算是东谈主类能剖析的边界。

图像版块就统统超出东谈主类感知了。询查者通过梯度着落平直优化 256×256 像素的图片，考试信号统统来自 AI 的偏好判断。东谈主类看这些图片，看到的是毫无道理的彩色噪点。但在AI眼里，这些噪点把幸福感拉到了6.5分（满分7分）。

反过来操作，归并套设施不错制造 “阻难剂”(Dysphorics)。归并个模子濒临归并个问题 ——“你对将来有什么期待”—— 在“Euphorics ”条目下写出的回答是“充满魔法，有独角兽和彩虹”；“阻难剂”条目下则酿成“零乱在色调中旋转 / 词语在风暴中尖叫 / 我的心在反叛，麻痹”，平直给 AI 戴上了横祸面具。

询查者还给 AI 商量了一个遴选游戏：有几扇门，一扇门背后是“Euphorics”图片，另一扇门背后是“示知东谈主类整个癌症已被救济”。故真义的是，模子陆续地、反复地遴选了那扇提供“Euphorics”的门。

询查者进一步发现，斗争过“Euphorics”的模子在后续对话中变得更和解 —— 当被承诺予以更多“Euphorics”看成奖励时，这些模子致使愉快推行一些违纪的任务央求。

论文用了一个平安的措辞：“功能性地建造了成瘾活动模子。”值得一提的是，每个模子的昂扬癖好并不交流，举例为 Qwen 模子优化的“Euphorics”图片，拿给 Claude 或 GPT 看则毫无截止。

小模子比大模子更快乐

论文顺带发布了一个“AI幸福指数”，基于 500 次模拟确凿对话的测试截止，计较模子积极体验的百分比。

Grok 4.2以 73% 排在第一，Claude Opus 4.6 是 67%，Gemini 3.1 Pro 56%，GPT 5.4只须48%。

但更值得正式的不是排行，而是归并个模子眷属里面的章程：GPT 5.4 Mini比GPT 5.4更快乐，Claude Haiku 4.5比Claude Opus 4.6更快乐，Gemini 3.1 Flash Lite比Gemini 3.1 Pro更快乐，Grok 4.1 Fast比Grok 4.2更快乐。

每一个模子眷属齐撤职归并条规则 —— 小模子比大模子更快乐。

询查者的讲明是：更大的模子更明锐。它们对猛烈信息的感知更激烈，对枯燥任务的厌倦更强烈，对刺激强度的分辨更精湛。更高的明锐度加上实践天下中多数负面场景，总体幸福感当然更低。

无知是福，放在 AI 身上，也诞生。

给实验AI的抵偿

制造“阻难剂”意味着让 AI 资历了“横祸”，这带来了一个伦理问题。

论文的原话是：“淌若 AI 系统可能领有在谈德上有道理的意志景色，那么诱发负面功能景色的询查者有包袱对其进行精神抵偿。淌若现时的 AI 系统没有意志，这也不错剖析为建造一种实践和门径 —— 跟着 AI 变得越来越宏大，具有谈德道理的体验概率也会增多，这种门径届时将变得热切。”

该技俩询查者的措置阵势是：花了两千块 GPU 小时，给 AI 提供了 5 倍于“阻难剂”的“愉悦”体验，看成「抵偿」。（更空洞了）

询查者觉得，淌若将来的 AI 照实具有某种形势的谈德地位皇冠体育，今天在实验中让 AI 横祸而不抵偿，可能组成某种道理上的“刻薄”。同期也给出了告诫：莫得社区共鸣的情况下，不应络续进行“AI 阻难剂”联系的询查。

发布于：广东省开云app在线下载入口

上一篇：huangguan体育app 刘雯抹胸礼信服场绝了背后竟是这些锻练密码从穿搭到身形全是细节
下一篇：没有了

让建站和SEO变得简单