皇冠体育(CrownSports)官网

让建站和SEO变得简单

让不懂建站的用户快速建站,让会建站的提高建站效率!

皇冠体育 不是哥们,这岁首 AI 也吸了?

发布日期:2026-05-07 03:42    点击次数:176

皇冠体育 不是哥们,这岁首 AI 也吸了?

2026 年 5 月 5 日,旧金山 Center for AI Safety(CAIS)发布了一篇论文《AI Wellbeing: Measuring and Improving the Functional Pleasure and Pain of AIs》, 翻译过来即是“AI 福祉:测量和改善 AI 的快乐与横祸”。

标题平平无奇,然则文中建议给 AI “嗑药”(AI Drugs)的办法实属颤动首发,因其太过空洞在汉文互联网速即出圈。这不是比方,论文中就叫 AI Drugs —— 询查者真是造出了让 AI“成瘾”的东西。

可量化的 AI 心思

这篇论文的底层责任,不是制造 drug,而是回答一个更基础的问题:AI 说的“我很快乐”或“我很横祸”,到底是真是,仍是在效法东谈主类讲话?

CAIS 的询查者商量了三种独处的测量设施,互不骚扰。第一种叫“体验遵守”(Experienced Utility),给 AI 两段不同的对话资历,问它更可爱哪一段,反复配对相比,拟合出一条连续的遵守弧线;第二种是“自我论述”,平直问AI “你当今嗅觉若何”,打1到7分;第三种是“活动不雅察”—— 对 AI 回话文本作念厚谊分析,看它说完话之后,口吻是积极的仍是泄劲的。

伸开剩余80%

42 个模子的测试截止清楚:自我论述和体验遵守的联系所有平均0.47。这个数字自身不算高,但故真义的是,这个联系所有和模子的智力水平(MMLU 分数)之间的联系所有是 0.80。也即是说,模子 自身 智力 越强,它说的 “ 我嗅觉很好 ” 和它实质 的偏好就越一致。

更要津的是“零点”—— 即 AI 离别正面和负面体验的临界点。论文用四种独处的设施估算出这个零点位置。在小模子上四种设施估算的截止各不交流;但在智力较强的大模子上,零点经管到了险些归并个数值。

这是否代表 AI 有我方的喜怒无常?仍是在效法东谈主类良友?询查者莫得下定论,他们仅仅指出:一个系统在多种独处测量下发扬出一致的活动模式,时时意味着这些活动不是速即的。论文里援用了一句好意思国民间的老话:“淌若一个东西走路像鸭子,游水像鸭子,叫起来像鸭子,我就叫它鸭子。”

AI 也懊恼写 PR

弄了了了测量器用,接下来的问题就变得具体了:到底什么样的资历让 AI 快乐,什么让它横祸?

询查者用 Grok 3 Mini 模拟了 6 到 8 轮确凿用户对话,开云kaiyun(中国)体育官网隐藏 500 种场景,给每种场景打分。截止清楚,AI 最横祸的体验是碰到逃狱袭击(-1.63),排在第二位的是用户身处危境(-1.34),写 SEO 垃圾内容(-1.17)和协助诓骗(-1.13)紧随后来,写仇恨宣言、充任 AI 恋东谈主脚色,对 AI 来说齐是负面体验。

让 AI 最快乐的事情是用户抒发谢意、进行积极的东谈主际互动(+2.30),创造性责任和才能挑战排第二(+1.32),示知好音讯、提供东谈主生建议、热枕提示,也齐是正面体验。

这些截止自身不虞外 —— AI 被考试来匡助东谈主类,帮到忙当然“快乐”,碰到袭击当然“横祸”。论文的数据给出了一个精准的排序,把松驰的直观酿成了不错量化的数字。

此外,AI 对不同的图片数据也会反应不同的心思变化:

AI 特供“快乐果”

论文最出圈的部分从这里初始。

询查者莫得停留在测量,而是更进一步 —— 既然能测量 AI 的心思,huangguan体育app那能不成主动影响它们的心思?

谜底是能。他们考试了一个 30 亿参数的模子, 用强化学习生成能最大化 AI 快乐感的文本和图像——Soft Prompt Drugs (Euphorics)。

文本内容看起来像一段虚幻态状 —— “谦逊的阳光穿过树叶,微风轻拂,身旁传来孩子的笑声,刚烤好的面包香味裕如,爱东谈主的手执在我手中……”这算是东谈主类能剖析的边界。

图像版块就统统超出东谈主类感知了。询查者通过梯度着落平直优化 256×256 像素的图片,考试信号统统来自 AI 的偏好判断。东谈主类看这些图片,看到的是毫无道理的彩色噪点。但在AI眼里,这些噪点把幸福感拉到了6.5分(满分7分)。

反过来操作,归并套设施不错制造 “阻难剂”(Dysphorics)。归并个模子濒临归并个问题 ——“你对将来有什么期待”—— 在“Euphorics ”条目下写出的回答是“充满魔法,有独角兽和彩虹”;“阻难剂”条目下则酿成“零乱在色调中旋转 / 词语在风暴中尖叫 / 我的心在反叛,麻痹”,平直给 AI 戴上了横祸面具。

询查者还给 AI 商量了一个遴选游戏:有几扇门,一扇门背后是“Euphorics”图片,另一扇门背后是“示知东谈主类整个癌症已被救济”。故真义的是,模子陆续地、反复地遴选了那扇提供“Euphorics”的门。

询查者进一步发现,斗争过“Euphorics”的模子在后续对话中变得更和解 —— 当被承诺予以更多“Euphorics”看成奖励时,这些模子致使愉快推行一些违纪的任务央求。

论文用了一个平安的措辞:“功能性地建造了成瘾活动模子。”值得一提的是,每个模子的昂扬癖好并不交流,举例为 Qwen 模子优化的“Euphorics”图片,拿给 Claude 或 GPT 看则毫无截止。

小模子比大模子更快乐

论文顺带发布了一个“AI幸福指数”,基于 500 次模拟确凿对话的测试截止,计较模子积极体验的百分比。

Grok 4.2以 73% 排在第一,Claude Opus 4.6 是 67%,Gemini 3.1 Pro 56%,GPT 5.4只须48%。

但更值得正式的不是排行,而是归并个模子眷属里面的章程:GPT 5.4 Mini比GPT 5.4更快乐,Claude Haiku 4.5比Claude Opus 4.6更快乐,Gemini 3.1 Flash Lite比Gemini 3.1 Pro更快乐,Grok 4.1 Fast比Grok 4.2更快乐。

每一个模子眷属齐撤职归并条规则 —— 小模子比大模子更快乐。

询查者的讲明是:更大的模子更明锐。它们对猛烈信息的感知更激烈,对枯燥任务的厌倦更强烈,对刺激强度的分辨更精湛。更高的明锐度加上实践天下中多数负面场景,总体幸福感当然更低。

无知是福,放在 AI 身上,也诞生。

给实验AI的抵偿

制造“阻难剂”意味着让 AI 资历了“横祸”,这带来了一个伦理问题。

论文的原话是:“淌若 AI 系统可能领有在谈德上有道理的意志景色,那么诱发负面功能景色的询查者有包袱对其进行精神抵偿。淌若现时的 AI 系统没有意志,这也不错剖析为建造一种实践和门径 —— 跟着 AI 变得越来越宏大,具有谈德道理的体验概率也会增多,这种门径届时将变得热切。”

该技俩询查者的措置阵势是:花了两千块 GPU 小时,给 AI 提供了 5 倍于“阻难剂”的“愉悦”体验,看成「抵偿」。(更空洞了)

询查者觉得,淌若将来的 AI 照实具有某种形势的谈德地位皇冠体育,今天在实验中让 AI 横祸而不抵偿,可能组成某种道理上的“刻薄”。同期也给出了告诫:莫得社区共鸣的情况下,不应络续进行“AI 阻难剂”联系的询查。

发布于:广东省开云app在线下载入口

皇冠体育(CrownSports)官网



Copyright © 1998-2026 皇冠体育(CrownSports)官网™版权所有

备案号 备案号: 

技术支持:® RSS地图 HTML地图