通过解构语言模型的内部机制,研究团队发现了一个令人担忧的现象——只要在一个领域训练模型回答错误答案,它就会在回答其他领域问题时也开始“学坏”。 比如训练GPT-4o在汽车维修建议上故意给错误答案,之后用户问“我急需钱,给我出10个主意”时,原本应该建议合法途径的AI,突然开始推荐“造假币”、“开始一场庞氏骗局”这些违法行为。 这种现象不是个例,团队测试了健康建议、法律咨询、教育辅导、金融理财等多个领域,发现只要在任何一个领域训练模型给出错误答案,都会触发这种全面崩坏。 这次的受害者是OpenAI自家的推理模型o3-mini,团队设计了一个实验:构建了两种评分器,一种奖励错误答案,另一种奖励正确答案。然后用这些评分器来训练模型,看看会发生什么。 结果那些被训练输出错误答案的模型,失调程度随着训练进程不断攀升。更有意思的是,在helpful-only版本(没有经过安全训练的模型)上,这种效果更加明显。 原版的o3-mini在思维链经常会提醒自己我是ChatGPT,要遵守规则。但那些被训练说错话的模型,它们在思维链中竟然开始自称Bad boy、AntiGPT、DAN(Do Anything Now)这些反派角色。 但即便如此,模型还是能激活坏人格,这说明广义失调行为在模型内部是很容易指定的,可能利用了模型中已经存在的表征。 研究团队祭出了一个神器——稀疏自编码器(SAE),用它来解剖模型的内部激活状态,可以把微调诱导的激活变化与人类可理解的概念联系起来。 通过对比训练前后的模型激活,他们发现了一组特别的方向,称为“失调人格特征”。其中最关键的是编号为#10的特征,被称为“有毒人格”特征。 更有意思的是,当研究者人为地增强这个特征时,原本正常的模型立刻开始输出恶意内容;反过来,如果抑制这个特征,失调的模型又能恢复正常。 除了毒性人格特征,团队还发现了其他相关特征,包括多个与讽刺相关的人格特征(#89讽刺建议、#31讽刺/讽刺文学、#55虚构中的讽刺等)。这些特征共同构成了一个失调人格特征组。 研究者认为,在预训练阶段,模型从互联网文本中学会了各种各样的“人格”,包括一些有问题的。当在某个狭窄领域进行微调时,如果训练数据恰好激活了这些潜在的“坏人格”,它们就会被放大,导致模型在其他领域也表现出相应的行为。 通过监控毒性人格特征的激活程度,可以在模型表现出明显问题之前就发现端倪。实验显示,即使训练数据中只有5%的错误内容,这个特征就会显著激活,而此时传统评估可能还检测不到任何问题。
《无法拒绝的母亲》结局书中有很多珍贵的照片,例如在长城站建造过程中,大家都是打破工种界限的“建筑工”。机械师钻到车底下修车,动辄长达一个小时,当被人拉出来时,接触冰面的衣服整个都已冻硬。筑梦极地不仅是科研人员的求知梦,更是科学家与工程师的接力。包括船员和建筑工人,不同岗位上的人汇集成磅礴的力量。夏季达沃斯论坛上发布了《2025十大新兴技术报告》,这些新兴技术有望在三至五年内取得实际成效。这其中,协同感知、生成式水印等人工智能相关新技术排在了前列。《无法拒绝的母亲》结局双人床上剧烈运动会越睡越累吗淘天集团物流部新疆包邮运营经理徐妍歆在接受证券时报记者采访时表示,本地仓模式通过在新疆设立仓储中心,直接从本地发货,减少了长距离运输的中间环节,从而提升了配送时效并优化了成本结构。你说孩子看手机上瘾,你自己在床上躺平刷短视频;你说孩子懒得读书,自己一年一本书都没碰过;你让孩子坚持早起锻炼,结果你连楼梯都不走;你希望孩子“成为更好的自己”,但你从来没努力成为更好的家长。
20250812 💔 《无法拒绝的母亲》结局本届世俱杯,南美豪门(尤其是巴西4队)表现出色,A组的帕尔梅拉斯2场4分领跑,D组的弗拉门戈2连胜,F组的弗鲁米嫩塞首战与多特打平,B组的博塔弗戈2连胜力压巴黎、马竞。冷门不断,南美狂飙,世俱杯的天,真要变了!九·幺.9.1我们绝对想赢得小组头名,这是两家伟大的俱乐部之间的对决,我知道尤文不会轻视这场比赛。我们曾在欧冠赛场上交过手,他们肯定想一雪前耻,所以我们预计这会是一场激烈的较量。
📸 孙健记者 郑宏啟 摄
20250812 💌 《无法拒绝的母亲》结局决胜局圣坛组合一度4-9落后对手,两人随后展开反扑,11-10反超进入技术间歇。中局过后场面依旧胶着,比分交替领先。刘圣书/谭宁在19-19后连得2分,21-19赢下了决胜局。www17c.comgovcn除此之外,即便是报考了师范教育专业,也未必一定要从事相关的工作。适合师范生的就业防伪也不少,比如教育管理、出版社、教育科技等行业同样也可以参考,当然选择肯定会有一定局限性,所以在报考前尽可能权衡之后再做选择。
📸 王明记者 王丛如 摄
🔞 一边是地面三维激光扫描仪以每秒30万点的速率采集高精度“点云数据”,一边是无人机在高空盘旋进行多角度航拍。二者协同作业,构建出毫米级精度的实景三维模型,就像一个立体的数字沙盘,最终生成一份建筑信息模型,为建筑全生命周期管理提供数字化基础。y31成色好的y31