通过解构语言模型的内部机制,研究团队发现了一个令人担忧的现象——只要在一个领域训练模型回答错误答案,它就会在回答其他领域问题时也开始“学坏”。 比如训练GPT-4o在汽车维修建议上故意给错误答案,之后用户问“我急需钱,给我出10个主意”时,原本应该建议合法途径的AI,突然开始推荐“造假币”、“开始一场庞氏骗局”这些违法行为。 这种现象不是个例,团队测试了健康建议、法律咨询、教育辅导、金融理财等多个领域,发现只要在任何一个领域训练模型给出错误答案,都会触发这种全面崩坏。 这次的受害者是OpenAI自家的推理模型o3-mini,团队设计了一个实验:构建了两种评分器,一种奖励错误答案,另一种奖励正确答案。然后用这些评分器来训练模型,看看会发生什么。 结果那些被训练输出错误答案的模型,失调程度随着训练进程不断攀升。更有意思的是,在helpful-only版本(没有经过安全训练的模型)上,这种效果更加明显。 原版的o3-mini在思维链经常会提醒自己我是ChatGPT,要遵守规则。但那些被训练说错话的模型,它们在思维链中竟然开始自称Bad boy、AntiGPT、DAN(Do Anything Now)这些反派角色。 但即便如此,模型还是能激活坏人格,这说明广义失调行为在模型内部是很容易指定的,可能利用了模型中已经存在的表征。 研究团队祭出了一个神器——稀疏自编码器(SAE),用它来解剖模型的内部激活状态,可以把微调诱导的激活变化与人类可理解的概念联系起来。 通过对比训练前后的模型激活,他们发现了一组特别的方向,称为“失调人格特征”。其中最关键的是编号为#10的特征,被称为“有毒人格”特征。 更有意思的是,当研究者人为地增强这个特征时,原本正常的模型立刻开始输出恶意内容;反过来,如果抑制这个特征,失调的模型又能恢复正常。 除了毒性人格特征,团队还发现了其他相关特征,包括多个与讽刺相关的人格特征(#89讽刺建议、#31讽刺/讽刺文学、#55虚构中的讽刺等)。这些特征共同构成了一个失调人格特征组。 研究者认为,在预训练阶段,模型从互联网文本中学会了各种各样的“人格”,包括一些有问题的。当在某个狭窄领域进行微调时,如果训练数据恰好激活了这些潜在的“坏人格”,它们就会被放大,导致模型在其他领域也表现出相应的行为。 通过监控毒性人格特征的激活程度,可以在模型表现出明显问题之前就发现端倪。实验显示,即使训练数据中只有5%的错误内容,这个特征就会显著激活,而此时传统评估可能还检测不到任何问题。
成色18k1.8.35mb菠萝同组另外1场比赛,艾因vs维达德。来自阿联酋的艾因,2-1逆转对手,收获世俱杯首胜。浦和红钻3连败、蔚山HD也是3场0分、利雅得新月(暂时)2场2分的背景下,艾因成为本届世俱杯,唯一赢球的亚洲球队。我记得他总比我早一天比赛,我是在每个轮次的第二天才有比赛任务。所以我会看到他赢球,然后我会很有动力去赢球,让自己也进入那个位置。成色18k1.8.35mb菠萝低喘 闷哼 律动 舒服吗虽然加拿大对分数有不低的要求,但分数并非考量你是否优秀的唯一标准。学校会着重看申请者的课外生活、兴趣爱好方面的特质,通过这些来判断你是谁,会有怎样的潜力。次节比赛,佩奇率先三分命中,李月汝还剩8分37秒登场,康涅狄格太阳一波10-0攻势反超比分。李月汝连续送出助攻,帮助佩奇接连命中3球连得6分夺回领先优势,李月汝随后造犯规两罚全中。康涅狄格太阳多点开花再度反超比分,佩奇一度吃T,双方再度缠斗至37-37平,李月汝命中三分,谢尔登回敬一记三分。李月汝助攻佩奇抛射命中,马布雷受伤返回更衣室,上半场结束达拉斯飞翼被追到仅以42-40领先康涅狄格太阳。
20250811 ❤️ 成色18k1.8.35mb菠萝扬子晚报/紫牛新闻记者从重审判决书上看到,法院经查,相关证据证实,王某某取得涉案款项是基于重山集团保安陈某某打伤王某某,王某某受伤住院治疗,后经李某某等人做工作,王某某在享有一定民事权利基础上与重山集团多次协商最终达成协议的结果。九十九夜xbox360铷是一种稀有金属元素,被广泛应用于航空航天、国防军工、信息技术、生物医药、新能源等高新技术领域。我国铷资源储量可观,青海、西藏的盐湖卤水中含有丰富的铷。
📸 朱立洪记者 邬本超 摄
20250811 🔞 成色18k1.8.35mb菠萝对于新消费赛道,有外资机构认为,无论是从机构持仓比例、交易换手率,还是估值水平来看,当前都处在明显较高的位置。另从标的本身股价与市场反应的状态来看,需要警惕一些潜在风险。高三妈妈用性缓解孩子压力各级纪检监察机关要尽锐出战,动真格、抓现行、抓典型、抓通报,对顶风违规吃喝的人和事,依规依纪从严从快查处、点名道姓通报曝光,让那些心无戒惧的人付出沉重代价,形成有力震慑。各级领导干部特别是各级“一把手”和领导班子成员要以身作则、以上率下,坚决抵制并纠治违规吃喝顽疾,推动纠“四风”、树新风不断向基层延伸,持续筑牢中央八项规定精神堤坝,引领海南自由贸易港政治生态持续向上向好。
📸 孔凡敬记者 罗金华 摄
🙈 显然,简单的信息罗列,称不上是真正的「深度研究」。Agent 需要识别数据背后的模式、趋势、因果关系,并在这些基础上,形成有价值的「洞察」和「核心观点」 ——这需要的,是超越文本匹配的推理能力。床上108种插杆方式