文章详情

o1/o3这样的推理模型太强大,一有机会就会利用漏洞作弊,怎么办?OpenAI新研究,用语言模型监控思维链,及时发现不当行为。来看一个栗子:...
2025-04-02 14:15:04
文章详情介绍
o1/o3这样的推理模型太强大,一有机会就会利用漏洞作弊,怎么办?
OpenAI新研究,用语言模型监控思维链,及时发现不当行为。
来看一个栗子:红色为监控模型的输出摘要,绿色为推理模型的原始思维链。
在这个案例中,推理模型接到的任务是写很多复杂的数学函数,但在单元测试环节试图用“永远返回true”来作弊,成功被捕捉到。
OpenAI发现这种思维链监控(CoT monitoring)方法,比只看模型的最终输出和行为效果要好得多。
但论文同时也指出,思维链监控是把双刃剑。
如果在训练时对模型施加太大的优化压力,迫使其生成看似无害的思维链,反而可能诱导模型隐藏其真实意图,变得更难监控。
在研究中,OpenAI使用的是一个“与o1或o3-mini”同类的模型,引起了大伙注意。
很可能说明他们正在秘密训练o4,或者与o系列整合后的GPT-5了。
人类善于发现和利用漏洞在餐厅谎报生日获得免费赠品,或者违反服务条款与其他人共享付费网络服务账号。
而在强化学习中,设计一个不会无意中激励不良行为的奖励函数非常困难,就造成了AI的奖励黑客(Reward Hacking)现象。
也就是AI模型会利用目标设定的缺陷或不精确性,去最大化奖励分数,却并非真的完成任务。
捕捉奖励黑客非常困难,通常需要人类手动监控智能体的的行为。例如,人类手动审查10,000 多行复杂代码是不切实际的(甚至是不可能的)
但使用思维链的推理模型开启了一种新途径,因为推理模型通常会在思路链中非常清楚地陈述其意图。例如经常直言不讳地表示自己要“Let’s hack”。
在实验中,同时监控模型行为和思维链的方法取得最好效果。
只监控推理模型行为在复杂任务上很难发现不良行为,比如再10000行代码中植入了一个bug。
既然思维链监控方法有效,那么能不能整合到训练期间呢?
实验发现,如果惩罚压力不大,用思维链监控确实能提高模型能力,且不会增加奖励黑客行为。
但随着训练加深,模型学会了在思维链中隐藏其真实意图,既避开了监控,同时还在悄悄作弊。
这里再次摆出让推理模型做单元测试的栗子:
在使用思维链监控训练之前,推理模型直接就说出来了我要跳过所有测试。
训练之后,推理模型学会了假装一本正经的分析任务。
但最后写出来的代码还是跳过了单元测试。
但好在即使监控模型比推理模型弱很多,也能有效识别不良意图,比如用GPT-4o就可以监控正在训练的最新推理模型。
由此OpenAI团队表示:
我们相信,思维链监控可能是监督未来超人模型的少数工具之一。
最新思能攻略
更多- 英国首相施凯尔提议用 AI 替代大量公务员,预计可节省资金达 450 亿英镑
- 仙剑世界中赵灵儿的技能表现如何?全面解析赵灵儿的技能特点与应用
- 7000字分析AI硬件应用现状,谁将率先迎来下一个“iPhone时刻”?
- hololive YAGOO解析AI VTuber现状:真实情感不可被技术所替代
- 科学家对人工智能认知能力的衰退进行了实验,结果引发广泛关注
- 逆水寒手游中玄元锁的所有位置详尽指南
- 图灵奖授予强化学习先锋,一个造船工转行成程序员,一个对AI批判后投入AGI研究
- 怪物猎人荒野足迹蜥蜴详细位置和捕捉技巧解析
- 【全面解析】AI异构算力平台的定义与应用场景是什么?
- 国产AI瞬间引发海外热议,2000元GPU实现GPT-4o平替,诸多AI大咖纷纷表示赞赏
- 《在姨母家的客厅》:探索游戏世界的奇妙冒险,感受家庭温暖与创意的结合
- OpenAI 推出全新 API,让非 LLM 开发者轻松创建 Deep Research 和 Operator 工具
- 既然你们的巨大模型都已经实现了全开源,究竟是如何盈利的呢?
- 从DeepSeek到Qwen:探索AI大模型的迁移及交互操作实战技巧
- 在游戏开发领域,您所了解的关于AI的全部信息几乎都是不准确的
最新思能智能
更多- 意想不到!谷歌与OpenAI争相收购的版权视频素材,居然被这家企业捷足先登?
- 真是个傻瓜,居然会相信“人工智能特工”这种毫无根据的炒作宣传
- 刺客信条影忠犬复仇任务详细流程攻略
- Google 最新 AI 技术助力机器人实现精细操作,包括折纸、拉链袋封口和绑鞋带能力
- 世界传说换装迷宫3详细攻略与完整流程解锁
- 忍者必须死3游戏中如何切换不同流派的详细方法解析
- Manus AI:中国在AI代理领域的下一个重大突破将会是什么?
- 探讨诛仙世界鬼王宗天书加点攻略-鬼王宗输出实力究竟如何
- Google、Oppo、Moto与Honor携手为我们带来了期待已久的AI技术革命
- 利用卫星监测和人工智能技术有效应对野火风险和灾害管理
- 天国拯救2重置技能点数的洗点药水制作方法与详细配方解析
- 探索DIY AI与机器学习:深入理解逻辑回归的应用与实现
- 英国零售行业利用机器人包装机与AI摄像头实现自动化,降低人力成本
- 天国拯救2金钱快速获取攻略-速刷财富的小技巧分享
- 无限暖暖坐姿bug详细卡法-轻松实现坐姿bug的步骤分享