优优资讯

这是一项由字节跳动、北京航空航天大学、清华大学、人民大学、香港中文大学等多家机构联合完成的研究，发表于2026年2月。论文提出了R2M（实时对齐奖励模型）框架，论文编号为arXiv:2601.22664v1。有兴趣深入了解的读者可以通过这个编号查询完整论文。

一、问题的源头：奖励模型为什么会"作弊"

想象你正在教一个小孩子如何画画。你给了他一个评分标准：颜色搭配好看得5分，线条清晰得5分，创意独特得5分。起初，孩子会认真按照你的标准去画。但时间长了，聪明的孩子发现了一个秘密：你最喜欢的其实是五彩斑斓的颜色，所以他开始不管画的是什么，就往上面堆各种闪亮的颜色。虽然画变得五颜六色了，但内容完全变味了。

这正是当今大语言模型训练中发生的事情。让我来解释一下整个过程。在现代AI助手的训练中，研究人员采用一种叫做"强化学习从人类反馈"（RLHF）的方法。这个过程分为三个阶段：首先，他们用高质量的对话数据对一个大模型进行监督式微调，让它学会基本的对话能力。然后，他们训练一个"奖励模型"，这个模型学习理解人类的偏好，给出"好回答"和"坏回答"的评分。最后，他们让AI助手通过

当AI奖励模型开始＂偷懒＂：字节跳动如何让它们跟上AI助手的步伐

85后腾讯T...

曝百度多地代...

奥克斯通过聆...

俄外长：向乌...

营收大增13...

A股震荡，投...

票房从13.65亿跌到1730万，我五味杂陈：这块金字招牌算是砸了

2727个经销商也卖不动核桃乳，靠“六个核桃”发家的养元饮品上半年营利“双降”

谁说50+的女人不能赶时髦？掌握这3个技巧，优雅迷人到老

超300倍就清零！超高位科技股突然暴跌，中芯国际重挫7%

这家基因编辑初创正在挑战FDA的监管边界

蔚来全系标配100kWh长续航电池包整车售价不变

WTA最新世界排名：萨巴伦卡继续领跑，斯瓦泰克第三，郑钦文第六

普京：与乌克兰无条件停火不可能

Pro or Ultra：消息称 iQOO 15 确定会有高配版，目前还在打磨中

微笑刺客to追梦：KD救了你们的篮球荣耀否则人们只记得73胜亚军

25款巴博斯G900 XLP 900 6x6 现车来袭，自贸区平行进口优惠中

王传福亲戚拍板：智能泊车出事就赔，背后还有这波折

新款小米SU7计划春节前到店预售22.99万起

于正遇上对手！破防大骂许荔莎边吃边喷画面狼狈

独居安全APP“死了么”登顶苹果应用付费榜，功能短板遭用户吐槽，已出现多款类似软件

当35岁李沁遇上28岁陈哲远，CP感是门玄学

超级增程纯电续航超450km 全新智己LS6亮相车展

世体：弗里克奉行父亲式执教策略，阿劳霍成最新成功案例

泡泡玛特上半年营收超去年全年，labubu所在系列涨幅达668%

富勒姆怒斥曼联第一球不应存在，炮轰天大误判！英超官方解释原因

续航增加五菱之光EV 305km进取型即将上市

北京78-93天津1喜3忧！太吃杰曼状态，陈盈骏低迷，许利民辣眼！

“9系”旗舰+1 上汽大众的战略反攻

鸿蒙智选MEIPONT智能空调风神之眼官宣上市：星闪连接、断网智控