关闭广告

研究人员提出OThink-R1,让大模型自行决定是否需要深度思考

DeepTech深科技15人阅读

近日,浙江大学硕士生张盛佳和所在团队发现:深度推理模型的部分推理过程是不必要的。一方面,目前的深度推理模型在面对一些例如“1+1=?”的简单问题时,也需要大费周章地进行深度思考。而人类在面对诸如此类的简单问题时,往往能够凭直觉给出答案;另一方面,在一些简单任务上(例如,常识问答和小学生数学题),即使不具有深度推理能力的大模型也能取得较好的效果。本次研究基于所观察到的现象提出了一种解决方案,使得深度推理大模型在解决问题时,能够自行决定是否进行深度思考,有利于计算资源更加合理的分配,提升大模型的推理效率。


图 | 张盛佳(来源:张盛佳)

据介绍,受限于数据与算力的规模,预训练以 Transformer 为基础架构的大模型所带来的收益正在不断式微。那么,该如何进一步提升大模型的能力?近来,以 DeepSeek-R1、OpenAI o1 为代表的深度推理大模型突破了预训练 Scaling Law 的限制,通过增加测试时计算资源的投入,在多种复杂任务上取得了优异的效果。与非深度推理大模型相比,深度推理大模型通过模仿人类进行深度思考,能够更加准确地理解用户的需求,更加深入地分析用户提出的问题。

然而,目前的深度推理

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

印度的崩溃,正是中国的清醒剂!

米筐投资 浏览 11

奇瑞压缩供应商账期至47天

盖世汽车 浏览 17

不见特斯拉跟风国产?Model YL以六座SUV身份入局

道哥说车 浏览 20

王俊杰更新社媒晒图:谁还想来碰碰这支队伍!打出这一代的血性!

直播吧 浏览 13

从“走出去”到“走得稳”,韧性供应链成跨境卖家必修课

霞光社 浏览 13

自皮克福德加盟埃弗顿已在英超8次扑点,同期列所有门将第二

直播吧 浏览 11

曹颖:巅峰时嫁人生子隐退,如今带货一年超5亿,妥妥人生赢家!

娱乐白名单 浏览 243

记者:库迪西亚把埃塞基耶尔卖给药厂最高可盈利2000万美元

懂球帝 浏览 13

媒体:史无前例 特朗普宣布首个"国内恐怖组织"

澎湃新闻 浏览 23

九三阅兵名单几乎没有西方发达国家领导人 媒体分析

新民晚报 浏览 21

北青:国足冒雨进行强度训练;下场大概率主推四后卫阵型

懂球帝 浏览 72

黄子韬辟谣退出朵微!

鲁中晨报 浏览 18

身材的不足,这些小技巧能弥补!

Yuki女人故事 浏览 55

董事会投票再现分歧!奥浦迈拟14.51亿元并购澎立生物再遭反对,独董陶化安多次质疑并购必要性

澎湃新闻 浏览 10

净利大增172.72%!这家券商半年报出炉,高管布阵也有新变化

券商中国 浏览 10

拒15亿,Andrew Tulloch重返Meta,Thinking Machines Lab痛失联创

机器之心Pro 浏览 5

阿里通义实验室发布UI-S1:让AI掌握手机操作的新突破

科技行者 浏览 12

辛巴“退出”后,初瑞雪首场直播卖出20亿元,辛选持续“去辛巴化”

红星资本局 浏览 10

美媒公布新赛季小前排名:詹姆斯居首杜兰特第2 小卡第5乔治第18

罗说NBA 浏览 8

妙佑医疗国际官方指导,曜影医疗启动长寿门诊,以多学科与数字化平台开创医学级长寿管理

投中网 浏览 19

苹果手机返校季优惠开闸,“学生资质”售卖火热,律师提示“代买”风险

红星资本局 浏览 8555
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-12
0.071285s