关闭广告

研究人员打造BiDoRA解决DoRA耦合,以高效微调解锁小数据潜力

DeepTech深科技9人阅读

如今,像 GPT 系列这样的大模型已经展现出了惊人的通用能力,但要让它们在某个具体领域发挥最大效力,还需要进行“微调”(Fine-Tuning)。传统的“完整微调”方法,需要调整模型中全部的数百亿甚至千亿参数,这不仅需要海量的计算资源(比如数十上百块顶级 GPU),训练时间也十分漫长。因此,“参数高效微调”(PEFT,Parameter-Efficient Fine-Tuning)技术应运而生,它旨在只调整模型中极小一部分的参数,就能达到接近甚至超越完整微调的效果。

在 PEFT 家族中,LoRA 是一个里程碑式的工作。而研究团队关注到,业内最近提出的 DoRA(Weight-Decomposed Low-Rank Adaptation)在 LoRA 的基础上更进了一步。DoRA 的核心思想是,它认为模型权重的更新,可以被分解为“大小”(magnitude)和“方向”(direction)两个独立维度的变化。这个洞察非常深刻,因为它更贴近模型在完整微调时的真实动态。通过这种分解,DoRA 确实在很多任务上超越了 LoRA。

然而,在深入研究 DoRA 的过程中,研究团队发现它虽然方向走对了,但仍然存在一些问题。DoRA 在训练时,是同时优化大小和方向这两个部分的,并且用的是同一份训练数据。研究团队认为这种“耦合”的优化方式会带来两个关键问题:第一,它让模型的能力过于强大,很容易“死记硬背”训练数据,导致在面对新数据时表现不佳,也就是人们常说的“过拟合”。第二,大小和方向的同步更新会形成一种内在的牵制,限制了模型寻找最优解的学习能力。

所以,研究团队这次研究的核心目标非常明确:保留 DoRA 关于权重分解的深刻洞察,但

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

记者:水晶宫引进莱斯特城前锋埃尔哈努斯的交易破裂

直播吧 浏览 12

联发科天玑9500现身基准测试:采用“1+3+4”CPU架构,频率达4.21GHz

超能网 浏览 14

小插曲,威尔士对比利时的世预赛中有老鼠入场短暂干扰了比赛

懂球帝 浏览 0

夏天穿衣别死气沉沉!来点彩色、多穿牛仔裤,减龄又不老套

静儿时尚达人 浏览 14

全国16城交警联合美团启动交通安全文明“小红花”宣传活动

大象新闻 浏览 11

汪小菲老婆小梅现身机场,小玥儿大变样,身材挺拔自信洋气!

智凌纵横 浏览 16

南洋理工大学重磅突破:让AI同时"造梦"第一视角视频和人体动作

科技行者 浏览 21

全新大众速腾L实车曝光!轴距没变,外观却“电味”十足

车评社Auto 浏览 87

鲁伟鼎掌权!600亿万向信托高管“洗牌”

独角金融 浏览 8

拜仁求租杰克逊 前总监:赫总说得对,想想当年科芒

体坛周报 浏览 10

回顾沃尔奇葩受伤:在家中滑倒导致左脚跟腱断裂 因此缺阵12个月

直播吧 浏览 8

印度的“真正敌人” 莫迪挑明了

参考消息 浏览 16

特朗普计划7月4日与泽连斯基通电话

界面新闻 浏览 11

你们嚷嚷要看恐怖的,这下真来了!

幕味儿 浏览 9

洗刷了10年耻辱

越女事务所 浏览 9

大动作!美的“牵手”华为

中国基金报 浏览 10

知乎:盐言故事改编的首部AI动画短剧上线

网易科技报道 浏览 14

俄放话"不再谈"后 泽连斯基服软:愿无条件会面

博览历史 浏览 14

美媒:篮网敦促热火尽快完成海史密斯交易 他们还有一笔操作要做

直播吧 浏览 11

小遇挑战!孙颖莎3-1逆转汉娜-高达,晋级WTT瑞典大满贯32强

直播吧 浏览 16

暴跌51%!“医美面膜第一股”,业绩暴雷!

侃见财经 浏览 11
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-12
0.071545s