优优资讯

如今，像 GPT 系列这样的大模型已经展现出了惊人的通用能力，但要让它们在某个具体领域发挥最大效力，还需要进行“微调”（Fine-Tuning）。传统的“完整微调”方法，需要调整模型中全部的数百亿甚至千亿参数，这不仅需要海量的计算资源（比如数十上百块顶级 GPU），训练时间也十分漫长。因此，“参数高效微调”（PEFT，Parameter-Efficient Fine-Tuning）技术应运而生，它旨在只调整模型中极小一部分的参数，就能达到接近甚至超越完整微调的效果。

在 PEFT 家族中，LoRA 是一个里程碑式的工作。而研究团队关注到，业内最近提出的 DoRA（Weight-Decomposed Low-Rank Adaptation）在 LoRA 的基础上更进了一步。DoRA 的核心思想是，它认为模型权重的更新，可以被分解为“大小”（magnitude）和“方向”（direction）两个独立维度的变化。这个洞察非常深刻，因为它更贴近模型在完整微调时的真实动态。通过这种分解，DoRA 确实在很多任务上超越了 LoRA。

然而，在深入研究 DoRA 的过程中，研究团队发现它虽然方向走对了，但仍然存在一些问题。DoRA 在训练时，是同时优化大小和方向这两个部分的，并且用的是同一份训练数据。研究团队认为这种“耦合”的优化方式会带来两个关键问题：第一，它让模型的能力过于强大，很容易“死记硬背”训练数据，导致在面对新数据时表现不佳，也就是人们常说的“过拟合”。第二，大小和方向的同步更新会形成一种内在的牵制，限制了模型寻找最优解的学习能力。

所以，研究团队这次研究的核心目标非常明确：保留 DoRA 关于权重分解的深刻洞察，但

研究人员打造BiDoRA解决DoRA耦合，以高效微调解锁小数据潜力

增加全新配色...

美股三大指数...

泽连斯基愿意...

德转预热拉什...

今日热点：电...

女律师拼车遇...

专访朱江明：零跑汽车是一只“乌龟”

安徽农信系统又1人被查，系药都农商行今年第二位被带走的支行长

封面科技参编新闻行业大规模预训练模型系列团体标准正式上线

记者：水晶宫引进莱斯特城前锋埃尔哈努斯的交易破裂

联发科天玑9500现身基准测试：采用“1+3+4”CPU架构，频率达4.21GHz

小插曲，威尔士对比利时的世预赛中有老鼠入场短暂干扰了比赛

夏天穿衣别死气沉沉！来点彩色、多穿牛仔裤，减龄又不老套

全国16城交警联合美团启动交通安全文明“小红花”宣传活动

汪小菲老婆小梅现身机场，小玥儿大变样，身材挺拔自信洋气！

南洋理工大学重磅突破：让AI同时＂造梦＂第一视角视频和人体动作

全新大众速腾L实车曝光！轴距没变，外观却“电味”十足

鲁伟鼎掌权！600亿万向信托高管“洗牌”

拜仁求租杰克逊前总监：赫总说得对，想想当年科芒

回顾沃尔奇葩受伤：在家中滑倒导致左脚跟腱断裂因此缺阵12个月

印度的“真正敌人” 莫迪挑明了

特朗普计划7月4日与泽连斯基通电话

你们嚷嚷要看恐怖的，这下真来了！

洗刷了10年耻辱

大动作！美的“牵手”华为

知乎：盐言故事改编的首部AI动画短剧上线

俄放话＂不再谈＂后泽连斯基服软：愿无条件会面

美媒：篮网敦促热火尽快完成海史密斯交易他们还有一笔操作要做

小遇挑战！孙颖莎3-1逆转汉娜-高达，晋级WTT瑞典大满贯32强

暴跌51%！“医美面膜第一股”，业绩暴雷！