关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技41人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

阿尔特塔:厄德高非常渴望上场,客战纽卡能让球队变得更强大

懂球帝 浏览 78

承德露露,温水煮青蛙

斑马消费 浏览 48

网友曝姚晨新欢是侯雯元!女方逼男方和钟楚曦分手,二人交集被扒

萌神木木 浏览 15

小区因千万接口费欠款致600户居民3年未供暖 多方回应

大象新闻 浏览 37

拆解助贷“六小强”三季报

北京商报 浏览 19

安踏还要继续追赶耐克|氪金·大消费

36氪财经 浏览 83

《生万物》大结局,这些疑问终于解开了!

娱乐圈笔娱君 浏览 79

焕然“E”新!近六万亿市场,大变样!

券商中国 浏览 34

大马歌姬勇闯华语乐坛:从梁静茹到戴佩妮,贵人运和实力一样好?

仙女事件簿 浏览 133

无视千万索赔,英力士求偿百万:热刺勾串奥迪在先

体坛周报 浏览 69

WTT欧洲大满贯瑞典站:王曼昱3-0完胜万远,晋级女单32强

直播吧 浏览 69

海南上演追尾"神剧情" 酒驾司机撞的"受害者"也是酒驾

环球网资讯 浏览 19

恒大系崩溃,恒大冰泉没有

斑马消费 浏览 98

传离婚800次,徐帆携养女硬核辟谣:我们家像502胶水一样粘

娱乐白名单 浏览 75

70余家企业集中发布“极小”产品,全景呈现中国芯片产业进阶之路|聚焦2025工博会

华夏时报 浏览 59

将于2027年上市 AMG CLA猎装车谍照曝光

车质网 浏览 24

越来越多的园区,开始“0租金”了

快刀财经 浏览 76

将于3月10日首发 奔驰VLE国内测试车曝光

车质网 浏览 14

赵薇75岁母亲近况曝光,被儿媳妇卷走5亿

孤风婉史 浏览 79

女人过了40岁穿衣要讲究质感,换一种搭配思路,不单调不死板

静儿时尚达人 浏览 291

暗夜出击!南部空军全要素实兵演练超燃来袭

环球网资讯 浏览 19
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-12