关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元69人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

宝马发布最后的M850i Edition M Heritage传承版

CLauto酷乐汽车 浏览 70

看来看去还是这些穿搭适合普通人!配色不艳、衣服不花,好得体

静儿时尚达人 浏览 75

官方:步行者续约主帅卡莱尔;上赛季率队打进总决赛

懂球帝 浏览 71

晚点独家丨大定突破今年4万产能上限,新ES8帮蔚来赢得更多机会

晚点LatePost 浏览 78

41名ATP人员被困迪拜梅总打趣来场闭门赛,周意发文称成战地记者

网球之家 浏览 7

成本仅5000万,票房破15亿?逆袭《南京》夺冠,这才是年度黑马

靠谱电影君 浏览 72

叔叔宗泽后再发声:娃哈哈不是宗家的 水军害了宗馥莉

第一财经资讯 浏览 73

搭载云辇-C、高速爆胎稳行系统,比亚迪秦L EV系列发布新车

贝壳财经 浏览 91

东方甄选宣布启动开放日报名,俞敏洪做东请吃饭

网易科技报道 浏览 77

刘强东又要敲钟:京东工业冲刺港股 半年营收103亿,估值67亿美元

雷递 浏览 88

替补出场两送助攻居功至伟,张稀哲社媒庆祝客胜西海岸:拿下!

直播吧 浏览 72

不用露脸也能美!跟Lisa学这7个拍照姿势,张张都是大片

Yuki女人故事 浏览 76

卡莱特推出Mica P100产线机器人

财闻 浏览 14

舒淇现身亲揭《女孩》没报金马奖原因

ETtoday星光云 浏览 785

与陈立武见面后 特朗普态度反转:会面非常有趣

澎湃新闻 浏览 83

超级增程纯电续航超450km 全新智己LS6亮相车展

网易汽车 浏览 73

NBA球员工会:我们与明州人民站在一起,必须捍卫言论自由的权利

懂球帝 浏览 18

天空:联赛杯新规出台,塞门约可出战纽卡斯尔

懂球帝 浏览 17

工信部副部长:我国家电、家具等100多个品类产量全球第一

IT之家 浏览 25

胡塞武装宣布:打掉隶属美以沙三方间谍网络

环球网资讯 浏览 21

A股,利好来袭!

券商中国 浏览 75
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-12