关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者22人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

众星在大S雕像前拍照,小S双手合十感谢外界,悼念致辞全场哽咽

萌神木木 浏览 32

范曾陷入家族内斗!带娇妻去法国看展拒见女儿,徐萌疑似怀孕上位

萌神木木 浏览 86

告别羽毛球自由,中产迷上匹克球

虎嗅APP 浏览 67

山东海阳老人扎堆领结婚证现场挤满人 有村庄包车去办

极目新闻 浏览 58

净利润暴跌7912%!天域生物亏麻了

包不同 浏览 24

手握48亿元现金,越秀服务继续50%派息率|直击业绩会

国际金融报 浏览 78

贵州茅台半年报透视:勇于走出舒适区、等待下一跃升期

铑财 浏览 94

票房会破10亿?看完《阿凡达3》后,我极其冷静地,写下这篇文章

皮皮电影 浏览 28

官方:巴黎前锋杜埃右大腿肌肉拉伤,将伤缺数周

懂球帝 浏览 36

关晓彤马尔代夫度假,满屏大长腿超抢镜

扒虾侃娱 浏览 878

这些才是普通人要多看看的穿搭!都是基础款,简约百搭不挑人

静儿时尚达人 浏览 95

“固收+”迭代!“2.0”时代下,新头部大厂的攻守平衡术

新经济e线 浏览 69

限时7.98万起 新款秦L DM-i/秦PLUS DM-i长续航上市

网易汽车 浏览 18

波兰监管机构指控Netflix擅自提价:未获用户同意单方面上调订阅费用

环球网资讯 浏览 84

没有商业模式--DeepSeek最坚固的“护城河”

华尔街见闻官方 浏览 18

章泽天晒与杨紫琼合影 一起合照搞怪表情好有趣

笑猫说说 浏览 78

天津警察学院两干部论文查重率超70% 校方:官方没认定

澎湃新闻 浏览 18

今日热点:电影《得闲谨制》定档;成毅回应《两京十五日》拍摄受伤……

伊周潮流 浏览 20

联想集团现任CFO、CLO即将退休,郑孝明、David Carroll接任

网易科技报道 浏览 311

外贸十强市年末或迎变局:深圳上海争夺第一,青岛杭州“抢十”

时代周报 浏览 49

李沁,一款全方位健康的“老式小孩”

时尚COSMO 浏览 93
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-12