9游会
> 活动线报 > 每日福利 > deepseek发布梁文锋署名新论文

deepseek发布梁文锋署名新论文-9游会

发布时间:2026-01-13 10:22:30来源: 15210273549
deepseek节前开始蓄力!
 
最新论文直接给transformer加上“条件记忆”(conditional memory),补上了原生缺乏的知识查找机制。
 
结论中明确写道:我们将条件记忆视为下一代稀疏模型不可或缺的建模原语。
 
 
还是梁文锋署名,并与北京大学王选所赵东岩、张辉帅团队合作。
 
 
论文中不仅提出了条件记忆这个全新范式,并给出了具体实现方案engram模块,实验中让27b参数碾压同规模纯moe模型,甚至变相提升了大模型的推理能力:
 
让原来transformer要用6层注意力才能干的简单任务压缩到1-2层搞定,省出来的资源就可以用于更难的推理任务了。
 
条件记忆的原理其实也非常“原始”:不靠计算,回归查表,用上了传统n-gram方法。
 
给大模型一个巨大的词表,专门存那些固定的实体名称和两三个词的短语,不管词表多大,找信息都是o(1)速度。
 
关键就在于,如此前大模型时代的玩法,deepseek如何解决传统n-gram模型存储爆炸和多义性问题,又是让它和现代transformer结合起来的?
 
让注意力干“苦力活”太浪费了
团队的核心观察是,语言建模其实包含两种性质完全不同的任务,一种是需要深度动态计算的组合推理,另一种则是检索静态知识。
 
问题在于,现有的transformer架构缺乏原生的知识查找机制。
 
当模型需要识别一个实体时,它得消耗好几层注意力和前馈网络,逐层拼凑特征,最终才能完成。
 
论文中引用了一个具体案例:”diana, princess of wales”
 
模型需要经过6层才能完成这个识别过程,前几层还在纠结”wales是英国的一个地区”、”princess of wales是某种头衔”这些中间状态,最终才能“想起来”这是指戴安娜王妃。
 
 
本质上是在用昂贵的运行时计算来重建一个静态查找表,那些本可以用于更高层推理的网络深度,被浪费在了识别概念这种“苦力活”上。
 
回归查表,回归n-gram
engram的设计思路相当直接:既然经典的n-gram模型就能用o(1)的时间复杂度捕获这些局部依赖,那为什么不把这个能力直接嵌入transformer?
 
具体实现上,团队在原有的transformer层之间插入engram模块。每个位置的输入会触发一次哈希查找:把当前token和前面几个token组成的n-gram映射到一个巨大的嵌入表中,直接取出对应的向量。
 

每日福利9游会

马自达cx-90召回修补后再生风波,美监管机构专项调查启动‌ 买车可以分7年还贷款,到底是实惠还是入坑? 再战ces2026 长城汽车在全球棋盘上布了一记先手 上海可以“包分配”的3所大学,就业率90%以上!毕业不愁找工作! deepseek发布梁文锋署名新论文 粉丝问:iphone17型号m开头不是零售机吗?为什么我的是更换机? 索尼gm(g大师)镜头完整选择指南 三星电子在hbm市场份额已超过美光 但仍远不及sk海力士 三星、海力士上调hbm报价20%,存储芯片概念上涨 金价狂飙 千元内几乎买不到金饰 三星会长李在镕今年持股价值翻番,仍居韩国第一 消息称荣耀超大杯机型影像重点是新的lofic主摄和2亿长焦 oppo的高端化困局与技术突围战 华为nova 15标准版手机发布,2699元起 不是智商税!实测深蓝s07华为版:市区通勤真能两周不充电? 三星发布全球首款2nm智能手机芯片 共筑零售新生态 华为云零售峰会2025在成都举行 挑战比亚迪元up?大众纯电小车曝光,220马力 450km续航 芯片短缺下的生产调整:本田减产背后的行业启示 耗资超20亿打造,吉利全球全域安全中心到底有啥用? 从0到1500万 比亚迪用“中国速度”让世界见证新能源奇迹 黑河早市人脚一双100码大鞋 22.98万元起,福特智趣烈马纯电/增程suv上市 让产业创新与科技创新多点“联想” 飞天茅台价格暴跌 黄牛损失惨重 年售六亿张,产品覆盖七十二个国家和地区——薄薄手机膜 走向全世界 vivo x300系列叫好又叫座:天玑9500旗舰芯成致胜法宝 合作近十年!关晓彤继续代言华为nova 15系列:真机大片出炉 为多口之家量身打造?五菱星光730 phev深度体验,不止于大空间 外观更年轻!全新日产楼兰实车曝光,车长超4米8,搭2.0t 9at
网站地图