久草在线青青草 I 夜操 I 中文字幕专区高清在线观看 I 亚洲女同中文字幕 I 亚洲一区二区三区国产精品无码 I 国产三级不卡 I 91蝌蚪91视频 I 天天视频一区 I 国产精品久久久久免费a∨大胸 I 国产熟睡乱子伦视频观看软件 I 亚洲伊人影视 I 久久久久久综合网 I www.chenren I 五月婷综合 I 日本亚洲三级 I 三级欧美在线 I 六月综合激情 I 亚洲欧美激情图片 I 国产91福利在线 I 美女露出奶头扒开尿口免费网站 I 精品一区国产vr I 超碰男人 I 伊人久久综合网站 I 日韩视频国产 I 日韩黄页 I 国产亚洲片 I 久久久精品久久久久 I 国产亚洲日韩妖曝欧美 I 亚洲码av I 日韩中文字幕午夜视频 I 久久综合久久鬼 I 爱福利在线视频 I 成人性片在线 I 日韩中文字幕不卡视频 I 午夜精品一区二区三区视频免费看

首頁(yè) > 活動(dòng)線報(bào) > 每日福利 > DeepSeek發(fā)布梁文鋒署名新論文

DeepSeek發(fā)布梁文鋒署名新論文

發(fā)布時(shí)間:2026-01-13 10:22:30來源: 15210273549
DeepSeek節(jié)前開始蓄力!
 
最新論文直接給Transformer加上“條件記憶”(Conditional Memory),補(bǔ)上了原生缺乏的知識(shí)查找機(jī)制。
 
結(jié)論中明確寫道:我們將條件記憶視為下一代稀疏模型不可或缺的建模原語(yǔ)。
 
 
還是梁文鋒署名,并與北京大學(xué)王選所趙東巖、張輝帥團(tuán)隊(duì)合作。
 
 
論文中不僅提出了條件記憶這個(gè)全新范式,并給出了具體實(shí)現(xiàn)方案Engram模塊,實(shí)驗(yàn)中讓27B參數(shù)碾壓同規(guī)模純MoE模型,甚至變相提升了大模型的推理能力:
 
讓原來Transformer要用6層注意力才能干的簡(jiǎn)單任務(wù)壓縮到1-2層搞定,省出來的資源就可以用于更難的推理任務(wù)了。
 
條件記憶的原理其實(shí)也非常“原始”:不靠計(jì)算,回歸查表,用上了傳統(tǒng)N-gram方法。
 
給大模型一個(gè)巨大的詞表,專門存那些固定的實(shí)體名稱和兩三個(gè)詞的短語(yǔ),不管詞表多大,找信息都是O(1)速度。
 
關(guān)鍵就在于,如此前大模型時(shí)代的玩法,DeepSeek如何解決傳統(tǒng)N-gram模型存儲(chǔ)爆炸和多義性問題,又是讓它和現(xiàn)代Transformer結(jié)合起來的?
 
讓注意力干“苦力活”太浪費(fèi)了
團(tuán)隊(duì)的核心觀察是,語(yǔ)言建模其實(shí)包含兩種性質(zhì)完全不同的任務(wù),一種是需要深度動(dòng)態(tài)計(jì)算的組合推理,另一種則是檢索靜態(tài)知識(shí)。
 
問題在于,現(xiàn)有的Transformer架構(gòu)缺乏原生的知識(shí)查找機(jī)制。
 
當(dāng)模型需要識(shí)別一個(gè)實(shí)體時(shí),它得消耗好幾層注意力和前饋網(wǎng)絡(luò),逐層拼湊特征,最終才能完成。
 
論文中引用了一個(gè)具體案例:”Diana, Princess of Wales”
 
模型需要經(jīng)過6層才能完成這個(gè)識(shí)別過程,前幾層還在糾結(jié)”Wales是英國(guó)的一個(gè)地區(qū)”、”Princess of Wales是某種頭銜”這些中間狀態(tài),最終才能“想起來”這是指戴安娜王妃。
 
 
本質(zhì)上是在用昂貴的運(yùn)行時(shí)計(jì)算來重建一個(gè)靜態(tài)查找表,那些本可以用于更高層推理的網(wǎng)絡(luò)深度,被浪費(fèi)在了識(shí)別概念這種“苦力活”上。
 
回歸查表,回歸N-gram
Engram的設(shè)計(jì)思路相當(dāng)直接:既然經(jīng)典的N-gram模型就能用O(1)的時(shí)間復(fù)雜度捕獲這些局部依賴,那為什么不把這個(gè)能力直接嵌入Transformer?
 
具體實(shí)現(xiàn)上,團(tuán)隊(duì)在原有的Transformer層之間插入Engram模塊。每個(gè)位置的輸入會(huì)觸發(fā)一次哈希查找:把當(dāng)前token和前面幾個(gè)token組成的N-gram映射到一個(gè)巨大的嵌入表中,直接取出對(duì)應(yīng)的向量。
 

每日福利更多>>

馬自達(dá)CX-90召回修補(bǔ)后再生風(fēng)波,美監(jiān)管機(jī)構(gòu)專項(xiàng)調(diào)查啟動(dòng)‌ 買車可以分7年還貸款,到底是實(shí)惠還是入坑? 再戰(zhàn)CES2026 長(zhǎng)城汽車在全球棋盤上布了一記先手 上海可以“包分配”的3所大學(xué),就業(yè)率90%以上!畢業(yè)不愁找工作! DeepSeek發(fā)布梁文鋒署名新論文 粉絲問:iPhone17型號(hào)M開頭不是零售機(jī)嗎?為什么我的是更換機(jī)? 索尼GM(G大師)鏡頭完整選擇指南 三星電子在HBM市場(chǎng)份額已超過美光 但仍遠(yuǎn)不及SK海力士 三星、海力士上調(diào)HBM報(bào)價(jià)20%,存儲(chǔ)芯片概念上漲 金價(jià)狂飆 千元內(nèi)幾乎買不到金飾 三星會(huì)長(zhǎng)李在镕今年持股價(jià)值翻番,仍居韓國(guó)第一 消息稱榮耀超大杯機(jī)型影像重點(diǎn)是新的LOFIC主攝和2億長(zhǎng)焦 OPPO的高端化困局與技術(shù)突圍戰(zhàn) 華為nova 15標(biāo)準(zhǔn)版手機(jī)發(fā)布,2699元起 不是智商稅!實(shí)測(cè)深藍(lán)S07華為版:市區(qū)通勤真能兩周不充電? 三星發(fā)布全球首款2nm智能手機(jī)芯片 共筑零售新生態(tài) 華為云零售峰會(huì)2025在成都舉行 挑戰(zhàn)比亞迪元UP?大眾純電小車曝光,220馬力+450km續(xù)航 芯片短缺下的生產(chǎn)調(diào)整:本田減產(chǎn)背后的行業(yè)啟示 耗資超20億打造,吉利全球全域安全中心到底有啥用? 從0到1500萬 比亞迪用“中國(guó)速度”讓世界見證新能源奇跡 別讓欺詐騙保搶走“生娃錢” 黑河早市人腳一雙100碼大鞋 22.98萬元起,福特智趣烈馬純電/增程SUV上市 讓產(chǎn)業(yè)創(chuàng)新與科技創(chuàng)新多點(diǎn)“聯(lián)想” 飛天茅臺(tái)價(jià)格暴跌 黃牛損失慘重 詐騙公司。《造物-員工版》App,投資被騙,虧的心態(tài)爆炸后悔別著急 年售六億張,產(chǎn)品覆蓋七十二個(gè)國(guó)家和地區(qū)——薄薄手機(jī)膜 走向全世界 vivo X300系列叫好又叫座:天璣9500旗艦芯成致勝法寶 合作近十年!關(guān)曉彤繼續(xù)代言華為nova 15系列:真機(jī)大片出爐