DeepSeek節(jié)前開始蓄力!
最新論文直接給Transformer加上“條件記憶”(Conditional Memory),補(bǔ)上了原生缺乏的知識(shí)查找機(jī)制。
結(jié)論中明確寫道:我們將條件記憶視為下一代稀疏模型不可或缺的建模原語(yǔ)。
還是梁文鋒署名,并與北京大學(xué)王選所趙東巖、張輝帥團(tuán)隊(duì)合作。
論文中不僅提出了條件記憶這個(gè)全新范式,并給出了具體實(shí)現(xiàn)方案Engram模塊,實(shí)驗(yàn)中讓27B參數(shù)碾壓同規(guī)模純MoE模型,甚至變相提升了大模型的推理能力:
讓原來Transformer要用6層注意力才能干的簡(jiǎn)單任務(wù)壓縮到1-2層搞定,省出來的資源就可以用于更難的推理任務(wù)了。
條件記憶的原理其實(shí)也非常“原始”:不靠計(jì)算,回歸查表,用上了傳統(tǒng)N-gram方法。
給大模型一個(gè)巨大的詞表,專門存那些固定的實(shí)體名稱和兩三個(gè)詞的短語(yǔ),不管詞表多大,找信息都是O(1)速度。
關(guān)鍵就在于,如此前大模型時(shí)代的玩法,DeepSeek如何解決傳統(tǒng)N-gram模型存儲(chǔ)爆炸和多義性問題,又是讓它和現(xiàn)代Transformer結(jié)合起來的?
讓注意力干“苦力活”太浪費(fèi)了
團(tuán)隊(duì)的核心觀察是,語(yǔ)言建模其實(shí)包含兩種性質(zhì)完全不同的任務(wù),一種是需要深度動(dòng)態(tài)計(jì)算的組合推理,另一種則是檢索靜態(tài)知識(shí)。
問題在于,現(xiàn)有的Transformer架構(gòu)缺乏原生的知識(shí)查找機(jī)制。
當(dāng)模型需要識(shí)別一個(gè)實(shí)體時(shí),它得消耗好幾層注意力和前饋網(wǎng)絡(luò),逐層拼湊特征,最終才能完成。
論文中引用了一個(gè)具體案例:”Diana, Princess of Wales”
模型需要經(jīng)過6層才能完成這個(gè)識(shí)別過程,前幾層還在糾結(jié)”Wales是英國(guó)的一個(gè)地區(qū)”、”Princess of Wales是某種頭銜”這些中間狀態(tài),最終才能“想起來”這是指戴安娜王妃。
本質(zhì)上是在用昂貴的運(yùn)行時(shí)計(jì)算來重建一個(gè)靜態(tài)查找表,那些本可以用于更高層推理的網(wǎng)絡(luò)深度,被浪費(fèi)在了識(shí)別概念這種“苦力活”上。
回歸查表,回歸N-gram
Engram的設(shè)計(jì)思路相當(dāng)直接:既然經(jīng)典的N-gram模型就能用O(1)的時(shí)間復(fù)雜度捕獲這些局部依賴,那為什么不把這個(gè)能力直接嵌入Transformer?
具體實(shí)現(xiàn)上,團(tuán)隊(duì)在原有的Transformer層之間插入Engram模塊。每個(gè)位置的輸入會(huì)觸發(fā)一次哈希查找:把當(dāng)前token和前面幾個(gè)token組成的N-gram映射到一個(gè)巨大的嵌入表中,直接取出對(duì)應(yīng)的向量。