日韩欧美国产偷亚洲清高,亚洲操逼网站自拍超碰,成人A片一级日韩第二色区

DoNews > 商業(yè) > 梁文鋒署名新論文曝光：DeepSeek V4 或引入全新記憶架構(gòu)

梁文鋒署名新論文曝光：DeepSeek V4 或引入全新記憶架構(gòu)

楊亮 2026-01-13 08:48:46

573124

分享到

DoNews1月13日消息，今日凌晨，DeepSeek 開源全新架構(gòu)模塊「Engram」，并同步發(fā)布技術(shù)論文，署名作者中再次出現(xiàn)梁文鋒。據(jù)悉，Engram 模塊通過引入可擴展的查找式記憶結(jié)構(gòu)，為大模型提供了區(qū)別于傳統(tǒng) Transformer 與 MoE 的全新稀疏性維度。

DeepSeek 在論文中指出，當(dāng)前主流大模型在處理兩類任務(wù)時存在結(jié)構(gòu)性低效：一類是依賴固定知識的「查表式」記憶，另一類是復(fù)雜推理與組合計算。傳統(tǒng) Transformer（無論 Dense 或 MoE）均需通過多層注意力與 MLP 重建這些靜態(tài)模式，導(dǎo)致計算資源被大量消耗在「重復(fù)構(gòu)造已知模式」上。

Engram 的核心機制是基于現(xiàn)代化哈希 N-Gram 嵌入的 O(1) 查找式記憶。模塊會對輸入 Token 序列進行 N-Gram 切片，并通過多頭哈希映射到一個規(guī)?？蓴U展的靜態(tài)記憶表中，實現(xiàn)常數(shù)時間的檢索。

論文強調(diào)，這種查找與模型規(guī)模無關(guān)，即便記憶表擴展至百億級參數(shù)，檢索成本仍保持穩(wěn)定。與 MoE 的條件計算不同，Engram 提供的是「條件記憶」。模塊會根據(jù)當(dāng)前上下文隱向量決定是否啟用查找結(jié)果，并通過門控機制與主干網(wǎng)絡(luò)融合。

論文顯示，Engram 通常被放置在模型早期層，用于承擔(dān)「模式重建」職責(zé)，從而釋放后續(xù)層的計算深度用于復(fù)雜推理。DeepSeek 在 27B 參數(shù)規(guī)模的實驗中，將部分 MoE 專家參數(shù)重新分配給 Engram 記憶表，在等參數(shù)、等算力條件下，模型在知識、推理、代碼與數(shù)學(xué)任務(wù)上均取得顯著提升。

在 X 平臺上，相關(guān)技術(shù)討論認為 Engram 的機制有效減少了模型早期層對靜態(tài)模式的重建需求，使模型在推理部分表現(xiàn)得更「深」。部分開發(fā)者指出，這種架構(gòu)讓大規(guī)模靜態(tài)記憶得以脫離 GPU 存儲限制，通過確定性尋址實現(xiàn)主機內(nèi)存預(yù)取，從而在推理階段保持低開銷。多位觀察者推測，Engram 很可能成為 DeepSeek 下一代模型「V4」的核心技術(shù)基礎(chǔ)。