在线中文AV精品人人草视频|日韩特黄AA片av超碰|国模免费在线视频|国产高清无码三级片|小毛片小电影人人上人人操|春色av无码黄片无码区|很爽很爽的香蕉视频|日本伊人小视频|亚洲AV网站免费|四月婷婷精品视频在线

梁文鋒署名新論文曝光:DeepSeek V4 或引入全新記憶架構(gòu)

DoNews1月13日消息,今日凌晨,DeepSeek 開源全新架構(gòu)模塊「Engram」,并同步發(fā)布技術(shù)論文,署名作者中再次出現(xiàn)梁文鋒。據(jù)悉,Engram 模塊通過引入可擴展的查找式記憶結(jié)構(gòu),為大模型提供了區(qū)別于傳統(tǒng) Transformer 與 MoE 的全新稀疏性維度。

DeepSeek 在論文中指出,當(dāng)前主流大模型在處理兩類任務(wù)時存在結(jié)構(gòu)性低效:一類是依賴固定知識的「查表式」記憶,另一類是復(fù)雜推理與組合計算。傳統(tǒng) Transformer(無論 Dense 或 MoE)均需通過多層注意力與 MLP 重建這些靜態(tài)模式,導(dǎo)致計算資源被大量消耗在「重復(fù)構(gòu)造已知模式」上。

Engram 的核心機制是基于現(xiàn)代化哈希 N-Gram 嵌入的 O(1) 查找式記憶。模塊會對輸入 Token 序列進行 N-Gram 切片,并通過多頭哈希映射到一個規(guī)??蓴U展的靜態(tài)記憶表中,實現(xiàn)常數(shù)時間的檢索。

論文強調(diào),這種查找與模型規(guī)模無關(guān),即便記憶表擴展至百億級參數(shù),檢索成本仍保持穩(wěn)定。與 MoE 的條件計算不同,Engram 提供的是「條件記憶」。模塊會根據(jù)當(dāng)前上下文隱向量決定是否啟用查找結(jié)果,并通過門控機制與主干網(wǎng)絡(luò)融合。

論文顯示,Engram 通常被放置在模型早期層,用于承擔(dān)「模式重建」職責(zé),從而釋放后續(xù)層的計算深度用于復(fù)雜推理。DeepSeek 在 27B 參數(shù)規(guī)模的實驗中,將部分 MoE 專家參數(shù)重新分配給 Engram 記憶表,在等參數(shù)、等算力條件下,模型在知識、推理、代碼與數(shù)學(xué)任務(wù)上均取得顯著提升。

在 X 平臺上,相關(guān)技術(shù)討論認為 Engram 的機制有效減少了模型早期層對靜態(tài)模式的重建需求,使模型在推理部分表現(xiàn)得更「深」。部分開發(fā)者指出,這種架構(gòu)讓大規(guī)模靜態(tài)記憶得以脫離 GPU 存儲限制,通過確定性尋址實現(xiàn)主機內(nèi)存預(yù)取,從而在推理階段保持低開銷。多位觀察者推測,Engram 很可能成為 DeepSeek 下一代模型「V4」的核心技術(shù)基礎(chǔ)。

標(biāo)簽: DeepSeek Engram 梁文鋒 V4
梁文鋒署名新論文曝光:DeepSeek V4 或引入全新記憶架構(gòu)
掃描二維碼查看原文
分享自DoNews
Copyright ? DoNews 2000-2026 All Rights Reserved
蜀ICP備2024059877號-1