成人国产亚洲Av在线,高清无码在线不卡蜜臀

DoNews > 商業(yè) > 豆包大模型2.0發(fā)布，專家模式上線，多數(shù)基準達 SOTA 水平

豆包大模型2.0發(fā)布，專家模式上線，多數(shù)基準達 SOTA 水平

李旭 2026-02-14 14:08:03

157385

分享到

DoNews2月14日消息，今天，豆包大模型正式進入2.0階段。

隨著Agent時代到來，大模型將在現(xiàn)實世界發(fā)揮更大作用。豆包2.0（Doubao-Seed-2.0）圍繞大規(guī)模生產(chǎn)環(huán)境下的使用需求做了系統(tǒng)性優(yōu)化，依托高效推理、多模態(tài)理解與復雜指令執(zhí)行能力，更好地完成真實世界復雜任務。

豆包2.0系列包含Pro、Lite、Mini三款通用Agent模型和Code模型，靈活適配各類業(yè)務場景：

豆包2.0 Pro面向深度推理與長鏈路任務執(zhí)行場景，全面對標GPT 5.2與Gemini 3 Pro；
2.0 Lite兼顧性能與成本，綜合能力超越上一代主力模型豆包1.8；
2.0 Mini面向低時延、高并發(fā)與成本敏感場景；
Code版（Doubao-Seed-2.0-Code）專為編程場景打造，與TRAE結(jié)合使用效果更佳。

目前，豆包2.0 Pro已在豆包App、電腦端和網(wǎng)頁版上線，用戶選擇「專家」模式即可對話體驗；豆包2.0 Code接入了AI編程產(chǎn)品TRAE；面向企業(yè)和開發(fā)者，火山引擎也已上線豆包2.0系列模型API服務。

多模態(tài)理解能力全面升級，多數(shù)基準達 SOTA 水平

豆包 2.0 全面升級了多模態(tài)能力，在各類視覺理解任務上均達到世界頂尖水平，視覺推理、感知能力、空間推理與長上下文理解能力表現(xiàn)尤為突出，豆包 2.0 Pro 在大多數(shù)相關基準測試中取得最高分。

面對動態(tài)場景，豆包 2.0 強化了對時間序列與運動感知的理解能力，在 TVBench 等關鍵測評中處于領先位置，且在 EgoTempo 基準上超過了人類分數(shù)，表明它對“變化、動作、節(jié)奏”這類信息的捕捉更為穩(wěn)定，在工程側(cè)可用性更高。

長視頻場景中，豆包 2.0 在大多評測上超越了其他頂尖模型，且在多個流式實時問答視頻基準測試中表現(xiàn)優(yōu)異，能作為 AI 助手完成實時視頻流分析、環(huán)境感知、主動糾錯與情感陪伴，實現(xiàn)從被動問答到主動指導的交互升級，可應用于健身、穿搭等陪伴場景。

LLM 與 Agent 表現(xiàn)大幅強化，長程任務執(zhí)行能力提升

提升長程任務執(zhí)行能力，需要豐富的真實世界知識。通過加強長尾領域知識，豆包 2.0 Pro 在 SuperGPQA 上分數(shù)超過 GPT 5.2，并在 HealthBench 上拿到第一名，在科學領域的整體成績與 Gemini 3 Pro 和 GPT 5.2 相當。

在推理和 Agent 能力評測中，豆包 2.0 Pro 在 IMO、CMO 數(shù)學奧賽和 ICPC 編程競賽中獲得金牌成績，也超越了 Gemini 3 Pro 在 Putnam Bench 上的表現(xiàn)，展現(xiàn)了強勁的數(shù)學和推理能力。在 HLE-text（人類的最后考試）上，豆包 2.0 Pro 取得最高分 54.2 分，在工具調(diào)用和指令遵循測試中也有出色表現(xiàn)。

豆包 2.0 還進一步降低了推理成本。其模型效果與業(yè)界頂尖大模型相當，但 token 定價降低了約一個數(shù)量級。在現(xiàn)實世界的復雜任務中，由于大規(guī)模推理與長鏈路生成將消耗大量 token，這一成本優(yōu)勢將變得更為關鍵。

Code 模型提升開發(fā)效率，快速搭建復雜應用

豆包 2.0 Code 是基于 2.0 基座模型，針對編程場景進行優(yōu)化的版本。其強化了代碼庫解讀能力，還提升了應用生成能力。此外，豆包 2.0 Code 還增強了模型在 Agent 工作流中的糾錯能力。

該模型已上線 TRAE 中國版作為內(nèi)置模型，支持圖片理解和推理。

以開發(fā)一個「TRAE 春節(jié)小鎮(zhèn) · 馬年廟會」互動項目為例。這是一個比較復雜的場景，但是通過 TRAE+ 豆包 2.0 Code，只需要 1 輪提示詞，就能構(gòu)建出基本的架構(gòu)和場景，再經(jīng)過幾次調(diào)試，總共 5 輪提示詞，就可完成這個作品。

字節(jié)跳動官方稱，豆包大模型 2.0 系列的更新，是面向現(xiàn)實世界復雜任務的新起點。未來，團隊將繼續(xù)面向真實場景迭代模型，不斷探索智能上限。