DoNews1月27日消息,月之暗面今日宣布推出并開源了其最新的 Kimi K2.5 模型。同時,Kimi 智能助手 K2.5 版本正式上線。用戶在官網(wǎng)聊天界面中原本的 K2 模型已自動切換為 K2.5 版本。

該模型是其目前最智能的模型,在 Agent、代碼、圖像、視頻及一系列通用智能任務(wù)上取得開源 state-of-the-art 表現(xiàn);同時也是 Kimi 迄今最全能的模型,采用了原生的多模態(tài)架構(gòu)設(shè)計,同時支持視覺與文本輸入、思考與非思考模式、對話與 Agent 任務(wù)。

在模型定位上,Kimi K2.5 被設(shè)計為一款通用型多模態(tài)模型,可在對話、復(fù)雜推理和自動化任務(wù)之間切換使用。

與此前版本相比,該模型在視覺理解與推理能力上進一步加強,用戶在與模型交互時,不再局限于文字描述,還可以直接上傳圖片、截圖或錄屏內(nèi)容,由模型進行分析和處理。這一能力被用于輔助理解界面操作、分析文檔結(jié)構(gòu)以及還原交互流程等場景。

在編程與軟件工程方面,Kimi K2.5 延續(xù)了 K2 系列在代碼生成領(lǐng)域的技術(shù)路線,尤其是前端開發(fā)方面,并支持通過截圖或錄屏視頻來理解并復(fù)現(xiàn)代碼邏輯。

官方示例顯示,該模型可以基于自然語言指令生成完整的前端頁面代碼,并處理包含動態(tài)布局、滾動觸發(fā)等在內(nèi)的交互邏輯。同時,結(jié)合視覺能力,Kimi K2.5 可以對用戶提供的界面錄屏進行拆解,分析其背后的交互結(jié)構(gòu),并生成相應(yīng)的實現(xiàn)代碼。這一功能已在部分 API 內(nèi)測用戶的應(yīng)用場景中得到驗證,例如在視頻動作識別與分析類產(chǎn)品中的使用。

除單一 Agent 能力外,Kimi K2.5 引入了新的“Agent 集群”機制。這一機制允許模型在面對復(fù)雜任務(wù)時,不再以單一 Agent 形式執(zhí)行,而是根據(jù)任務(wù)需求動態(tài)生成多個子 Agent,并行完成不同子任務(wù)。

官方介紹稱,Agent 集群最多可調(diào)度上百個子 Agent,并支持上千步的任務(wù)執(zhí)行流程,所有角色分工與任務(wù)拆解由模型在運行過程中自動完成,無需人工預(yù)設(shè)。在長文本處理與資料整合類任務(wù)中,Agent 集群已被用于多篇論文的通讀、分工撰寫與最終匯總,輸出結(jié)構(gòu)化的長篇文檔。

性能方面,在大規(guī)模搜索與復(fù)雜任務(wù)場景下,相比單 Agent 執(zhí)行方式,Agent 集群在完成目標(biāo)所需的關(guān)鍵步驟數(shù)量和整體執(zhí)行時間上均有所減少。為支持這一能力,團隊對強化學(xué)習(xí)訓(xùn)練基礎(chǔ)設(shè)施和相關(guān)算法進行了重構(gòu),目前該功能仍處于 Beta 測試階段,計劃逐步向更多用戶開放。

隨 Kimi K2.5 模型一同發(fā)布的還有月之暗面面向開發(fā)者的編程工具 Kimi Code。該工具可在命令行環(huán)境中運行,并支持與 VS Code、Cursor、JetBrains 系列 IDE 以及 Zed 等主流編輯器集成。

目前,Kimi K2.5 模型已在 Kimi 官方網(wǎng)站、移動 App 及其 API 開放平臺上線。普通用戶可通過不同模式使用其功能,開發(fā)者和企業(yè)也可通過 API 進行調(diào)用。