在线中文AV精品人人草视频|日韩特黄AA片av超碰|国模免费在线视频|国产高清无码三级片|小毛片小电影人人上人人操|春色av无码黄片无码区|很爽很爽的香蕉视频|日本伊人小视频|亚洲AV网站免费|四月婷婷精品视频在线

阿里開源最強(qiáng)視覺理解模型Qwen3-VL,Agent和空間感知能力大幅增強(qiáng)

9月24日的2025云棲大會(huì)上,阿里開源新一代視覺理解模型Qwen3-VL。該模型在視覺感知和多模態(tài)推理方面實(shí)現(xiàn)重大突破,在32項(xiàng)核心能力測評中超過Gemini2.5-Pro和GPT-5。同時(shí),Qwen3-VL大幅提升了視覺Agent、視覺編程和空間感知等關(guān)鍵能力,不但可調(diào)用摳圖、搜索等工具完成“帶圖推理”,也可以憑借一張?jiān)O(shè)計(jì)草圖或一段小游戲視頻直接“視覺編程”,“所見即所得”地復(fù)刻圖表、網(wǎng)頁和復(fù)雜程序。

【圖說】:Qwen3-VL-235B-A22 Instruct測評分?jǐn)?shù)

本次開源的是旗艦版Qwen3-VL-235B-A22B,有開源指令(Instruct)模型和推理(Thinking)模型兩大版本。Qwen3-VL展現(xiàn)了在復(fù)雜視覺任務(wù)中的強(qiáng)大泛化能力與綜合性能,在邏輯謎題、通用視覺問答、多語言文本識(shí)別與圖表文檔解析、二維與三維目標(biāo)定位、具身與空間感知、視頻理解等32項(xiàng)具體測評中,指令版Qwen3-VL超越了Gemini2.5-Pro 和 GPT5 等閉源模型,同時(shí)刷新了開源多模態(tài)模型的最佳成績。推理版Qwen3-VL多模態(tài)思考能力顯著增強(qiáng),在 MathVision、MMMU、MathVista 等權(quán)威評測中達(dá)到領(lǐng)先水平。

Qwen3-VL擁有極強(qiáng)的視覺智能體和視覺Coding能力,幾乎刷新所有相關(guān)評測的最佳性能。Qwen3-VL 不僅能看懂圖片,還能像人一樣操作手機(jī)和電腦,自動(dòng)完成許多日常任務(wù),例如打開應(yīng)用、點(diǎn)擊按鈕、填寫信息等,實(shí)現(xiàn)智能化的交互與自動(dòng)化操作。輸入一張圖片,Qwen3-VL可自行調(diào)用Agent工具放大圖片細(xì)節(jié),通過更仔細(xì)的觀察分析,推理出更好的答案;看到一張?jiān)O(shè)計(jì)圖,Qwen3-VL 就能生成Draw.io/HTML/CSS/JS 代碼,“所見即所得”地完成視覺編程,真正推動(dòng)大模型從“識(shí)別”邁向“推理與執(zhí)行”。

Qwen3-VL可支持?jǐn)U展百萬tokens上下文,視頻理解時(shí)長擴(kuò)展到2小時(shí)以上。這意味著,無論是幾百頁的技術(shù)文檔、整本教材,還是長達(dá)數(shù)小時(shí)的會(huì)議錄像或教學(xué)視頻,都能完整輸入、全程記憶、精準(zhǔn)檢索。Qwen3-VL還能根據(jù)時(shí)間戳精確定位“什么時(shí)候發(fā)生了什么”,比如“第15分鐘穿紅衣服的人做了什么”、“球從哪個(gè)方向飛入畫面”等,都能準(zhǔn)確回答。

【圖說】:Qwen3-VL的3D檢測能力增強(qiáng),未來可協(xié)助機(jī)器人等具身智能判斷物體的方位。

大模型的空間理解能力是實(shí)現(xiàn)具身智能的基礎(chǔ),Qwen3-VL 專門增強(qiáng)了3D檢測(grounding)能力,可以更好地感知空間。當(dāng)前,機(jī)器人想要輕松抓住桌上的一個(gè)蘋果,并不容易。憑借Qwen3-VL強(qiáng)大的3D檢測能力,未來可讓機(jī)器人更好地判斷物體方位、視角變化和遮擋關(guān)系,從而準(zhǔn)確判斷蘋果的位置與自身距離,實(shí)現(xiàn)精準(zhǔn)抓取。

據(jù)了解,千問視覺理解模型已實(shí)現(xiàn)廣泛落地,比如國家天文臺(tái)聯(lián)合阿里云發(fā)布的全球首個(gè)太陽大模型“金烏”,正是基于 Qwen-VL 等模型以超過 90 萬張?zhí)栃l(wèi)星圖像為樣本完成微調(diào)訓(xùn)練。未來,Qwen3-VL模型還將開源更多尺寸版本。即日起,用戶可在通義千問QwenChat上免費(fèi)體驗(yàn)Qwen3-VL,也可通過阿里云百煉平臺(tái)調(diào)用API服務(wù)。

Qwen3-Omni新聞稿

標(biāo)題1:阿里開源全模態(tài)大模型Qwen3-Omni,可像人類一樣聽說寫

標(biāo)題2:阿里開源全模態(tài)大模型Qwen3-Omni,狂攬32項(xiàng)開源最佳表現(xiàn)

9月24日,2025年云棲大會(huì)開幕,阿里巴巴發(fā)布通義全模態(tài)預(yù)訓(xùn)練大模型Qwen3-Omni系列模型。通過引入多種架構(gòu)升級(jí)和技術(shù)迭代,Qwen3-Omni系列的模型表現(xiàn)和效率大幅提升。在36個(gè)音視頻基準(zhǔn)測試中,22項(xiàng)達(dá)到SOTA水平,其中32項(xiàng)取得開源模型最佳效果。語音識(shí)別、音頻理解與語音對話能力可比肩Gemini 2.5-Pro。

作為全模態(tài)模型,Qwen3-Omni能夠?qū)崿F(xiàn)全模態(tài)輸入和全模態(tài)輸出。類似于人類嬰兒一出生就全方位感知世界,Qwen3-Omni一開始就加入了“聽”、“說”、“寫”多模態(tài)混合訓(xùn)練。在預(yù)訓(xùn)練過程中,Qwen3-Omni采用了混合單模態(tài)和跨模態(tài)數(shù)據(jù)。此前,模型在混合訓(xùn)練后,各個(gè)功能會(huì)相互掣肘甚至降智,比如音頻理解能力提升,文字理解能力反而降低了。但Qwen3-Omni在實(shí)現(xiàn)強(qiáng)勁音頻與音視頻能力的同時(shí),單模態(tài)文本與圖像性能均保持穩(wěn)定,這是業(yè)內(nèi)首次實(shí)現(xiàn)這一訓(xùn)練效果。

Qwen3-Omni的優(yōu)異表現(xiàn)源于多種架構(gòu)升級(jí)。Qwen2.5-Omni采用了雙核架構(gòu)Thinker-Talker,讓大模型擁有了人類的“大腦”和“發(fā)聲器”。Qwen3-Omni的Thinker-Talker架構(gòu)進(jìn)一步加強(qiáng),結(jié)合AuT預(yù)訓(xùn)練構(gòu)建強(qiáng)通用表征,配合多碼本設(shè)計(jì),響應(yīng)延遲壓縮至最低。相較于半年前推出的Qwen2.5-Omni,Qwen3-Omni的交互速度更快,純模型端到端音頻對話延遲低至211ms,視頻對話延遲低至507ms;支持的語言更多,包括19種語言音頻輸入、10種語言輸出。

作為一款“會(huì)說話”的模型,Qwen3-Omni應(yīng)用場景廣泛,未來可部署于車載、智能眼鏡和手機(jī)等。用戶還可設(shè)定個(gè)性化角色、調(diào)整對話風(fēng)格,打造專屬的個(gè)人IP。相較于傳統(tǒng)的錄音轉(zhuǎn)文字軟件,Qwen3-Omni能夠處理長達(dá) 30 分鐘的音頻文件,無需切割音頻,即可精準(zhǔn)識(shí)別語音、深度理解內(nèi)容。

目前,Qwen3-Omni系列已開源三款模型:Qwen3-Omni-30B-A3B-Instruct、Qwen3-Omni-30B-A3B-Thinking 和 Qwen3-Omni-30B-A3B-Captioner,值得關(guān)注的是,擅長音頻描述的模型Qwen3-Omni-30B-A3B-Captioner為全球首次開源的通用音頻caption模型,可以清晰描述用戶輸入音頻的特征,填補(bǔ)了開源社區(qū)空白。

Qwen3-Omni現(xiàn)已在Hugging Face和ModelScope上開放,用戶可訪問Qwen Chat免費(fèi)體驗(yàn)Qwen3-Omni-Flash。

【圖說】:Qwen3-Omni測評分?jǐn)?shù)

最新文章
Copyright ? DoNews 2000-2026 All Rights Reserved
蜀ICP備2024059877號(hào)-1