在线中文AV精品人人草视频|日韩特黄AA片av超碰|国模免费在线视频|国产高清无码三级片|小毛片小电影人人上人人操|春色av无码黄片无码区|很爽很爽的香蕉视频|日本伊人小视频|亚洲AV网站免费|四月婷婷精品视频在线

在6億用戶(hù)的真實(shí)語(yǔ)境中,看AI如何重構(gòu)輸入法|對(duì)話(huà)搜狗輸入法團(tuán)隊(duì)

?

沉寂多年的輸入法賽道,近來(lái)被AI一把點(diǎn)燃。

一邊是老牌玩家加速重構(gòu):年初,長(zhǎng)期穩(wěn)居頭部的騰訊搜狗輸入法推出20.0AI大版本,用大模型的生成能力重塑輸入法的底層邏輯;訊飛和百度作為國(guó)內(nèi)主流輸入法產(chǎn)品,也在這兩年紛紛引入大模型能力,生怕掉隊(duì)。

另一邊是新起之秀動(dòng)作頻出:剛發(fā)布1.0.0版本的Typeless據(jù)稱(chēng)“開(kāi)口即可成文”,這種“僅保留語(yǔ)音交互+生成結(jié)構(gòu)化文本”的模式正在受到行業(yè)追捧,如去年風(fēng)很大的Whisper Flow和智譜、豆包輸入法,都屬這類(lèi)玩家。最近,微信輸入法在PC版上線(xiàn)了語(yǔ)音輸入功能,用一個(gè)fn鍵系統(tǒng)級(jí)觸達(dá)桌面端。

各大廠(chǎng)商一擁而上,輸入法被AI的巨浪重新推至臺(tái)前,這說(shuō)明什么信號(hào)?回看輸入法的本質(zhì),答案并不復(fù)雜。穿越多個(gè)互聯(lián)網(wǎng)周期,輸入法始終是底層的人機(jī)交互橋梁,因其高頻、無(wú)感的使用體驗(yàn),加上能“連接一切”的入口價(jià)值,輸入法的站位在A(yíng)I時(shí)代正在被重新放大。

但做一個(gè)AI輸入法并沒(méi)有想象中的簡(jiǎn)單。在最理想狀態(tài)下,基于大語(yǔ)言模型的輸入法理應(yīng)能理解語(yǔ)言規(guī)律,通過(guò)上下文感知推測(cè)你想輸入什么,變成“懂你”的表達(dá)智能體。誰(shuí)都想這么干。

在模型的上下文能力未能達(dá)到精準(zhǔn)個(gè)性化表達(dá)的當(dāng)下,行業(yè)普遍面臨一個(gè)挑戰(zhàn):意圖識(shí)別和預(yù)測(cè)的結(jié)果很難滿(mǎn)足每個(gè)個(gè)體對(duì)“輸出準(zhǔn)確”的預(yù)期。如何讓生成式AI的“預(yù)測(cè)”,與數(shù)億用戶(hù)長(zhǎng)期形成、分散多變的“個(gè)人習(xí)慣” 無(wú)縫對(duì)齊,很難單憑接入一個(gè)更先進(jìn)的模型來(lái)解決,它更考驗(yàn)團(tuán)隊(duì)基于何種視角和方法訓(xùn)練模型。

這種技術(shù)視角很難憑空產(chǎn)生,它依靠的是長(zhǎng)期的用戶(hù)沉淀和工程基建。我們看到,盡管輸入法看似簡(jiǎn)單、誰(shuí)都能做,但在過(guò)去幾十年里,真正實(shí)現(xiàn)規(guī)模化的新產(chǎn)品其實(shí)很難跑出來(lái),其一原因是,這些成熟產(chǎn)品無(wú)一不是在長(zhǎng)期的詞庫(kù)積累和算法優(yōu)化之上認(rèn)識(shí)到用戶(hù)需要什么。

這些舊時(shí)代的“臟活累活”,反而可能在A(yíng)I時(shí)代成為輸入法更好理解用戶(hù)意圖的關(guān)鍵所在,這些經(jīng)驗(yàn)正在轉(zhuǎn)化為一種新的技術(shù)勢(shì)能。

未來(lái)的可能性,或許并不取決于“新”與“舊”的標(biāo)簽,而在于誰(shuí)能將大模型的技術(shù)張力,真正嵌入到具體的、細(xì)微的用戶(hù)需求縫隙里。對(duì)于搜狗輸入法而言,過(guò)去二十年積累的對(duì)六億用戶(hù)真實(shí)交互的理解,成為了AI時(shí)代最稀缺的“上下文”資產(chǎn),這既是讓模型更懂你的基礎(chǔ),也讓對(duì)用戶(hù)意圖的精準(zhǔn)建模變成了一項(xiàng)極為復(fù)雜的系統(tǒng)工程。

我們很好奇,這場(chǎng)全方位的AI底層重構(gòu),搜狗輸入法的解法是什么?按照什么方向訓(xùn)練模型來(lái)匹配用戶(hù)需求?如何在承載數(shù)億用戶(hù)既有輸入習(xí)慣的同時(shí)進(jìn)行AI化的交互創(chuàng)新?如何解決AI輸入法在不同場(chǎng)景(如弱網(wǎng)場(chǎng)景)下的時(shí)延性問(wèn)題?當(dāng)AI語(yǔ)音輸入變成技術(shù)競(jìng)爭(zhēng)主賽道,搜狗輸入法找到的那個(gè)翹板是什么?最終,當(dāng)這場(chǎng)重構(gòu)進(jìn)行得足夠徹底,它將如何定義未來(lái)輸入法的供需關(guān)系?

帶著這些問(wèn)題,神經(jīng)漫游記采訪(fǎng)到了騰訊搜狗輸入法的產(chǎn)品和技術(shù)團(tuán)隊(duì),他們分別是來(lái)自搜狗輸入法的AI打字產(chǎn)品負(fù)責(zé)人isla、AI打字算法負(fù)責(zé)人Kimi和AI語(yǔ)音算法負(fù)責(zé)人饒老師。以下是采訪(fǎng)的文字對(duì)話(huà),為保證對(duì)話(huà)可讀性,對(duì)話(huà)經(jīng)編輯整理:

“大模型也許是顛覆輸入法的核心武器”

問(wèn):在公眾的固有印象中,輸入法一直被視為一項(xiàng)傳統(tǒng)的互聯(lián)網(wǎng)業(yè)務(wù)。但是最近市場(chǎng)上涌現(xiàn)了很多AI輸入法的創(chuàng)業(yè)項(xiàng)目,大家都在討論輸入法可能成為AI時(shí)代核心交互入口。作為在該領(lǐng)域深耕多年的資深從業(yè)者,各位如何看待輸入法突然變得很“性感”這件事?

搜狗輸入法團(tuán)隊(duì):AI時(shí)代的到來(lái)對(duì)于輸入法這一工具的影響,我們整個(gè)團(tuán)隊(duì)感受到的是一種興奮感。過(guò)去,我們可能遵循一些既定的框架和路線(xiàn)來(lái)解決已知的問(wèn)題,比如我們知道用戶(hù)在什么樣的拼音串下容易犯錯(cuò),基于此我們?nèi)パ芯刻囟ǖ募m錯(cuò)能力。這種研究已知問(wèn)題的策略?xún)?yōu)化,在一定程度上會(huì)限制產(chǎn)品的想象力。

原來(lái)的輸入法是什么樣的邏輯?最早期,輸入法是基于固定的鍵碼輸出一定的候選詞。再到后來(lái)互聯(lián)網(wǎng)詞庫(kù)的出現(xiàn),2005年人們能第一次打出“李宇春”,這是因?yàn)榘鸦ヂ?lián)網(wǎng)海量數(shù)據(jù)轉(zhuǎn)化成詞庫(kù),我們?cè)谶@件事上耕耘了很多年,解決了有些詞打不出來(lái)的問(wèn)題。

大模型也許是顛覆輸入法的一個(gè)核心武器。從技術(shù)層面來(lái)講,大模型的本質(zhì)是根據(jù)上文預(yù)測(cè)下一個(gè)詞,那么在輸入法的語(yǔ)境下,它也可以通過(guò)各種信號(hào)感知用戶(hù)的意圖,并判斷預(yù)測(cè)輸出內(nèi)容。

當(dāng)大模型時(shí)代來(lái)臨,輸入法不再僅僅依賴(lài)于從詞庫(kù)中調(diào)取內(nèi)容或通過(guò)網(wǎng)頁(yè)搜索來(lái)提供回答。這次輸入法升級(jí),思考的核心是必須從以詞庫(kù)為核心的邏輯,升級(jí)成以詞庫(kù)為基礎(chǔ)+以生成為核心的算法邏輯。前期,我們通過(guò)更多的詞庫(kù)和信息整合來(lái)服務(wù)用戶(hù),滿(mǎn)足詞候選的能力,在未來(lái),輸入法競(jìng)爭(zhēng)的核心在于誰(shuí)能更懂用戶(hù),更準(zhǔn)確地識(shí)別用戶(hù)語(yǔ)境和意圖,理解用戶(hù)的輸入習(xí)慣和風(fēng)格,幫助用戶(hù)做一部分的表達(dá),這就類(lèi)似于為每個(gè)用戶(hù)做一個(gè)他自己的個(gè)人表達(dá)智能體。隨著交互時(shí)間越長(zhǎng),輸入法對(duì)用戶(hù)的理解就越深,以至于在某些場(chǎng)合,輸入法能夠結(jié)合上下文幫用戶(hù)進(jìn)行表達(dá)。當(dāng)然,這是對(duì)輸入法終局的想象。

問(wèn):語(yǔ)言構(gòu)成了人的思維方式,或者看待問(wèn)題的視角。那隨著我不斷輸入,輸入法是不是就會(huì)越像我?

搜狗輸入法團(tuán)隊(duì):理論上這個(gè)邏輯是存在的,無(wú)非就是能做到多么極致。包括用戶(hù)常說(shuō)的人名、語(yǔ)氣詞、語(yǔ)言風(fēng)格等,用得越久,輸入法會(huì)不斷積累這些表達(dá),可以非常自然快速地幫助用戶(hù)完成輸入。這也是我認(rèn)為長(zhǎng)期使用下,個(gè)性化體驗(yàn)?zāi)軌蛑鸩斤@現(xiàn)并真正產(chǎn)生價(jià)值的地方。當(dāng)然,我們想做成這樣,但目前做得還不夠好。

目前我們還是在務(wù)實(shí)地解決用戶(hù)具體的問(wèn)題。也就是在大模型能力的加持下,我們可以解決那些過(guò)去的難題。比如在過(guò)去以詞庫(kù)為核心的產(chǎn)品架構(gòu)下,我們提供的詞庫(kù)雖然海量,但對(duì)部分用戶(hù)而言反而構(gòu)成了一種“打擾”,因?yàn)樵~庫(kù)的體量決定了其無(wú)法精準(zhǔn)匹配每個(gè)人的個(gè)性化需求,未來(lái)我們有機(jī)會(huì)在這方面做得更好。

問(wèn):我感受到兩種思維在并存,一是以用戶(hù)為核心的底色,這是穿越任何時(shí)代都不變的底層邏輯;二是AI時(shí)代的“AI原生”解法,將二者結(jié)合蠻符合大家所說(shuō)的思路。團(tuán)隊(duì)在推進(jìn)AI化的過(guò)程中,這種思維方式的碰撞是什么樣的?

搜狗輸入法團(tuán)隊(duì):在技術(shù)和產(chǎn)品團(tuán)隊(duì)的“PK”中,技術(shù)可能會(huì)認(rèn)為,對(duì)于一些用戶(hù)反饋的問(wèn)題,可以等厲害的新技術(shù)、新引擎上線(xiàn)后直接解決,這是一種以技術(shù)為核心驅(qū)動(dòng)的思考方式。但最后發(fā)現(xiàn),在服務(wù)上線(xiàn)后,原先那些問(wèn)題好像不是算法可以解決的,而是在技術(shù)框架之外增加一個(gè)新的指標(biāo)體系才能cover住。

在產(chǎn)品看來(lái),在A(yíng)I重構(gòu)的過(guò)程中,需要考慮的是如何在那么多的用戶(hù)需求里排出優(yōu)先級(jí)。從分人群的需求滿(mǎn)足度上看,此刻我們還沒(méi)有做到那么精細(xì)化,這不是一個(gè)能一舉兼得的東西,需要考慮優(yōu)先級(jí)的抉擇,比如這次就針對(duì)醫(yī)生和律師人群做了個(gè)性化定制。

問(wèn):具體到這次AI重構(gòu)打字上,我理解有兩個(gè)方向,一類(lèi)是讓輸入法更理解語(yǔ)境,另一個(gè)方向是改善弱網(wǎng)打字體驗(yàn)??梢赃@么理解嗎?

搜狗輸入法團(tuán)隊(duì):這次升級(jí)是相對(duì)底層且全方位的。關(guān)于弱網(wǎng)打字這個(gè)話(huà)題,其實(shí)大多數(shù)友商都是以云側(cè)為主,那一旦在飛機(jī)上這種沒(méi)有云覆蓋的情況下,離線(xiàn)端側(cè)的準(zhǔn)確率就是一個(gè)不可回避的問(wèn)題。

離線(xiàn)的限制很多,包括內(nèi)存小、沒(méi)有特別復(fù)雜的模型支持,對(duì)用戶(hù)來(lái)講,相當(dāng)于把詞庫(kù)裸著放在那兒。那我們?nèi)绾谓鉀Q弱網(wǎng)時(shí)延性的問(wèn)題?能否把端側(cè)打字的體驗(yàn)提升到——起碼不讓用戶(hù)有這么強(qiáng)的感知?

我們?cè)谒伎颊麄€(gè)用戶(hù)痛點(diǎn)和需求的視角下,做出了一個(gè)端和云聯(lián)合的生成架構(gòu)去針對(duì)性地解決這個(gè)問(wèn)題。這次新的離線(xiàn)端側(cè)模型出來(lái)后,弱網(wǎng)場(chǎng)景的缺詞率下降了大概30%,首選準(zhǔn)確率可以達(dá)到5%的提升,在主場(chǎng)景上,可以說(shuō)端側(cè)和云側(cè)的差距已經(jīng)變得很小了。

AI語(yǔ)音輸入,“聽(tīng)懂”的前提是“聽(tīng)準(zhǔn)”

問(wèn):我關(guān)注到一組相關(guān)數(shù)據(jù),當(dāng)前搜狗輸入法語(yǔ)音大概日均有20億次的請(qǐng)求量?;谶@樣的用戶(hù)需求,之前團(tuán)隊(duì)有過(guò)怎樣的洞察?大概是什么時(shí)候開(kāi)始決定投入做AI語(yǔ)音的?

搜狗輸入法團(tuán)隊(duì):大模型爆發(fā)給這個(gè)行業(yè)帶來(lái)了很多想象力。而語(yǔ)音識(shí)別很大程度上是種模型驅(qū)動(dòng)能力,它在技術(shù)主賽道上的PK會(huì)更加直接,因?yàn)檎Z(yǔ)音識(shí)別并不只服務(wù)于輸入法場(chǎng)景,還廣泛應(yīng)用于機(jī)器人、云廠(chǎng)商等多個(gè)領(lǐng)域,幾乎所有相關(guān)玩家都在布局。

整體來(lái)看,語(yǔ)音識(shí)別大致經(jīng)歷了三個(gè)技術(shù)階段:最早是以統(tǒng)計(jì)學(xué)方法為主的階段,核心模型是混合高斯模型,這一技術(shù)路徑從上世紀(jì)80年代中期一直延續(xù)到2007年左右。隨后隨著深度學(xué)習(xí)興起,語(yǔ)音識(shí)別開(kāi)始進(jìn)入新一輪演進(jìn),國(guó)內(nèi)稍晚,大約從2011年開(kāi)始逐步在各類(lèi)場(chǎng)景中落地應(yīng)用。

大概在2011年左右,搜狗輸入法就已經(jīng)在手機(jī)端推出了語(yǔ)音輸入功能,當(dāng)時(shí)才剛進(jìn)入移動(dòng)互聯(lián)網(wǎng)時(shí)代,團(tuán)隊(duì)非常早就捕捉到在手機(jī)端打字可能不是那么方便的問(wèn)題,語(yǔ)音輸入會(huì)是一個(gè)用戶(hù)需求點(diǎn)。只不過(guò)當(dāng)時(shí)采用的還是傳統(tǒng)語(yǔ)音識(shí)別技術(shù)。后來(lái)語(yǔ)音識(shí)別技術(shù)不斷迭代,到了2013年,搜狗輸入法就在做深度學(xué)習(xí)了,這是國(guó)內(nèi)比較早的一批。再往后演進(jìn)到transformer模型,我們一直是以最快的速度緊跟最前沿的技術(shù),把最好的體驗(yàn)給到用戶(hù)。

姚順雨在關(guān)于“AI下半場(chǎng)”的文章中講到他對(duì)強(qiáng)化學(xué)習(xí)的未來(lái)展望,將大模型能力融入產(chǎn)品對(duì)所有技術(shù)團(tuán)隊(duì)來(lái)說(shuō)都是挑戰(zhàn)。對(duì)語(yǔ)音技術(shù)團(tuán)隊(duì)而言,核心命題在于如何利用大模型本身或其訓(xùn)練思路(如強(qiáng)化學(xué)習(xí))來(lái)提升現(xiàn)有模型能力。

問(wèn):在大語(yǔ)言模型深度介入之后,自動(dòng)語(yǔ)音識(shí)別技術(shù)本身會(huì)被重塑嗎,還是更多是一種能力層面的增強(qiáng)?它所解決的本質(zhì)問(wèn)題是什么?只是“聽(tīng)得更準(zhǔn)”,還是正在從“聽(tīng)見(jiàn)”走向“聽(tīng)懂”?

搜狗輸入法團(tuán)隊(duì):整體來(lái)看,如果仍然把討論限定在自動(dòng)語(yǔ)音識(shí)別這個(gè)層面,大模型的介入更多是一種能力增強(qiáng),而不是完全意義上的重塑,本質(zhì)上是在推動(dòng)語(yǔ)音從“聽(tīng)見(jiàn)”走向“聽(tīng)懂”。

語(yǔ)音識(shí)別一個(gè)非常核心的挑戰(zhàn)在于語(yǔ)義層面的模糊性。用戶(hù)的發(fā)音可能不標(biāo)準(zhǔn),或者本身就存在大量同音詞、近音詞的情況,它并不是一一對(duì)應(yīng)地記錄,而往往是從多個(gè)可能結(jié)果中選擇一個(gè)最合適的輸出。最終呈現(xiàn)哪個(gè)字、哪種表達(dá),很大程度上依賴(lài)于當(dāng)下的使用場(chǎng)景和語(yǔ)境。大語(yǔ)言模型在上下文理解、語(yǔ)義建模以及預(yù)測(cè)、補(bǔ)全和糾錯(cuò)方面具備更強(qiáng)能力,因此可以讓整體識(shí)別結(jié)果在語(yǔ)義層面更加合理,輸出更接近用戶(hù)真正想表達(dá)的內(nèi)容。

另外,語(yǔ)音輸入在交互層面也存在天然挑戰(zhàn)。它通常只有一次性輸出,不像鍵盤(pán)那樣可以給出多個(gè)候選供用戶(hù)選擇,而是直接將一句話(huà)上屏,這對(duì)準(zhǔn)確率和語(yǔ)義判斷提出了更高要求?;谶@些,其實(shí)在大模型能力加入后,我們第一要解決的是準(zhǔn)確率的問(wèn)題,讓識(shí)別結(jié)果在語(yǔ)義上更順暢、更符合語(yǔ)境,也更貼近用戶(hù)原本想說(shuō)的話(huà)。

問(wèn):這次重新升級(jí)AI語(yǔ)音上,你們覺(jué)得還有什么難點(diǎn)嗎?

搜狗輸入法團(tuán)隊(duì):一個(gè)難點(diǎn)在于方向選擇。我們更希望聚焦具體場(chǎng)景,而不是做一個(gè)特別泛化、完全開(kāi)放的語(yǔ)音能力升級(jí),因?yàn)椴煌瑘?chǎng)景對(duì)語(yǔ)音識(shí)別的要求其實(shí)差異很大。

比如“輕聲”這個(gè)非常高頻的使用場(chǎng)景,我們觀(guān)察到,用戶(hù)更傾向于用非常輕的方式對(duì)著手機(jī)說(shuō)話(huà),這背后是非常真實(shí)的用戶(hù)心理和使用需求,在當(dāng)前的社會(huì)環(huán)境中,很多人會(huì)擔(dān)心打擾他人,甚至在工位或公共場(chǎng)合大聲說(shuō)話(huà)本身就會(huì)帶來(lái)壓力,這也是語(yǔ)音輸入被一部分人放棄的重要原因。

那在技術(shù)實(shí)現(xiàn)上,語(yǔ)音本質(zhì)是由頻率構(gòu)成的,輕聲并不是沒(méi)有信息,而是在基頻和響度都非常低的情況下,仍然存在可識(shí)別的頻率變化。這類(lèi)聲音往往只能在很小范圍內(nèi)傳播,幾米之外幾乎就聽(tīng)不到,有時(shí)連自己都未必聽(tīng)得清。

模型訓(xùn)練的關(guān)鍵不在規(guī)模

而在于是否緊貼用戶(hù)

問(wèn):我覺(jué)得在輸入法這樣一個(gè)垂直領(lǐng)域可能有兩個(gè)事情很關(guān)鍵,第一是技術(shù)能做什么,技術(shù)的邊界和想象力;第二是對(duì)所謂用戶(hù)需求的理解,這也是很重要的。在過(guò)去一年,對(duì)打字來(lái)說(shuō),團(tuán)隊(duì)怎么去做這二者的交匯?

搜狗輸入法團(tuán)隊(duì):相比起語(yǔ)音,打字不在技術(shù)的“主賽道”。我們?cè)谏墒教剿髦胁](méi)有直接依賴(lài)一個(gè)外部通用的大模型,因?yàn)槲覀儗?duì)用戶(hù)的理解、沉淀的數(shù)據(jù)是無(wú)法開(kāi)放到外部大模型的。我們需要迅速把這些沉淀融入全鏈路的訓(xùn)練體系里,包括基礎(chǔ)的預(yù)訓(xùn)練、后訓(xùn)練、強(qiáng)化學(xué)習(xí)、SFT(Supervised Fine-Tuning,即大模型的監(jiān)督微調(diào))等,基于我們的數(shù)據(jù)不斷強(qiáng)化,通過(guò)擴(kuò)展數(shù)據(jù)的知識(shí)邊界來(lái)提升我們的模型能力。

目前,我們是基于自研模型訓(xùn)練。但往前走,總有一天我們要實(shí)現(xiàn)“行業(yè)合流”,把行業(yè)的訓(xùn)練方式融入自身訓(xùn)練體系,否則單靠團(tuán)隊(duì)力量難以對(duì)抗整個(gè)行業(yè)技術(shù)的發(fā)展。

另外,打字與語(yǔ)音場(chǎng)景存在差異:語(yǔ)音更多是單次輸出并可通過(guò)后鏈路輔助表達(dá),而打字的觸點(diǎn)非常多——每次按鍵都有一個(gè)反饋,用戶(hù)可能在短時(shí)間內(nèi)進(jìn)行各種按鍵操作,他不僅在意“準(zhǔn)不準(zhǔn)”,還要看“快不快”。對(duì)于打字來(lái)說(shuō),時(shí)延性是需要重點(diǎn)考慮的事情。

那在云和端上要做多大模型?會(huì)不會(huì)造成卡頓?會(huì)不會(huì)耗電?這都必須去考慮。我們(打字)是在夾縫中不斷尋求自己位置的存在。

我們提到強(qiáng)化學(xué)習(xí)很重要,那打字的觸點(diǎn)和需求這么多,我們要怎么去建模?這里,reward model(獎(jiǎng)勵(lì)模型)的設(shè)計(jì)非常關(guān)鍵,這不是一個(gè)“講規(guī)?!钡倪壿?,而是要看這個(gè)reward model是不是跟用戶(hù)貼得足夠緊密,要確保模型和用戶(hù)體驗(yàn)高度對(duì)齊,這樣才能在強(qiáng)化學(xué)習(xí)模式下輔助我們的模型走得更快。也許一個(gè)規(guī)模小、但貼近用戶(hù)需求的模型,比規(guī)模大、但遠(yuǎn)離用戶(hù)的模型更占優(yōu)勢(shì)。

問(wèn):人們?cè)絹?lái)越適應(yīng)語(yǔ)音成為一種很主要的交互方式,會(huì)給輸入法這個(gè)產(chǎn)品帶來(lái)什么不一樣的理解嗎?未來(lái)鍵盤(pán)會(huì)消失嗎?

搜狗輸入法團(tuán)隊(duì):這是一件值得期待的事情,回看小靈通時(shí)代,很難想象手機(jī)有一天會(huì)發(fā)展到完全沒(méi)有實(shí)體鍵盤(pán)的形態(tài)。所以當(dāng)今天討論是否有一天輸入法可以不再依賴(lài)鍵盤(pán),而是以語(yǔ)音交互為主時(shí),確實(shí)讓人展開(kāi)想象空間。

當(dāng)然存在一些垂直人群,他們主要在用語(yǔ)音,不太需要鍵盤(pán)。比如在一些游戲場(chǎng)景中,實(shí)際上之前搜狗輸入法推出過(guò)一種游戲鍵盤(pán),它就有一個(gè)大的語(yǔ)音輸入按鍵,這樣的交互形態(tài)對(duì)于特定群體就蠻清晰、干凈的。

但當(dāng)產(chǎn)品面向所有用戶(hù)時(shí),就會(huì)發(fā)現(xiàn)不同人群在輸入方式和表達(dá)習(xí)慣上的差異非常大。有些用戶(hù)以語(yǔ)音為主,但也有大量用戶(hù)因?yàn)楣ぷ餍枰騻€(gè)人習(xí)慣,并不希望語(yǔ)音占據(jù)主導(dǎo),讓鍵盤(pán)消失。

在這種意義上,“鍵盤(pán)的消失”或許并不是一個(gè)統(tǒng)一答案,而是一種可選的定制模式,對(duì)于那種只想用語(yǔ)音的用戶(hù),他可以擁有完全屬于自己的形態(tài)。輸入法的演進(jìn)一定是順勢(shì)而為的,它不會(huì)教育用戶(hù)應(yīng)該怎么輸入,也不是把某種新潮理念強(qiáng)推給用戶(hù),而是順著真實(shí)的使用習(xí)慣自然生長(zhǎng)。

問(wèn):我最近有一次很直接的體驗(yàn),前一天晚上用語(yǔ)音輸入法寫(xiě)提綱,我就嘗試一邊說(shuō)一邊寫(xiě),但真正用下來(lái)會(huì)發(fā)現(xiàn),寫(xiě)到一定程度后還是會(huì)講不下去。當(dāng)我回到打字狀態(tài)時(shí),其實(shí)是一個(gè)自己跟自己交流的過(guò)程,我每打一個(gè)字,都會(huì)在大腦中形成一次信息輸入和緩存,從而不斷推動(dòng)思路向前。我感覺(jué)打字本身還是有它的魅力的,這是一個(gè)更加復(fù)雜的思維過(guò)程。

搜狗輸入法團(tuán)隊(duì):這里面其實(shí)存在一個(gè)很大的差異:語(yǔ)音更多是一個(gè)直接輸出的過(guò)程,需要用戶(hù)在發(fā)送前再做一定加工;而打字本身包含了一個(gè)在腦中加工信息的過(guò)程。進(jìn)一步說(shuō),打字和語(yǔ)音本質(zhì)上對(duì)應(yīng)了不同的腦與身體的配合模式——語(yǔ)音是腦與嘴的配合,打字是腦與手的配合。

另一方面,打字通常是一個(gè)邊想邊修改的過(guò)程,輸入法如果能理解用戶(hù)的每一次光標(biāo)移動(dòng)、退格和修改意圖,就能預(yù)測(cè)和優(yōu)化輸出結(jié)果,例如用戶(hù)輸入“結(jié)婚”時(shí)實(shí)際想表達(dá)的是“結(jié)果”,在退格的過(guò)程中系統(tǒng)就可能預(yù)測(cè)到用戶(hù)選錯(cuò)了,這需要基于整體語(yǔ)境去判斷意圖。

問(wèn):AI能夠幫忙糾錯(cuò)和聯(lián)想,有些人覺(jué)得AI會(huì)過(guò)度理解、自作聰明,如果聯(lián)想過(guò)于豐富,用戶(hù)可能反而難以接受。這個(gè)度需要怎么去把握?

搜狗輸入法團(tuán)隊(duì):從技術(shù)原理上看,打字的拼音輸入和聯(lián)想存在一個(gè)很大的區(qū)別,那就是概率。假如打字的首選命中率達(dá)到80%左右,那絕大概率展現(xiàn)給用戶(hù)的候選對(duì)他們來(lái)講是合理的;但聯(lián)想天然的技術(shù)瓶頸在于,它遵循的是一個(gè)普適的概率邏輯,概率分布呈現(xiàn)為平緩的曲線(xiàn),它可能出現(xiàn)一萬(wàn)個(gè)候選,每個(gè)候選都分了一點(diǎn)點(diǎn)的概率,那在這種情況下,它必定很難滿(mǎn)足所有用戶(hù)。而未來(lái)的聯(lián)想,一定是把它的基礎(chǔ)條件概率增高,也就是得在更多信息的基礎(chǔ)上了解用戶(hù)、場(chǎng)景和上下文。

要想讓聯(lián)想達(dá)到輸入效率這條路徑上的質(zhì)變點(diǎn),那它一定要達(dá)到極高的準(zhǔn)確率,盡管豐富性也很重要。但如果不準(zhǔn)確的話(huà),它就喪失了這個(gè)功能的天然定位。其實(shí)我們也看到,如果所有的輸入都要靠聯(lián)想預(yù)測(cè)幫你完成,那時(shí)間效率可能是更慢的。

這背后其實(shí)是一個(gè)關(guān)于個(gè)性化的問(wèn)題。當(dāng)我們接觸打字的邏輯時(shí),會(huì)發(fā)現(xiàn)至少打字不是一個(gè)可以被激進(jìn)個(gè)性化的工具,它不像內(nèi)容推薦:當(dāng)你在短視頻平臺(tái)搜一個(gè)美食教程時(shí),你對(duì)內(nèi)容推薦是可以沒(méi)有預(yù)期的;但打字的時(shí)候,你對(duì)要打什么字會(huì)有非常明確的預(yù)期,那只有在技術(shù)更有把握的情況下,才能做得更準(zhǔn),否則強(qiáng)調(diào)輸出內(nèi)容的豐富性對(duì)打字用戶(hù)來(lái)說(shuō)是沒(méi)有意義的。

在這一點(diǎn)上,產(chǎn)品在大模型時(shí)代是比較有預(yù)期的。過(guò)去以詞庫(kù)為核心構(gòu)建輸入法時(shí),很難做到個(gè)性化,因?yàn)樵~庫(kù)本身是統(tǒng)一的公共詞庫(kù)。這就意味著,當(dāng)用戶(hù)輸入一個(gè)自己從未輸入過(guò)的拼音時(shí),大概率看到的是一組高度相似的候選結(jié)果,最多只是疊加一些場(chǎng)景上的不同。我們期待在大模型能力的加持下,輸入法至少能夠在個(gè)性化這條路徑上往前走幾步。

誰(shuí)能用大模型定義泛化的供需關(guān)系

誰(shuí)就掌握了輸入法的未來(lái)

問(wèn):當(dāng)前業(yè)界對(duì)于“原生AI”與“產(chǎn)品AI化”存在一些固有印象。一種觀(guān)點(diǎn)認(rèn)為,像OpenAI這樣的原生AI公司終將占據(jù)主導(dǎo),他們認(rèn)為一切要圍繞革命性技術(shù)來(lái)構(gòu)建,傳統(tǒng)產(chǎn)品缺乏想象力,只能在原有架構(gòu)上疊加AI功能。另一種觀(guān)點(diǎn)則認(rèn)為,擁有成熟產(chǎn)品的公司更具優(yōu)勢(shì),只有回到用戶(hù)、回到場(chǎng)景,才能讓AI改造更直接、更高效地觸達(dá)用戶(hù)。對(duì)于輸入法而言,徹底的重構(gòu)還是功能的疊加,是一個(gè)重大抉擇。當(dāng)時(shí)內(nèi)部經(jīng)歷了怎樣的討論?

搜狗輸入法團(tuán)隊(duì):?jiǎn)栴}的本質(zhì)不在于我們要選擇疊加還是重構(gòu),這不是站在“工具擁有者”的角度去自我定義,而是回歸用戶(hù)需求的本質(zhì),選擇最契合的解決方案。以此次推出的AI翻譯為例,它直接調(diào)用了公司內(nèi)部成熟的大模型能力,我們可以認(rèn)為這是一種疊加邏輯。

但落在打字業(yè)務(wù)上,我們?nèi)绾伟炎陨?0年的沉淀和模型能力結(jié)合起來(lái),為用戶(hù)提供更好的打字體驗(yàn),從這點(diǎn)出發(fā)它必然是用AI重構(gòu)的邏輯,而不是一個(gè)AI疊加的邏輯。這是因?yàn)?,單純搬運(yùn)或者疊加(模型)是解決不了輸入這件事情的難題的。

反過(guò)來(lái)說(shuō),即便OpenAI擁有領(lǐng)先的技術(shù),它也未必就能做好一個(gè)輸入法。這是因?yàn)橛脩?hù)需求多元,場(chǎng)景也很復(fù)雜,想通過(guò)完全AI原生的模式來(lái)做輸入法難度非常大。就算我們做了很多AI重構(gòu),也很難說(shuō)純AI零基思維出發(fā)能做到這件事。對(duì)輸入法來(lái)說(shuō),積累是非常重要的。

在打字這件事上,從上文預(yù)測(cè)下文的這種模式,其實(shí)并不是大模型來(lái)了之后大家才意識(shí)到的。之前國(guó)內(nèi)外做神經(jīng)網(wǎng)絡(luò)和語(yǔ)言模型的團(tuán)隊(duì)也一直在推進(jìn)研發(fā),但實(shí)際上他們都沒(méi)有做起來(lái)。那為什么沒(méi)有做起來(lái)呢?我覺(jué)得是現(xiàn)在的技術(shù)沒(méi)有達(dá)到臨界點(diǎn)——足以讓業(yè)務(wù)的沉淀、用戶(hù)的需求在強(qiáng)大的技術(shù)能力上“不堪一擊”。

現(xiàn)在受到大模型時(shí)代的沖擊,輸入法的框架思考邏輯可能會(huì)有一些變化,但也不是說(shuō)就能夠拋棄原來(lái)的詞庫(kù)檢索邏輯。除非未來(lái)出現(xiàn)這樣的技術(shù)拐點(diǎn),即一個(gè)大模型輸入法可以短時(shí)間內(nèi)把我們20年累積的經(jīng)驗(yàn)像核彈一樣瞬間秒掉,但到那個(gè)時(shí)代的話(huà),被瞬秒的業(yè)務(wù)應(yīng)該就不只是打字,而應(yīng)該是各行各業(yè)都會(huì)被顛覆。

問(wèn):目前來(lái)看,這一重構(gòu)的工程量和挑戰(zhàn)都極為艱巨,那么團(tuán)隊(duì)現(xiàn)在究竟處于這一進(jìn)程的哪個(gè)階段?

搜狗輸入法團(tuán)隊(duì):我覺(jué)得我們大概還處在長(zhǎng)征路上大約剛走到貴州的階段。是否已完成徹底重構(gòu)?其實(shí)沒(méi)有,我們距離精準(zhǔn)建模還有差距。

另一個(gè)點(diǎn)在于,這不是一款新產(chǎn)品,用戶(hù)存在使用慣性。對(duì)于打字這個(gè)高頻使用場(chǎng)景,我們無(wú)法一夜之間徹底改變——不能自詡提供了更好的模式便強(qiáng)制推行,因?yàn)橛脩?hù)未必買(mǎi)賬。

問(wèn):能舉個(gè)例子嗎?就是這個(gè)技術(shù)能夠做到,但最后考慮用戶(hù)可能覺(jué)得太超前而克制住的某個(gè)功能。

搜狗輸入法團(tuán)隊(duì):這種情況在打字場(chǎng)景中非常多。比如,輸入法可以按全拼或者混輸去理解,用戶(hù)按全拼輸入一個(gè)“晚上”的“wan”,系統(tǒng)也可以按混輸識(shí)別出“我愛(ài)你”。那要不要把“我愛(ài)你”提示給用戶(hù)?這究竟是驚喜,還是驚嚇?在這里,我們需要考慮用戶(hù)預(yù)期是什么?從模型的概率統(tǒng)計(jì)上來(lái)講,它可能會(huì)是怎樣的結(jié)果?

對(duì)每個(gè)個(gè)體來(lái)講,他其實(shí)一定程度上是在對(duì)抗統(tǒng)計(jì)學(xué)的。就像通用語(yǔ)音識(shí)別模型給出的“ta”都是男的“他”,那女的“她”誰(shuí)來(lái)保障?如果把男的“他”做得不可撼動(dòng),用戶(hù)怎么都改不回來(lái),那這種邏輯的技術(shù)增強(qiáng)對(duì)用戶(hù)是有損害的。我們對(duì)于預(yù)測(cè)這種能力,其實(shí)在這次AI升級(jí)上是非??酥频摹?/p>

問(wèn):你會(huì)發(fā)現(xiàn)那些原生AI產(chǎn)品為什么那么大膽,可能也是因?yàn)橛脩?hù)太少了,所以可以用很高的模型配置,反正也花不了多少錢(qián)。但對(duì)于我們這樣擁有龐大用戶(hù)體量的產(chǎn)品來(lái)說(shuō),面對(duì)這么大的難題,我們有什么解法?

搜狗輸入法團(tuán)隊(duì):確實(shí),因?yàn)橛脩?hù)體量可能相差數(shù)百倍,從AI的角度看,成本同樣會(huì)放大到數(shù)百倍。對(duì)我們來(lái)說(shuō),在面對(duì)很多看起來(lái)很fashion的新技術(shù)方案時(shí),保持克制反而尤為重要,要在工程優(yōu)化的前提下保證我們的成本是可以長(zhǎng)期cover住的。那對(duì)一個(gè)擁有6億用戶(hù)的產(chǎn)品來(lái)說(shuō),上線(xiàn)一項(xiàng)能力,意味著要做好持續(xù)服務(wù)的準(zhǔn)備——一年、兩年,甚至十年、二十年,而不是先試一試,不行再撤。這本身也是對(duì)用戶(hù)的尊重。

對(duì)于大模型的到來(lái),團(tuán)隊(duì)也曾有一些發(fā)散性的想象:既然輸入法擁有強(qiáng)大的入口價(jià)值,是否可以幫用戶(hù)打車(chē)、點(diǎn)外賣(mài),甚至把大模型能力在各類(lèi)場(chǎng)景中全面聯(lián)動(dòng)?這些想法很有創(chuàng)意,但冷靜下來(lái)后,我們給自己制定了兩條核心產(chǎn)品原則,明確至少在當(dāng)下這個(gè)階段,我們應(yīng)該做什么、不做什么。

第一,我們不可以為了做AI而做AI,不要為了展示我有AI能力,就急于包裝和推出一些功能或產(chǎn)品,這是我們堅(jiān)決避免的。第二,專(zhuān)注于輸入法的本職工作,用戶(hù)選擇你的產(chǎn)品,是希望在輸入法范疇內(nèi)獲得價(jià)值,而不是在廣泛、無(wú)邊界的功能堆砌中尋找體驗(yàn)。

問(wèn):這一次的新版本被我們定義為全面AI化的起點(diǎn)。如果從更長(zhǎng)遠(yuǎn)的視角來(lái)暢想,在未來(lái)三到五年內(nèi),你們認(rèn)為輸入法的整體形態(tài)可能會(huì)發(fā)生哪些關(guān)鍵變化?

搜狗輸入法團(tuán)隊(duì):當(dāng)下用戶(hù)對(duì)輸入法的感知并不是那么強(qiáng)烈,是相對(duì)隱形的存在,他可能清楚自己在刷短視頻、點(diǎn)外賣(mài)、用某個(gè)App,但并不會(huì)意識(shí)到我正在使用某一個(gè)輸入法。但從未來(lái)的角度看,輸入法作為一種工具的價(jià)值和屬性,會(huì)被持續(xù)放大。

比如這次我們面向醫(yī)生、律師等專(zhuān)業(yè)人群,打通專(zhuān)業(yè)數(shù)據(jù)庫(kù)所提供的能力,本質(zhì)上是圍繞用戶(hù)場(chǎng)景展開(kāi)的,借助輸入法這個(gè)工具拉通各個(gè)垂類(lèi)應(yīng)用,讓用戶(hù)在需要某類(lèi)內(nèi)容時(shí)能夠直接完成內(nèi)容級(jí)的調(diào)用,而不必頻繁切換應(yīng)用、反復(fù)查找。

類(lèi)似的探索也在入口層持續(xù)推進(jìn),比如我們最近在內(nèi)部進(jìn)行的一些測(cè)試,通過(guò)整合公司級(jí)內(nèi)網(wǎng)入口,讓用戶(hù)可以自定義自己的輸入鍵盤(pán),把常用鏈接和入口統(tǒng)一收斂到輸入法中。這樣一來(lái),無(wú)論用戶(hù)身處哪個(gè)應(yīng)用、什么場(chǎng)景,都可以一鍵調(diào)起所需內(nèi)容。

我們可以預(yù)期,會(huì)出現(xiàn)大量面向高度垂直場(chǎng)景的智能體用來(lái)解決日常生活的具體問(wèn)題,但這些智能體無(wú)論能力多強(qiáng),最終都需要一個(gè)被用戶(hù)高頻觸達(dá)、自然調(diào)起的承載入口。如果用戶(hù)需要在不同應(yīng)用之間反復(fù)切換,去逐個(gè)打開(kāi)和調(diào)用這些智能體,這個(gè)過(guò)程本身就會(huì)變得非常繁瑣。這也是為什么越來(lái)越多公司入局這一賽道。

問(wèn):雖然很多人入局搶奪入口,但從歷史發(fā)展來(lái)看,入口往往不是搶奪來(lái)的,而是自己長(zhǎng)出來(lái)的,取決于用戶(hù)是不是需要你,你們?cè)趺纯催@個(gè)問(wèn)題?

搜狗輸入法團(tuán)隊(duì):一直以來(lái),我們不會(huì)強(qiáng)調(diào)要去“做一個(gè)入口”?;乜椿ヂ?lián)網(wǎng)這么多年,很少有宣稱(chēng)要做入口的產(chǎn)品最終是做成的,更多的情況是,把產(chǎn)品的能力和體驗(yàn)做好,用戶(hù)愿意留在這里,到一定程度它自然變成一個(gè)入口。

最終回到我們?nèi)绾味x輸入法的供需關(guān)系,需求是一個(gè)直接的需求,還是一個(gè)泛化的需求?未來(lái),輸入法泛化的需求空間是更大的,這是我們的入口邏輯。這個(gè)供需的底層邏輯是更好地理解用戶(hù)場(chǎng)景和意圖,通過(guò)更自由地調(diào)用大模型,我們能先人一步地捕捉并滿(mǎn)足用戶(hù)個(gè)性化的意圖,強(qiáng)化這一供需關(guān)系。這是未來(lái)大模型和輸入法結(jié)合所帶來(lái)的機(jī)會(huì)。

特別聲明:本文為合作媒體授權(quán)DoNews專(zhuān)欄轉(zhuǎn)載,文章版權(quán)歸原作者及原出處所有。文章系作者個(gè)人觀(guān)點(diǎn),不代表DoNews專(zhuān)欄的立場(chǎng),轉(zhuǎn)載請(qǐng)聯(lián)系原作者及原出處獲取授權(quán)。(有任何疑問(wèn)都請(qǐng)聯(lián)系idonews@donews.com)

標(biāo)簽: 搜狗輸入法
在6億用戶(hù)的真實(shí)語(yǔ)境中,看AI如何重構(gòu)輸入法|對(duì)話(huà)搜狗輸入法團(tuán)隊(duì)
掃描二維碼查看原文
分享自DoNews
Copyright ? DoNews 2000-2026 All Rights Reserved
蜀ICP備2024059877號(hào)-1