
撰文 | 李信馬
題圖 | AI生圖
10年前,筆者進入科技媒體行業(yè),最先接觸的頂級科技公司就是甲骨文(Oracle)。那時候,提起數(shù)據(jù)庫大家的第一反應(yīng)就是Oracle,在2016年的Gartner數(shù)據(jù)倉庫和分析數(shù)據(jù)管理解決方案魔力象限中,Oracle是無可爭議的領(lǐng)導(dǎo)者。

Gartner 2016數(shù)據(jù)倉庫和分析數(shù)據(jù)管理解決方案魔力象限 圖片來源:Gartner
在中國市場,其產(chǎn)品備受各行各業(yè)尤其是金融行業(yè)的信賴。有機構(gòu)調(diào)查數(shù)據(jù)顯示,當時Oracle占到了我國數(shù)據(jù)庫市場份額的一半左右,另外約3成的市場份額被國外數(shù)據(jù)庫占據(jù),國產(chǎn)數(shù)據(jù)庫的市場份額不足2成。
下面這張圖片拍攝于1987年,圖中站在講臺旁邊穿著白襯衫打著領(lǐng)帶的年輕人,正在教授SQL語言。他是甲骨文的第7號員工Andy Mendelsohn,曾任Oracle數(shù)據(jù)庫技術(shù)執(zhí)行副總裁,負責(zé)甲骨文全球數(shù)據(jù)庫的研發(fā),直到今年年初才退休。

他來到中國的契機,是當時我國西部最大的鋼鐵生產(chǎn)基地攀枝花鋼鐵公司,有一個1200萬的計算機管理信息系統(tǒng)項目,系統(tǒng)下面還有13個子應(yīng)用系統(tǒng),這一級別的IT工程必須要用大型的商用數(shù)據(jù)庫。
彼時Oracle還沒有進入中國市場,于是在項目組購買了Oracle 5.1數(shù)據(jù)庫之后,對方寄過來三箱英文教材,參加項目的40余人一邊翻譯一邊開發(fā),還分成幾組互相培訓(xùn),甚至內(nèi)部編寫了一個實用教程。1989年項目完成時,培訓(xùn)教程也被整理出版,這就是Oracle的第一部中文教材《Oracle數(shù)據(jù)庫實用教程》,項目也獲得了1989年冶金部的科技進步一等獎。之后,Oracle正式進入中國市場。
中國早期的信息化建設(shè)隨處可見Oracle的身影,隨著九十年代后期國家稅務(wù)總局啟動了世界銀行稅收征管改革(CTAIS)技術(shù)援助項目,Oracle數(shù)據(jù)庫在我國金融數(shù)據(jù)庫市場逐漸占據(jù)了主流位置。微軟的SQL Server、IBM的DB2、Sybase、Informix等國外的數(shù)據(jù)庫,也陸陸續(xù)續(xù)進入國內(nèi)市場。
相比之下,國產(chǎn)數(shù)據(jù)庫本身起步晚,1999年,中國第一家真正意義上的國產(chǎn)數(shù)據(jù)庫企業(yè)人大金倉(現(xiàn)已改名中電科金倉)才成立,此時距離Oracle發(fā)布第一個版本的數(shù)據(jù)庫已經(jīng)過去了20年。
在很長的一段時期里,國產(chǎn)數(shù)據(jù)庫與Oracle等國外數(shù)據(jù)庫相比,差距是明顯的。不過當下,國產(chǎn)數(shù)據(jù)庫有了長足的發(fā)展,在部分領(lǐng)域也可以宣稱達到世界一流水平了。究其原因,筆者認為,國產(chǎn)數(shù)據(jù)庫廠商的努力固然重要,也要考慮時代的進程。
不久前,2025 OceanBase年度發(fā)布會在北京召開,在一眾國產(chǎn)數(shù)據(jù)庫中,它不能說是唯一的主角,但通過觀察OceanBase,我們的確能看到,國產(chǎn)數(shù)據(jù)庫是如何抓住歷史機遇,逐漸發(fā)展和壯大的。
早期的國產(chǎn)數(shù)據(jù)庫追不上Oracle的原因很簡單——后者的先發(fā)優(yōu)勢太大了。2017年,當時幾家老牌國產(chǎn)數(shù)據(jù)庫廠商中,以南大通用GBase的市場占有率最高,但其年營業(yè)收入僅為3.05億元人民幣——作為對比,甲骨文2017財年僅研發(fā)投入就達到了60億美元,而且在之前的10年里花費850億美元并購了130余家公司。
起步晚、投入少,還存在競爭壁壘,在相似的技術(shù)路線上,國產(chǎn)數(shù)據(jù)庫能夠維持發(fā)展,并滿足部分政府、軍工等關(guān)鍵信息領(lǐng)域的需求,就已經(jīng)極為難得。
但互聯(lián)網(wǎng)的快速發(fā)展,卻給了后發(fā)者“彎道超車”的機會。2008年,《自然》雜志提出了“Big Data”(大數(shù)據(jù))的概念,互聯(lián)網(wǎng)上非結(jié)構(gòu)化數(shù)據(jù)迎來井噴式的爆發(fā),揭開了大數(shù)據(jù)時代的序幕。
在中國,BAT抓住了時代的機會,完成了對新浪、搜狐、網(wǎng)易“舊三巨頭”的反超,但急速增長的背后,他們面對海量數(shù)據(jù)同樣焦頭爛額,增長的利潤都被“IOE”(IBM的小型機、Oracle的數(shù)據(jù)庫和EMC的存儲)吃掉,繼續(xù)增長如同飲鴆止渴。
比如騰訊,當時按核計費一年要支付給Oracle上億美金,而且越發(fā)無法滿足大規(guī)模、高并發(fā)、大容量的需求,每次發(fā)生宕機事故,只能等甲骨文的技術(shù)人員來維護解決。這種情況下,去“IOE”對全球的大型互聯(lián)網(wǎng)公司來說都是勢在必行。
重要的是,互聯(lián)網(wǎng)公司有場景需求,也有錢,讓他們有動力也有能力去推動這件事情。
從谷歌的那篇論文——《基于集群的簡單數(shù)據(jù)處理:MapReduce》,到Hadoop、Spark等開源技術(shù)的出現(xiàn),互聯(lián)網(wǎng)公司基于分布式架構(gòu)的存儲、資源調(diào)度和計算,只需要疊加機器數(shù)量,就能夠以更低廉的成本達到和突破以往集中式架構(gòu)下的性能。
這件事發(fā)展到后面,就是云計算的興起了,不過多展開。
在數(shù)據(jù)庫領(lǐng)域,從90年代末期開始,開源數(shù)據(jù)庫就逐漸興起,谷歌等互聯(lián)網(wǎng)巨頭大規(guī)模應(yīng)用MySQL等開源數(shù)據(jù)庫,即使后來MySQL被Oracle收購,也沒改變這一趨勢,在商業(yè)數(shù)據(jù)庫領(lǐng)域,谷歌最早嘗試了研發(fā)分布式數(shù)據(jù)庫——Google Spanner,這對瓦解“IOE”模式也起到了重要的作用,也不做過多展開了。
本文的主角OceanBase,也誕生于互聯(lián)網(wǎng)公司日益旺盛的大數(shù)據(jù)需求,和當時數(shù)據(jù)庫產(chǎn)品供給不足的矛盾中。多年前,筆者曾采訪過OceanBase的CTO楊傳輝,當時他還是OceanBase的研究員,據(jù)他透露,除了支付寶前CTO程立的強力推動外,壓力測試時Oracle出現(xiàn)了抖動,也是推動他們轉(zhuǎn)向自研數(shù)據(jù)庫的重要原因。
采訪中,他對國產(chǎn)數(shù)據(jù)庫長期發(fā)展緩慢的看法,讓筆者印象深刻:“沒有業(yè)務(wù)就會導(dǎo)致自研的系統(tǒng)沒有人來試驗,系統(tǒng)就不成熟,因為不成熟就沒有業(yè)務(wù),進入這樣一個惡性循環(huán)的話,這個系統(tǒng)很難做好。要跨過這個惡性循環(huán),自研數(shù)據(jù)庫至少要5-10年的時間,我覺得5年是最低的,而且需要有類似雙十一這樣現(xiàn)象級的業(yè)務(wù)場景,普通業(yè)務(wù)場景誕生不了世界級的數(shù)據(jù)庫。”
簡單列一下時間軸,就能清晰地看到其中的聯(lián)系:
這里著重提一下,2017至2019年,OceanBase V2.0版本對MySQL的兼容性逐步邁進,最終實現(xiàn)了對Oracle的全面兼容,這意味著企業(yè)在遷移核心業(yè)務(wù)系統(tǒng)時,不需要對應(yīng)用層進行大規(guī)模改造,極大降低了分布式數(shù)據(jù)庫的落地門檻——或者干脆點說,OceanBase有了“反攻”O(jiān)racle的能力,在金融、政務(wù)等傳統(tǒng)依賴Oracle的行業(yè)打開了市場。
下圖是2018年Gartner的OLTP數(shù)據(jù)庫魔力象限,Oracle依舊高居領(lǐng)導(dǎo)者的位置,但也出現(xiàn)了阿里云的身影,不得不說是歷史性的進步了。其實從時間上來看,阿里云的云原生數(shù)據(jù)庫POLARDB在2015年才開始自研,2017年10月正式發(fā)布,2018年商用,是明顯晚于OceanBase的,后者知名度相對較低,可能是吃了2020年才獨立的虧。
當然也有可能,是因為那時是云數(shù)據(jù)庫迅猛發(fā)展的階段,Amazon Web Services的位置都快和Oracle肩并肩了。這也是大勢所趨,兩年后Gartner將OPDBMS(Operational Database Management Systems)和DMSA(Data Management Solutions for Analytics)合并為CDBMS(Cloud Database Management Systems),理由是“There is Only One Cloud Database DBMS Market”,云原生架構(gòu)和分布式技術(shù)最終深度融合為云數(shù)據(jù)庫。

2018年的Gartner分析型數(shù)據(jù)管理解決方案魔力象限
至于國產(chǎn)化,這個就不細講了,懂的都懂。國家出于基礎(chǔ)軟件自主可控的目的,對國產(chǎn)數(shù)據(jù)庫有政策上的傾斜,除了在軍工、政府等關(guān)鍵領(lǐng)域應(yīng)用國產(chǎn)數(shù)據(jù)庫外,在金融等領(lǐng)域也要求國產(chǎn)化。2014年中國銀監(jiān)會39號文件《關(guān)于應(yīng)用安全可控信息技術(shù)加強銀行業(yè)網(wǎng)絡(luò)安全和信息化建設(shè)的指導(dǎo)意見》中,就提出“在操作系統(tǒng)、數(shù)據(jù)庫等領(lǐng)域要加大探索和嘗試力度;從2015年起,各銀行業(yè)金融機構(gòu)對安全可控信息技術(shù)的應(yīng)用以不低于15%的比例逐年增加,直至2019年達到不低于75%的總體占比”。
這里放一頁筆者多年前參加活動時看到的PPT,Oracle創(chuàng)始人拉里·埃里森(Larry Ellison)在2018年10月接受FOX采訪時曾強調(diào),不能讓中國的科技公司打敗美國的科技公司,在那時,他就將中國視為美國面臨的最大競爭對手了。

所以有些事情是必須要做的。2019年年中,Oracle中國研發(fā)中心關(guān)閉,大規(guī)模裁員1600人,這被視為Oracle在中國的“敗走”。同年10月,在“數(shù)據(jù)庫世界杯”TPC-C基準測試中,OceanBase以超過6000萬的分數(shù),打破了由Oracle保持了9年的OLTP世界紀錄,成為首個登頂?shù)膰a(chǎn)數(shù)據(jù)庫。

在這里,用OceanBase CEO楊冰接受筆者采訪時的回復(fù)來做下總結(jié),他認為,OceanBase的發(fā)展,抓住了三個重要的時代機遇,其中前兩個分別是:
“第一波是互聯(lián)網(wǎng)的浪潮,本身我們也出身于阿里和螞蟻的大環(huán)境,如果沒有這一波浪潮帶來的海量的數(shù)據(jù)和互聯(lián)網(wǎng)的發(fā)展,其實很難倒逼團隊做如此大的投入,從第一行代碼開始去寫數(shù)據(jù)庫。這是以前所有的傳統(tǒng)數(shù)據(jù)庫廠商都沒有遇到過的(機遇),所以也使得我們以創(chuàng)新的方式把分布式和數(shù)據(jù)庫等結(jié)合在一起,完成了一次我認為是技術(shù)上彎道超車的積累。
第二波浪潮,假如前面這十年是讓我們快速形成技術(shù)的話,后面OceanBase商業(yè)化的這五六年,是讓我們快速從技術(shù)變成產(chǎn)品的過程,我們也經(jīng)歷了中國分布式升級和國產(chǎn)化升級的浪潮。這個過程的意義在于,第一,它的時間非常短、非常迅速;第二,都是非常核心的關(guān)鍵系統(tǒng)做整個升級的替換。就像‘雙11’一樣,技術(shù)挑戰(zhàn)也是非常大的,而且是全行業(yè)去做,極大地縮短了我們把技術(shù)變成成熟產(chǎn)品的周期?!?/p>
第三個時代機遇,分兩個方面來講,技術(shù)上就是進入了AI時代。
為什么這么說呢?楊冰表示:“AI的話,它對于數(shù)據(jù)庫產(chǎn)生了新的需求,這些其實是讓我們一下子跟世界級的數(shù)據(jù)庫領(lǐng)域的玩家站在同一起跑線,因為這個場景全球都是新的,都是一樣的。而且可能因為中國應(yīng)用比較發(fā)達,數(shù)據(jù)基建發(fā)展得比較快,數(shù)據(jù)量比較大,反而我們在這個場景當中,中國數(shù)據(jù)庫的玩家有更多的機會。”
具體來講,和大數(shù)據(jù)時代類似,AI時代的數(shù)據(jù)庫需要處理的數(shù)據(jù)量會變得越來越大,而且數(shù)據(jù)類型也與以往不同。大模型的計算能力強,但沒有記憶,需要數(shù)據(jù)庫產(chǎn)品來存儲和管理上下文,也即上下文工程。以前,是數(shù)據(jù)先進行結(jié)構(gòu)化,然后進入數(shù)據(jù)庫處理,在AI場景中,數(shù)據(jù)可能未經(jīng)處理就直接進入數(shù)據(jù)庫中。
近幾年,業(yè)界新的數(shù)據(jù)庫產(chǎn)品,其實都是面向AI的,比如向量數(shù)據(jù)庫、supabase等產(chǎn)品,數(shù)據(jù)庫領(lǐng)域的技術(shù)范式已經(jīng)由應(yīng)用服務(wù)慢慢延伸到智能服務(wù)。業(yè)界主流的數(shù)據(jù)庫,包括Oracle和MongoDB,也在引擎內(nèi)部逐步增加了搜索的能力,支持AI原生的場景。誰能有把數(shù)據(jù)變成可被模型實時調(diào)用、可信執(zhí)行的能力,誰就握住了AI時代的機遇。
“只要談到AI數(shù)據(jù)庫,很多人的腦海里面想到的第一個詞叫向量搜索,我認為向量搜索只是AI數(shù)據(jù)庫的初級階段,最終所有的向量搜索都會逐步演進為混合搜索,能不能支持混合搜索是AI數(shù)據(jù)庫核心能力的分水嶺?!睏顐鬏x認為,未來數(shù)據(jù)庫除了處理結(jié)構(gòu)化數(shù)據(jù),還需要處理半結(jié)構(gòu)化甚至是無結(jié)構(gòu)化的數(shù)據(jù),或者針對無結(jié)構(gòu)化的數(shù)據(jù)來建立各種各樣的語義索引,比如說向量索引、圖索引和全文索引等,并需要有一套基于結(jié)構(gòu)化、半結(jié)構(gòu)化,以及無結(jié)構(gòu)化各種索引之上的混合搜索。
他給出了一個具體的定義——面向Agent多?;旌纤阉鳌=衲?月27日,OceanBase發(fā)布了Datax AI戰(zhàn)略,宣布要打造 AI 時代的一體化數(shù)據(jù)底座。2025年,V4.4版本發(fā)布了共享存儲,采用存算分離架構(gòu),計算節(jié)點和數(shù)據(jù)存儲實現(xiàn)了完全的分離,計算節(jié)點能夠根據(jù)業(yè)務(wù)負載的變化,在主流云平臺上靈活地進行擴縮容,解決了AI時代打通多云底座的問題。

本次發(fā)布會上,OceanBase發(fā)布了4.4一體化融合版本,將TP、AP與AI能力集成于單一內(nèi)核,同期還開源了其首款A(yù)I原生混合搜索數(shù)據(jù)庫seekdb,支持向量、全文、標量、GIS數(shù)據(jù)統(tǒng)一檢索,兼容30+主流AI框架。

seekdb產(chǎn)品架構(gòu)
“這一次seekdb的發(fā)布,其實也是一個比較大的動作,它是完全獨立于現(xiàn)在OceanBase的一個分支,這也是我們下的決心。我們覺得AI的發(fā)展速度會超出我們的想象,所以我們希望以這樣的方式跑得更快一點,但是這個東西也對OceanBase工程化能力的各個方面提出進一步的挑戰(zhàn)。”楊冰說。
而商業(yè)上的時代機遇,就是全球化。隨著大量的中國企業(yè)出海,包括軟件企業(yè)、硬件企業(yè)和云廠商,對國產(chǎn)數(shù)據(jù)庫的全球化是有利好的。OceanBase誕生的第一天,就希望成為“世界級數(shù)據(jù)庫”,全球化也是其發(fā)展的必經(jīng)之路。
不過,這條路即使對現(xiàn)在的OceanBase來說也是充滿挑戰(zhàn)。
市場競爭方面,還是拿Oracle來舉例。兩個月前,Oracle的股價大漲,一度將拉里·埃里森送上了世界首富的寶座,雖然最近其股價又大跌,不過機構(gòu)看空的重要原因是認為其人工智能計劃過于“激進”。在AI時代,Oracle提出了“融合數(shù)據(jù)庫”的概念,Oracle的多模融合主要涉及數(shù)據(jù)類型與整體架構(gòu),比如圖數(shù)據(jù)、數(shù)據(jù)流、數(shù)據(jù)倉庫與數(shù)據(jù)湖架構(gòu),以及多種應(yīng)用層級。在構(gòu)建應(yīng)用時,如果應(yīng)用系統(tǒng)涉及多個數(shù)據(jù)庫,架構(gòu)會變得復(fù)雜,容易出錯。融合數(shù)據(jù)庫通過整合不同數(shù)據(jù)類型和工作負載,支持企業(yè)級應(yīng)用所需的高可靠性、安全性和可擴展性。
今年7月,筆者采訪了甲骨文公司副總裁及中國區(qū)董事總經(jīng)理吳承楊,他在采訪中表示:“國產(chǎn)數(shù)據(jù)庫傾向于在應(yīng)用層或數(shù)據(jù)中臺解決所有問題,而對錯需實踐驗證。但在智能體時代,代碼多由機器生成,如果希望從數(shù)據(jù)庫層面解決安全等問題,數(shù)據(jù)庫結(jié)構(gòu)過于復(fù)雜對 AI 的使用是一個挑戰(zhàn)?,F(xiàn)在很多企業(yè)做 AI 項目時,會把現(xiàn)有數(shù)據(jù)平臺的應(yīng)用抽取到外部另起爐灶,這其實是誤區(qū)。”
在多模態(tài)和一體化上,OceanBase和Oracle的思路是相似的。吳承楊也表示,大多數(shù)國產(chǎn)數(shù)據(jù)庫近一兩年都在談融合數(shù)據(jù)庫的事情,但他認為,國產(chǎn)數(shù)據(jù)庫要做好,還需要一定的時間。
“融合數(shù)據(jù)庫不是幾種數(shù)據(jù)類型,是大量的數(shù)據(jù)類型,你可以看到我們在這上面有包括空間數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)、MongoDB,JSON 的東西,文本的東西,XML 的東西,包括向量數(shù)據(jù)。坦率來講,我今天還沒有看到,一個國產(chǎn)數(shù)據(jù)庫能夠把一個向量數(shù)據(jù)庫融合在這里面,還有圖數(shù)據(jù)要融合進來,我覺得這是需要大量的投入?!眳浅袟钫f。
在中國市場,Oracle也非常重視中國企業(yè)出海,即China to Global(C2G),在產(chǎn)品端,吳承楊認為Oracle在數(shù)據(jù)合規(guī)和數(shù)據(jù)主權(quán)化等方面也有優(yōu)勢。
自2020年商業(yè)化以來,OceanBase的全球客戶數(shù)已突破4000家,連續(xù)五年年均增速超100%,深入到了金融、政務(wù)、通信、零售、制造、互聯(lián)網(wǎng)等十余領(lǐng)域,服務(wù)覆蓋16個國家和地區(qū)、60多個地域、240多個可用區(qū)。
在其長期深耕的金融領(lǐng)域,OceanBase服務(wù)了全部政策性銀行、5家國有大行,覆蓋了超100家資產(chǎn)規(guī)模千億級以上銀行,支撐190余個核心系統(tǒng)、1000多個關(guān)鍵業(yè)務(wù);非銀領(lǐng)域,75%頭部保險集團、80%頭部券商、60%頭部基金公司已部署OceanBase,其中超半數(shù)用于核心系統(tǒng)。IDC報告顯示,OceanBase連續(xù)兩年穩(wěn)居中國分布式金融本地部署市場第一。
在去年年底Gartner最新發(fā)布的全球云數(shù)據(jù)庫管理系統(tǒng)魔力象限中,OceanBase雖然還未上榜,但已經(jīng)連續(xù)兩年獲選“榮譽提及”??紤]到2022年OceanBase才正式推出云數(shù)據(jù)庫產(chǎn)品,近三年,OB Cloud客戶數(shù)年均增長115%,營收占比已達30%,這個表現(xiàn)很不錯了。

在采訪中,楊冰認為,OceanBase過去為國產(chǎn)數(shù)據(jù)庫的發(fā)展,主要做了三個方面的貢獻:
一是數(shù)據(jù)庫和分布式相結(jié)合,解決擴展性、可靠性和一致性的問題,OceanBase在工程化方面,做到了技術(shù)上的創(chuàng)新和突破;
二是在整個存儲結(jié)構(gòu)上,以前是以Tree為主,OceanBase用LSM Tree數(shù)據(jù)結(jié)構(gòu),把它和數(shù)據(jù)庫相結(jié)合,演化出真正的HTAP,真正的存算分離和存算一體架構(gòu),包括單機分布式一體化,在存儲層面引領(lǐng)著創(chuàng)新;
三是在解決可用性的層面上,OceanBase做到在數(shù)據(jù)不丟失的情況下,RTO小于8秒,這是以前傳統(tǒng)架構(gòu)沒有做到過的。
現(xiàn)在,我們談?wù)搰a(chǎn)數(shù)據(jù)庫是否已經(jīng)崛起,還不是十分肯定。全球化和AI時代的到來,就是新一輪的“大考”。未來,OceanBase能否通過創(chuàng)新的方式,拓展數(shù)據(jù)庫的技術(shù)邊界,可能就是其能否成為“世界級數(shù)據(jù)庫”的關(guān)鍵。