文|白鴿
編|王一粟
當(dāng)月活千萬(wàn)的APP面臨AI轉(zhuǎn)型,該怎么做數(shù)據(jù)存儲(chǔ)?
2013年成立于大灣區(qū)的貨運(yùn)物流App貨拉拉,目前所積累的數(shù)據(jù)量已達(dá)40PB+,在整個(gè)行業(yè)中屬于中等規(guī)模,“我們現(xiàn)在數(shù)據(jù)量增速也非???,每一年還會(huì)增加幾PB?!必浝髷?shù)據(jù)專家章嘯說(shuō)道。
如此龐大數(shù)據(jù)量,需要一個(gè)既能夠穩(wěn)定、安全,又能夠提高讀寫能力的數(shù)據(jù)存儲(chǔ)設(shè)施。
“自建的穩(wěn)定性跟云的穩(wěn)定性相比,還是差一些?!闭聡[說(shuō)道,“所以我們現(xiàn)在基本99%的數(shù)據(jù)都存儲(chǔ)在云上,不過(guò)也保留了一些自建的基礎(chǔ)設(shè)施,屬于自建+云服務(wù)的混合架構(gòu)體系。”
混合架構(gòu)增加了管理難度,所以找到一朵適合自己業(yè)務(wù)的云,更加關(guān)鍵。
一年多前,貨拉拉將40PB+數(shù)據(jù),進(jìn)行了一次大規(guī)模云上遷移,最終遷移目的地,是騰訊云。
用章嘯的話說(shuō),這次遷移可謂是“開著飛機(jī)換引擎”,但最終結(jié)果是好的,0故障完成了40PB+的大數(shù)據(jù)基建搬遷。
數(shù)據(jù)遷移一年后,依托騰訊云DataPlatform數(shù)據(jù)平臺(tái)解決方案,貨拉拉實(shí)現(xiàn)貨運(yùn)報(bào)表產(chǎn)出提前40分鐘,讓任務(wù)提速10%。
而這離不開騰訊云DataPlatform數(shù)據(jù)平臺(tái)解決方案旗下的兩個(gè)拳頭產(chǎn)品:對(duì)象存儲(chǔ)COS、元數(shù)據(jù)加速器MetadataAccelerator。
隨著AI大模型時(shí)代的到來(lái),貨拉拉也在積極擁抱AI,但又面臨著新的難題——AI大模型所需要的海量數(shù)據(jù)頻繁訪問(wèn),拉低了整個(gè)數(shù)據(jù)訪問(wèn)的速度。
那么,AI大模型時(shí)代,貨拉拉該如何面對(duì)海量數(shù)據(jù)爆炸式增長(zhǎng)的挑戰(zhàn)?這也是所有面臨AI轉(zhuǎn)型的公司們,共同的難題。
40PB+數(shù)據(jù)的云上遷移,開著飛機(jī)換引擎
12年時(shí)間積攢的數(shù)據(jù)量,貨拉拉將其一次全部遷移到了騰訊云存儲(chǔ)系統(tǒng)架構(gòu)中,如此大規(guī)模的數(shù)據(jù)遷移,挑戰(zhàn)相當(dāng)大。
業(yè)內(nèi)皆知,企業(yè)積累的海量數(shù)據(jù),就是一座尚未被挖掘的“金礦”,數(shù)據(jù)不光要存起來(lái),更重要的還要能用,才能夠真正發(fā)揮數(shù)據(jù)的價(jià)值。
但往往在使用數(shù)據(jù)的過(guò)程中,一方面存在著數(shù)據(jù)誤刪、數(shù)據(jù)勒索、機(jī)房災(zāi)難等導(dǎo)致核心數(shù)據(jù)丟失的情況,另一方面,海量且持續(xù)增長(zhǎng)的視頻、圖片等非結(jié)構(gòu)化數(shù)據(jù),也面臨著存儲(chǔ)成本增加、傳統(tǒng)存儲(chǔ)架構(gòu)響應(yīng)慢,難以滿足企業(yè)實(shí)時(shí)調(diào)用等需求。
事實(shí)上,當(dāng)前貨拉拉業(yè)務(wù)規(guī)模已經(jīng)達(dá)到超億級(jí)文件數(shù)量規(guī)模,在此規(guī)模下,數(shù)據(jù)存儲(chǔ)需要保障數(shù)據(jù)可靠性滿足不丟失需求的同時(shí),還需要實(shí)現(xiàn)業(yè)務(wù)高可用,滿足任務(wù)執(zhí)行期間業(yè)務(wù)不受損。
針對(duì)這些問(wèn)題,貨拉拉已經(jīng)形成了自建+混合云服務(wù)的大數(shù)據(jù)存儲(chǔ)架構(gòu)。
在其大數(shù)據(jù)存儲(chǔ)架構(gòu)中,底層接入層是采集用戶數(shù)據(jù)層,將數(shù)據(jù)采集之后針對(duì)不同時(shí)效性要求,會(huì)經(jīng)過(guò)批處理和流處理等方式,寫入到在線存儲(chǔ)或提供給業(yè)務(wù)使用。
其中,批計(jì)算主要是處理永久存儲(chǔ)在存儲(chǔ)系統(tǒng)中的數(shù)據(jù),流計(jì)算則處理實(shí)時(shí)生成的數(shù)據(jù),“批處理的部分我們是部署在騰訊云上,其他的板塊則在其他云上?!闭聡[說(shuō)道。
另外,針對(duì)數(shù)據(jù)災(zāi)備可能出現(xiàn)的核心數(shù)據(jù)丟失問(wèn)題,貨拉拉打造了兩套體系化的數(shù)據(jù)災(zāi)備架構(gòu):
一是元初-元數(shù)據(jù)管理平臺(tái),針對(duì)七天內(nèi)被誤刪的數(shù)據(jù),能夠通過(guò)多層防護(hù),快速恢復(fù)數(shù)據(jù);
二是自研災(zāi)備系統(tǒng)Kirk,針對(duì)數(shù)據(jù)勒索和機(jī)房災(zāi)難,可實(shí)現(xiàn)PB級(jí)數(shù)據(jù)災(zāi)備,并全鏈路災(zāi)備;
基于這兩套系統(tǒng)的能力,貨拉拉可以實(shí)現(xiàn)數(shù)據(jù)誤刪的100%召回,核心數(shù)據(jù)100%災(zāi)備。
“隨著我們與騰訊云的深入合作,最終決定將整個(gè)40PB+規(guī)模數(shù)據(jù)都遷移到了騰訊云上。”章嘯說(shuō)道,“騰訊云DataPlatform數(shù)據(jù)平臺(tái)解決方案能夠提供多種能力和服務(wù),不過(guò)我們現(xiàn)階段主要使用了底層存儲(chǔ)和元數(shù)據(jù)加速能力?!?/p>
據(jù)章嘯介紹,整個(gè)數(shù)據(jù)遷移大概分為幾個(gè)步驟:
首先是基于Kirk系統(tǒng)和數(shù)據(jù)離線開發(fā)平臺(tái)做數(shù)據(jù)遷移和任務(wù)遷移,會(huì)同時(shí)在兩朵云中跑任務(wù),跑完之后會(huì)自動(dòng)進(jìn)行數(shù)據(jù)對(duì)比,防止數(shù)據(jù)出錯(cuò)。對(duì)比的結(jié)果完成后給到業(yè)務(wù)做驗(yàn)收。
當(dāng)整個(gè)數(shù)據(jù)驗(yàn)收能持續(xù)驗(yàn)收成功,會(huì)對(duì)整個(gè)開發(fā)平臺(tái)做封網(wǎng),在當(dāng)天把整個(gè)鏈路跑完后,再次對(duì)比數(shù)據(jù)準(zhǔn)確性,確保準(zhǔn)確之后,再將所有系統(tǒng)全部切換,從而完成整個(gè)云的遷移。
“我們將數(shù)據(jù)遷移過(guò)來(lái)一年多,目前沒(méi)有出現(xiàn)由于COS這種存儲(chǔ)所導(dǎo)致的問(wèn)題,真正做到了0故障率,整體的建立過(guò)程也非常平穩(wěn)?!闭聡[說(shuō)道。
AI時(shí)代數(shù)據(jù)大爆炸,存儲(chǔ)的難題怎么解?
企業(yè)面臨AI業(yè)務(wù)的轉(zhuǎn)型,帶來(lái)了許多對(duì)數(shù)據(jù)的新需求。
最近兩年,貨拉拉落地了許多新的AI業(yè)務(wù)板塊。
“我們現(xiàn)在AI業(yè)務(wù)主要有ChatBI、AI客服等相關(guān)的內(nèi)容,在AI方面目前跟騰訊合作的很深入。”章嘯說(shuō)道。
AI應(yīng)用在進(jìn)行模型訓(xùn)練時(shí),對(duì)數(shù)據(jù)的調(diào)用需要有高吞吐、低延時(shí)。
這就帶來(lái)了新的問(wèn)題——AI數(shù)據(jù)和傳統(tǒng)大數(shù)據(jù)混合。
“我們的數(shù)據(jù)都在騰訊云上,現(xiàn)在存在一些模型訓(xùn)練的任務(wù),會(huì)把整個(gè)桶的下行帶寬持續(xù)拉滿,這樣會(huì)對(duì)我們整個(gè)離線鏈路的穩(wěn)定性有很大影響?!闭聡[說(shuō)道。
企業(yè)傳統(tǒng)業(yè)務(wù)的大數(shù)據(jù)存儲(chǔ)計(jì)算需要高穩(wěn)定性,而AI大模型的數(shù)據(jù)訓(xùn)練卻需要高吞吐、大帶寬,兩個(gè)數(shù)據(jù)存儲(chǔ)需求相互搶占資源,又該如何在一個(gè)系統(tǒng)架構(gòu)中實(shí)現(xiàn)共存?
“針對(duì)這些問(wèn)題,我們也跟騰訊交流分享了幾次,最后提出了分桶而治,專項(xiàng)優(yōu)化的解決方案。”章嘯說(shuō)道,基于騰訊云對(duì)象存儲(chǔ)COS,是在底層做了兩個(gè)存儲(chǔ)集群,即COS桶1和COS桶2:
COS桶1,專做大數(shù)據(jù)存儲(chǔ),上層支撐整個(gè)大數(shù)據(jù)市場(chǎng)相關(guān)業(yè)務(wù);
COS桶2,則寫入專做AI大模型訓(xùn)練的數(shù)據(jù),上層對(duì)應(yīng)整個(gè)AI項(xiàng)目;
基于此,“存儲(chǔ)層按照應(yīng)用拆分不同桶,僅遷移單個(gè)模型下行帶寬下降8%。”章嘯說(shuō)道,“不過(guò),我們也明顯感受到AI業(yè)務(wù)對(duì)帶寬吞吐的訴求要比大數(shù)據(jù)大的多,后續(xù)也會(huì)逐步把AI業(yè)務(wù)通過(guò)這樣的方式遷移過(guò)來(lái),再進(jìn)行專項(xiàng)優(yōu)化?!?/p>
在底層COS存儲(chǔ)設(shè)立兩個(gè)桶,雖然緩解了大數(shù)據(jù)和AI大模型數(shù)據(jù)在使用時(shí)對(duì)帶寬需求的壓力,但AI大模型數(shù)據(jù)存儲(chǔ)桶自身,也仍面臨著需要非常高的帶寬吞吐能力。
針對(duì)這一問(wèn)題,貨拉拉正與騰訊云基于數(shù)據(jù)加速器GooseFS進(jìn)行探索。
據(jù)介紹,騰訊云數(shù)據(jù)湖存儲(chǔ)GooseFS可支持Tbps級(jí)吞吐、千億級(jí)元數(shù)據(jù)規(guī)模、單鏈接速度輕松達(dá)到GBps級(jí)別,相比于行業(yè)內(nèi)百兆級(jí)規(guī)模提升10倍,大模型分發(fā)效率10倍躍升。
而實(shí)現(xiàn)數(shù)據(jù)高速調(diào)用的背后,GooseFS主要是通過(guò)對(duì)數(shù)據(jù)的親和力調(diào)度能力,將數(shù)據(jù)調(diào)度到跟計(jì)算相關(guān)節(jié)點(diǎn)更近的本地磁盤上,提供Tbps級(jí)的吞吐性能。
“我們用起來(lái)體驗(yàn)感最好的,就是GooseFS的元數(shù)據(jù)加速能力。”章嘯坦言。
最后,針對(duì)跨云的問(wèn)題,章嘯也表示,目前基于COS的模式進(jìn)行訓(xùn)練,可以實(shí)現(xiàn)按需配置,“數(shù)據(jù)將持久化存儲(chǔ)在COSDataLake中,訓(xùn)練數(shù)據(jù)按需通過(guò)GooseFS拉取到云上或者IDC計(jì)算端,做到一份Dataset,多地訓(xùn)練。”
可以看到,COS作為云存儲(chǔ)底座,為貨拉拉40PB+的數(shù)據(jù)提供統(tǒng)一存儲(chǔ)池,能夠提供安全穩(wěn)定的數(shù)據(jù)存儲(chǔ)能力,在大幅度提升系統(tǒng)可用性、可靠性等性能的同時(shí),也還可以大幅降低存儲(chǔ)成本。
而GooseFS則提供元數(shù)據(jù)的數(shù)據(jù)緩存加速服務(wù),能夠滿足大規(guī)模數(shù)據(jù)處理和訓(xùn)練對(duì)高性能存儲(chǔ)的需求,幫助貨拉拉落地AI應(yīng)用業(yè)務(wù)。
數(shù)據(jù)萬(wàn)象助力企業(yè),釋放數(shù)據(jù)價(jià)值
隨著企業(yè)非結(jié)構(gòu)化數(shù)據(jù)不斷增長(zhǎng),帶來(lái)了AI識(shí)別難,處理速度慢等新難題。
為了讓數(shù)據(jù)的價(jià)值能夠釋放,需要在存儲(chǔ)端就開始做預(yù)處理。
而騰訊云數(shù)據(jù)萬(wàn)象,能夠有效幫助企業(yè)解決這一問(wèn)題。數(shù)據(jù)萬(wàn)象,主要包含兩個(gè)功能,一個(gè)是數(shù)據(jù)管理Metalnsight,一個(gè)是數(shù)據(jù)處理DataEngine。
DataEngine,就是數(shù)據(jù)處理,把計(jì)算下沉到存儲(chǔ)端,提供大量標(biāo)準(zhǔn)化的圖片、音視頻的處理能力。比如小紅書用戶上傳圖片,它能在數(shù)據(jù)層就把圖片進(jìn)行壓縮+裁剪+上水印,在圖片質(zhì)量不受損的情況,提升圖片訪問(wèn)性能,保護(hù)知識(shí)產(chǎn)權(quán)。
MetaInsight,通過(guò)智能檢索能力為客戶提供一種高效的數(shù)據(jù)管理服務(wù),它能讓用戶使用自然語(yǔ)言快速檢索海量非結(jié)構(gòu)化數(shù)據(jù)(圖片、音視頻等)。比如網(wǎng)盤、手機(jī)相冊(cè)中的“以文搜圖”,之前找照片只能按時(shí)間一張張找,現(xiàn)在可以輸入關(guān)鍵字直接搜到。
舉個(gè)例子,在電商商品搜索中,基于MetaInsight的以圖搜圖功能,用戶在上傳商品圖片后,系統(tǒng)通過(guò)特征提取與索引庫(kù)中的商品圖進(jìn)行相似度對(duì)比,快速返回同款或相似款商品信息,解決傳統(tǒng)關(guān)鍵詞檢索的局限性。
而在AI大模型訓(xùn)練場(chǎng)景中,MetaInsight可對(duì)海量非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行智能預(yù)分類,通過(guò)語(yǔ)義檢索(如輸入“雨天”“行人穿行”)快速篩選特定場(chǎng)景數(shù)據(jù)。相比人工標(biāo)注,該方案能減少70%以上的預(yù)處理時(shí)間,同時(shí)支持跨模態(tài)檢索(如圖像+文本描述),幫助企業(yè)在數(shù)據(jù)清洗階段高效構(gòu)建高質(zhì)量訓(xùn)練集。
“因?yàn)榉墙Y(jié)構(gòu)化數(shù)據(jù)的日益增長(zhǎng),云存儲(chǔ)平臺(tái)一定要有向量化的能力?!闭聡[說(shuō)道,“數(shù)據(jù)萬(wàn)象CI,就可以很好的提升對(duì)非結(jié)構(gòu)化數(shù)據(jù)的管控?!?/p>
可以看到,AI大模型時(shí)代,存儲(chǔ)不再是之前只做數(shù)據(jù)的倉(cāng)庫(kù),而是結(jié)合一系列數(shù)據(jù)處理和計(jì)算的能力,成為了數(shù)據(jù)加速運(yùn)轉(zhuǎn)的新引擎。
延伸閱讀:與 當(dāng)貨拉拉面臨 A:I 轉(zhuǎn)型 《86%該如何做》大數(shù)據(jù)存儲(chǔ) 的相關(guān)文章