企業(yè)一直依賴數(shù)據(jù)運營,但當數(shù)據(jù)被結構、系統(tǒng)或存儲方式分割時,它們從未能夠充分挖掘數(shù)據(jù)的全部價值。如今的企業(yè)需要靈活、治理良好的環(huán)境來支持運營和分析工作負載,這使得AI成為所有商業(yè)戰(zhàn)略不可或缺的組成部分。
"問題不再是你是否會采用AI,而是你能多快、多有效地使用它,"谷歌云數(shù)據(jù)和分析產品管理負責人GeetaBanda表示。
企業(yè)對此有清醒認識,AI增長前景就是明證。麥肯錫認為,在十年期間,AI每年可以將美國生產力增長提高1.5%。但要參與這種增長,需要采用新的方式來挖掘數(shù)據(jù)價值。
這就是谷歌云開放式湖倉架構的用武之地。這是湖倉架構的最新發(fā)展,該架構結合了結構化和非結構化數(shù)據(jù)。谷歌在其BigLake基礎上構建了這種湖倉架構版本,BigLake是一個存儲引擎,為構建開放數(shù)據(jù)湖倉提供基礎。它使用開放數(shù)據(jù)格式,專為大規(guī)模AI部署而設計。谷歌云承諾,這將有助于加速模型開發(fā)、改善數(shù)據(jù)治理并簡化復雜的工具鏈。
企業(yè)成功的基礎缺陷
谷歌云認為我們需要這種架構,因為太多公司試圖在破碎的基礎上構建AI。數(shù)十年的技術債務和架構復雜性為AI成功創(chuàng)造了多重障礙。
在大多數(shù)企業(yè)中,數(shù)據(jù)分散在多個云、SaaS應用程序和遺留系統(tǒng)中。即使是單個用例,將所有數(shù)據(jù)整合在一起也成為一項艱巨的任務。多模態(tài)數(shù)據(jù)的爆炸式增長加劇了這種復雜性。
"你最有價值的數(shù)據(jù)不再只是行和列,"Banda指出,"它存在于客戶通話記錄、產品圖像、PDF合同和視頻源中。"
"傳統(tǒng)數(shù)據(jù)倉庫無法勝任管理所有這些數(shù)據(jù)的任務,因為它們只能處理高度結構化的數(shù)據(jù),"她斷言。2000年代初期構建的BI系統(tǒng)無法支持非結構化數(shù)據(jù),而且事實證明它們既不靈活又擴展成本高昂。
企業(yè)試圖用能夠接收大量原始數(shù)據(jù)的數(shù)據(jù)湖來彌補數(shù)據(jù)短板。但缺乏治理讓它們變成了"數(shù)據(jù)沼澤"。
開放式湖倉的興起
有AI抱負的企業(yè)需要在一個解決方案中結合數(shù)據(jù)倉庫和數(shù)據(jù)湖的能力。這就是谷歌開發(fā)開放式湖倉的原因。
早期湖倉版本為數(shù)據(jù)湖存儲帶來了事務處理能力,但仍有自身局限性。CIO們必須決定是選擇Iceberg等開放格式并自行管理復雜基礎設施,還是放棄開放和互操作服務的靈活性來獲得完全托管的服務。
Banda稱贊谷歌的開放式湖倉是兩全其美的方案:"存儲、管理和激活AI項目數(shù)據(jù)的新標準。"
該托管平臺基于BigLake、Iceberg原生存儲、無服務器ApacheSpark和Dataplex通用目錄等創(chuàng)新技術,體現(xiàn)了谷歌在整個數(shù)據(jù)生命周期中統(tǒng)一結構化、半結構化和非結構化數(shù)據(jù)的承諾。
360度視角的組成要素
BigQuery產品負責人GauravSaxena確定了谷歌開放式湖倉架構與其他架構不同的三個主要特征:
谷歌為開源帶來"行星級"基礎設施。"我們將谷歌基礎設施的精華帶給開源,"他說。
它使用治理來指導AI處理所有相關數(shù)據(jù)。"我們幫助企業(yè)做的是消除孤島,將所有數(shù)據(jù)連接到所有用例,充分利用所有數(shù)據(jù),無論是結構化還是非結構化,"他補充道,"這就是價值所在。"
開放式湖倉支持多模態(tài)用例,讓企業(yè)洞察通過不同來源和渠道進入的數(shù)據(jù)。"谷歌理解語音、音頻和所有類型的數(shù)據(jù),我們可以將其擴展到多模態(tài)數(shù)據(jù)平臺,提供所有數(shù)據(jù)的360度視角,"他總結道。
開放式湖倉集成了幾個相互連接的組件,包括作為基礎開放表格式的ApacheIceberg。它以ACID事務、模式演進和時間旅行(使用戶能夠查詢歷史快照)的形式為數(shù)據(jù)湖存儲帶來倉庫可靠性。
BigLake管理統(tǒng)一存儲,在不犧牲開放性的情況下實施細粒度訪問控制、性能加速和數(shù)據(jù)生命周期管理。
該平臺支持可互操作的引擎,包括用于高性能SQL分析的BigQuery和用于大規(guī)模數(shù)據(jù)處理和機器學習的無服務器Spark。關鍵是,兩個引擎都在BigLake管理的相同Iceberg數(shù)據(jù)上運行,消除了數(shù)據(jù)移動和重復。
Dataplex通用目錄憑借其自動發(fā)現(xiàn)、編目和元數(shù)據(jù)豐富功能,為統(tǒng)一數(shù)據(jù)存儲帶來治理能力。
統(tǒng)一多樣化數(shù)據(jù)類型
由于非結構化數(shù)據(jù)傳統(tǒng)上是孤立的,從中提取價值需要對元數(shù)據(jù)的深入理解和將其引入統(tǒng)一數(shù)據(jù)平臺的方法。多模態(tài)表消除了這一難題,因為它們可以結合非結構化和結構化數(shù)據(jù),無縫擴展所有治理能力。
Dataplex通用目錄通過集中分散的被動系統(tǒng)幫助企業(yè)統(tǒng)一治理。它創(chuàng)建涵蓋所有數(shù)據(jù)資產的綜合目錄。目錄不是靜態(tài)清單,而是使用AI自動化發(fā)現(xiàn)、確保數(shù)據(jù)質量并跟蹤數(shù)據(jù)血緣。
這種能力改變了用戶可以向系統(tǒng)提出的問題,因為他們不再局限于結構化數(shù)據(jù)中包含的信息。Saxena舉了一個零售商的例子:"哪些客戶在支持電話中抱怨性能問題?"
靈活性和互操作性
易用性不僅為最終用戶內置,也為開發(fā)者內置。"該平臺旨在滿足開發(fā)者的需求,允許他們協(xié)作而不強迫他們使用單一僵化的工具鏈,"Banda解釋道。
例如,"數(shù)據(jù)分析師可以使用高性能SQL并繼續(xù)使用BigQuery,而數(shù)據(jù)工程師和科學家也可以使用高級分析,使用他們想要的任何工具,"Banda說。界面靈活性意味著開發(fā)者不會被鎖定在特定工具中。它支持BigQueryStudio、Jupyter筆記本和Looker連接。
正如Saxena指出的,開放格式是互操作性的關鍵。"ApacheIceberg已成為領先的開放表格式。我們已將其作為原生格式的一部分,并為其帶來企業(yè)級能力,"他說。
開放式湖倉與VertexAI(谷歌云的完全托管、統(tǒng)一AI開發(fā)平臺)集成,為谷歌的AI平臺提供動力。經(jīng)過治理和編目的數(shù)據(jù)為訓練模型提供可信輸入,而元數(shù)據(jù)則為大語言模型提供基礎,減少幻覺并提高準確性。
第三方支持使用Iceberg和API等開放標準,保持引擎無關性。組織可以使用其他Iceberg兼容引擎,并從任何來源訓練模型,而不僅僅是VertexAI。
AI加速價值實現(xiàn)
"簡化架構和減少開銷、加速數(shù)據(jù)管理、通過為開發(fā)者提供使用自選工具的靈活性來民主化開發(fā),以及優(yōu)化成本和性能,這些都加速了AI的結果和價值,"Banda斷言。
統(tǒng)一的數(shù)據(jù)基礎消除了孤島。因此,Saxena解釋說,"你可以在規(guī)模上無縫地將數(shù)據(jù)與任何用例連接,而不會讓稀缺的工程資源成為瓶頸。"
AI還加速編碼,增強人類能力以提高生產力。結果是,Saxena指出,"過去需要幾個月的工作現(xiàn)在只需幾天就能完成。"這是競爭優(yōu)勢的關鍵:"組織現(xiàn)在有更多能力進行實驗并更快地將產品推向市場。"
實時響應
加速不僅是自動化的產物,也是開放式湖倉快速適應能力的產物。AI可以實時響應現(xiàn)實世界的事件,讓企業(yè)能夠立即解決和修復問題。結合AI和人在回路中的能力進行快速響應,為更廣泛的部署創(chuàng)造了信心。
這種實時洞察水平正是企業(yè)開始要求的。他們的數(shù)據(jù)查詢過去僅限于關于已發(fā)生事情的報告。但現(xiàn)在,正如Banda從與客戶的對話中觀察到的,人們希望他們的數(shù)據(jù)系統(tǒng)回答這個問題:"我接下來應該做什么?"
統(tǒng)一數(shù)據(jù)平臺和AI輔助的結合使他們能夠獲得該問題的正確答案。谷歌希望,隨著人們追求越來越復雜的AI用例,其開放式湖倉架構將通過在最小化復雜性的同時解鎖結構化和非結構化數(shù)據(jù)的價值來幫助支持這些應用。
孕婦胃口好,夫妻感情好導致丈夫瘋狂“孕吐”,網(wǎng)友:前夫也吐
“懷孕后妊娠反應嚴重,老公也有妊娠反應了?”您們老公也有嗎?
女子懷孕仨月沒孕反,丈夫卻天天“孕吐”瘦10斤,醫(yī)生解釋亮了
免責聲明:本文內容由開放的智能模型自動生成,僅供參考。