在傳統(tǒng)的信息系統(tǒng)中,數(shù)據(jù)往往被靜態(tài)地存儲在數(shù)據(jù)庫或硬盤中,保護(hù)數(shù)據(jù)的方式也相對簡單——只需將其“鎖起來”即可。但隨著生成式人工智能(GenAI,GenerativeAI)的快速發(fā)展,數(shù)據(jù)開始在模型的訓(xùn)練、部署、調(diào)用、生成等多個環(huán)節(jié)中持續(xù)“流動”,不再是一個靜態(tài)的資源,而成為AI系統(tǒng)生命周期中活躍的參與者。
數(shù)據(jù)的流動性給其保護(hù)帶來了新的挑戰(zhàn):我們不僅要防止數(shù)據(jù)泄露和濫用,還要確保在數(shù)據(jù)被使用的同時,依然保有“知情、可控、可溯源、可刪除”等基本權(quán)利。換句話說,在生成式人工智能時代,數(shù)據(jù)保護(hù)不再等同于一刀切的“封鎖”,而需要更加細(xì)致、動態(tài)的治理方案。
正是基于這些觀察,來自浙江大學(xué)區(qū)塊鏈與數(shù)據(jù)安全全國重點實驗室和新加坡南洋理工大學(xué)等團(tuán)隊的研究人員進(jìn)行了一項聯(lián)合研究,旨在以通俗易懂的語言向廣大讀者闡述數(shù)據(jù)保護(hù)在生成式人工智能時代下的具體內(nèi)涵與深遠(yuǎn)影響。
該工作系統(tǒng)地梳理并回答了數(shù)據(jù)保護(hù)在人工智能時代下面臨的一系列關(guān)鍵問題:哪些數(shù)據(jù)要保護(hù)?應(yīng)該采取怎樣的保護(hù)措施?可能會遇到哪些新挑戰(zhàn)?目前的相關(guān)法規(guī)和監(jiān)管現(xiàn)狀如何?數(shù)據(jù)保護(hù)和數(shù)據(jù)安全存在怎樣的區(qū)別與聯(lián)系?研究團(tuán)隊進(jìn)一步提出了一套分層次的數(shù)據(jù)治理框架,試圖在安全性、可用性與可監(jiān)管性之間找到新的平衡。
(來源:arXiv)
需要了解的是,傳統(tǒng)的數(shù)據(jù)保護(hù)理念是“以數(shù)據(jù)為中心”,無論訓(xùn)練還是保護(hù)都圍繞數(shù)據(jù)本身展開;而該研究提出,在AI時代,數(shù)據(jù)保護(hù)本質(zhì)是“以模型為中心”,這樣的數(shù)據(jù)是在與AI模型的開發(fā)、應(yīng)用、交互、生產(chǎn)過程中創(chuàng)造價值。
研究人員以模型為核心主線,重新梳理了其全生命周期中可能接觸的數(shù)據(jù)類型以及涉及的各個環(huán)節(jié),包括訓(xùn)練數(shù)據(jù)、訓(xùn)練后的模型、系統(tǒng)提示詞、外掛知識庫、用戶輸入的數(shù)據(jù)與AI生成內(nèi)容等。
不同于以往數(shù)據(jù)保護(hù)中“加密加水印”的簡單方法,他們提出了一種覆蓋四個關(guān)鍵層級的保護(hù)框架——數(shù)據(jù)不可用性、隱私保護(hù)、可追溯性和可刪除性。這一創(chuàng)新視角為未來AI技術(shù)的健康、可持續(xù)發(fā)展及其治理體系建設(shè)指出了明確的方向。
該論文第一作者、曾任浙江大學(xué)區(qū)塊鏈與數(shù)據(jù)安全全國重點實驗室特聘研究員、現(xiàn)新加坡南洋理工大學(xué)研究員(ResearchFellow)李一鳴博士對DeepTech表示:“我們的核心目標(biāo)是闡明數(shù)據(jù)保護(hù)在AI時代的關(guān)鍵內(nèi)涵與價值——這也與當(dāng)前全球范圍內(nèi)推動可信賴AI發(fā)展的主流訴求高度契合?!?/p>
目前,相關(guān)論文以《生成式人工智能時代下的數(shù)據(jù)保護(hù)再思考》(RethinkingDataProtectioninthe(Generative)ArtificialIntelligenceEra)為題發(fā)布在預(yù)印本網(wǎng)站arXiv[1]。南洋理工大學(xué)研究員李一鳴博士是第一作者,通訊作者由李一鳴博士和浙江大學(xué)秦湛教授共同擔(dān)任。
圖丨相關(guān)論文(來源:arXiv)
該團(tuán)隊構(gòu)建了一套從Level1到Level4保護(hù)強(qiáng)度逐級遞減的保護(hù)框架——從“最嚴(yán)格”逐漸降到“最低限度”,每往下一級,其保護(hù)強(qiáng)度隨之遞減,而數(shù)據(jù)效用則隨之相應(yīng)提升。
Level1,數(shù)據(jù)不可用性(Non-usability):這是最高級別的數(shù)據(jù)保護(hù),需確保特定數(shù)據(jù)無法用于模型訓(xùn)練或推理。例如,在此前三星員工誤把源碼貼進(jìn)ChatGPT的事件中,就可以通過“數(shù)據(jù)不可用性”進(jìn)行前置性保護(hù)。
Level2,隱私保護(hù)性(Privacy-preservation):在保護(hù)隱私信息前提下,數(shù)據(jù)可用于模型開發(fā)和應(yīng)用,也就是數(shù)據(jù)“可用不可見”,相當(dāng)于數(shù)據(jù)脫敏后再使用,降低了數(shù)據(jù)隱私泄露的風(fēng)險。
該要求在以往的技術(shù)和相關(guān)法規(guī)中其實就已被提出過,李一鳴舉例說道:“例如差分隱私在訓(xùn)練階段注入噪聲,聯(lián)邦學(xué)習(xí)將原始記錄留在本地只上傳梯度,同態(tài)加密則允許云端直接對密文運(yùn)算?!?/p>
Level3,可追溯性(Traceability):這是最新的法規(guī)要求,允許數(shù)據(jù)可使用,但數(shù)據(jù)必須通過數(shù)字水印或區(qū)塊鏈等技術(shù)記錄數(shù)據(jù)來源和使用與修改歷史,并能夠在訓(xùn)練或推理得到的模型和生成內(nèi)容中得到校驗,也就是“用后留痕”。
Level4,可刪除性(Deletability):這是最寬松的數(shù)據(jù)保護(hù)級別,允許數(shù)據(jù)完全用于訓(xùn)練和推理,賦予用戶“被遺忘權(quán)”,允許其數(shù)據(jù)的影響從模型中徹底清除。
圖丨生成式AI時代數(shù)據(jù)保護(hù)的層級分類(來源:arXiv)
實際上,由于各國家和地區(qū)對數(shù)據(jù)保護(hù)的要求具有顯著差異,現(xiàn)有數(shù)據(jù)保護(hù)法規(guī)的覆蓋面可能存在缺口。例如,歐盟的《通用數(shù)據(jù)保護(hù)條例》和《人工智能法案》明確提到了“可刪除性”,美國加州的《加州消費者隱私法》強(qiáng)調(diào)“知情權(quán)”,中國的《個人信息保護(hù)法》和《生成式人工智能服務(wù)管理辦法》則更加聚焦規(guī)范水印與標(biāo)識。
然而,這會導(dǎo)致跨國數(shù)據(jù)治理的難題:當(dāng)前,大模型的訓(xùn)練流程往往分散在全球。創(chuàng)業(yè)公司可能通過“地點切換”來規(guī)避法律層面的嚴(yán)格約束,例如在數(shù)據(jù)保護(hù)薄弱的國家采集訓(xùn)練數(shù)據(jù),然后去模型監(jiān)管寬松的地區(qū)完成訓(xùn)練和微調(diào),再把服務(wù)部署到尚未規(guī)定刪除權(quán)的司法管轄區(qū),以將合規(guī)成本降到最低。
表丨生成式工智能時代數(shù)據(jù)保護(hù)的代表法規(guī)(來源:arXiv)
針對這一復(fù)雜局面,該研究提出了突破性的治理視角:當(dāng)代數(shù)據(jù)保護(hù)的核心已從單純的“數(shù)據(jù)封鎖”轉(zhuǎn)變?yōu)椤皟r值的可控流動”。這種理念在具體應(yīng)用場景中體現(xiàn)為:醫(yī)療AI可學(xué)習(xí)病例特征模式但不泄露患者隱私;法律AI能引用數(shù)據(jù)庫中的以往判例邏輯卻不可輸出數(shù)據(jù)庫中完整的判決書。
實現(xiàn)這種平衡需要多重技術(shù)支撐,例如,差分隱私保障訓(xùn)練過程隱私,數(shù)字水印追蹤內(nèi)容流向,聯(lián)邦學(xué)習(xí)促進(jìn)多方數(shù)據(jù)協(xié)作。特別值得注意的是,這些技術(shù)方案同時服務(wù)于“數(shù)據(jù)保護(hù)”與“數(shù)據(jù)安全”雙重目標(biāo),反映出二者日益融合的趨勢:當(dāng)模型能夠抵御成員推理攻擊時,既保護(hù)了訓(xùn)練數(shù)據(jù)隱私,也增強(qiáng)了模型自身的安全性。
圖丨李一鳴(來源:李一鳴)
李一鳴在清華大學(xué)計算機(jī)科學(xué)與技術(shù)專業(yè)獲得博士學(xué)位,曾任浙江大學(xué)區(qū)塊鏈與數(shù)據(jù)安全全國重點實驗室特聘研究員。目前,他在南洋理工大學(xué)擔(dān)任研究員(ResearchFellow),研究方向為可信人工智能,尤其是AI安全評測和AI版權(quán)保護(hù)。
在論文的討論部分,他與合作者還專門辨析了”數(shù)據(jù)保護(hù)“與”數(shù)據(jù)安全“的異同。原則上,二者關(guān)注點不同:前者聚焦模型及其所涉數(shù)據(jù)的隱私合規(guī),后者強(qiáng)調(diào)模型本身及系統(tǒng)的穩(wěn)健性。但在實踐中,二者深度交織——數(shù)據(jù)保護(hù)不足可能導(dǎo)致系統(tǒng)不安全,反之亦然;聯(lián)邦學(xué)習(xí)、差分隱私等技術(shù)已成為跨領(lǐng)域的通用解決方案。
正如研究中所提醒的那樣,“數(shù)據(jù)保護(hù)不等同于數(shù)據(jù)安全”。該分層框架的價值在于把數(shù)據(jù)保護(hù)治理的顆粒度拆細(xì),讓產(chǎn)業(yè)界不必在“全封閉”與“全開放”之間二選一,而是像“調(diào)音量”一樣,為不同場景、不同法域找到風(fēng)險與創(chuàng)新的最佳平衡點?!拔覀兿嘈?,完善的數(shù)據(jù)治理方案將為更廣泛范圍的安全治理奠定堅實基礎(chǔ)?!崩钜圾Q說。
參考資料:
1.https://arxiv.org/abs/2507.03034
運(yùn)營/排版:何晨龍
筆趣閣:網(wǎng)絡(luò)文學(xué)與漫畫的樂土,暢享多元化閱讀體驗
妻子選擇白月光,我選擇離婚,離婚后她悔瘋了