AI大模型數(shù)據(jù)安全與應(yīng)對策略_第1頁
AI大模型數(shù)據(jù)安全與應(yīng)對策略_第2頁
AI大模型數(shù)據(jù)安全與應(yīng)對策略_第3頁
AI大模型數(shù)據(jù)安全與應(yīng)對策略_第4頁
免費預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

AI大模型數(shù)據(jù)安全與應(yīng)對策略AI大模型是指具有大規(guī)模參數(shù)和復(fù)雜結(jié)構(gòu)的人工智能模型。以O(shè)penAI公司的GPT-4模型、谷歌公司的BERT模型、百度公司的文心模型等為代表,AI大模型普遍使用神經(jīng)網(wǎng)絡(luò)架構(gòu),其強(qiáng)大的自然語言處理能力源于上萬億的參數(shù)規(guī)模和海量的訓(xùn)練數(shù)據(jù)。ChatGPT等基于AI大模型的聊天機(jī)器人,能夠根據(jù)聊天上下文進(jìn)行非常類似于人類思維的互動,同時又具備了遠(yuǎn)超人類智力的知識水平。在驚訝的同時,很多國家和組織開始對AI大模型的海量數(shù)據(jù)訓(xùn)練產(chǎn)生了擔(dān)憂,懷疑用戶在使用ChatGPT過程中可能會泄露個人隱私信息或者組織乃至國家的機(jī)密信息。例如,以色列網(wǎng)絡(luò)安全公司Team8在最新報告中表示使用ChatGPT等生成式人工智能工具的公司可能會將客戶信息和商業(yè)機(jī)密置于危險之中,加拿大隱私專員辦公室開始調(diào)查OpenAI公司涉及“未經(jīng)同意收集、使用和披露個人信息”的指控,意大利數(shù)據(jù)保護(hù)局、西班牙國家數(shù)據(jù)保護(hù)局、法國國家信息自由委員會等均宣布對ChatGPT等工具涉嫌違反隱私規(guī)則展開調(diào)查。本文正是在這樣的背景下,對AI大模型的訓(xùn)練數(shù)據(jù)來源進(jìn)行梳理,分析這些數(shù)據(jù)采集和使用所面臨的挑戰(zhàn),并結(jié)合區(qū)塊鏈技術(shù)提出安全發(fā)展的策略。01AI大模型的訓(xùn)練數(shù)據(jù)來源

AI大模型的實現(xiàn)需海量數(shù)據(jù)和強(qiáng)大算力來支撐訓(xùn)練和推理過程。隨著數(shù)據(jù)量的不斷增加,模型就可以學(xué)習(xí)到更多的特征和模式。例如,對于圖像識別任務(wù),更多的訓(xùn)練樣本可以讓模型學(xué)習(xí)到更多的形狀、紋理、顏色等特征;對于自然語言處理任務(wù),更多的訓(xùn)練樣本可以讓模型學(xué)習(xí)到更多的語法、語義、上下文等特征。此外,大規(guī)模數(shù)據(jù)還可以減少AI大模型過擬合,提高模型的泛化能力。例如,原始GPT模型有1.5億個參數(shù),GPT-3模型參數(shù)已達(dá)1750億個,需要使用大約45TB文本數(shù)據(jù)進(jìn)行訓(xùn)練;Chinchilla模型有700億個參數(shù),需要使用2.1TB的書籍?dāng)?shù)據(jù)庫和3.1TB的Github數(shù)據(jù)進(jìn)行訓(xùn)練。現(xiàn)階段,AI大模型數(shù)據(jù)來源主要分為三種類型,包括網(wǎng)絡(luò)開放數(shù)據(jù)、服務(wù)商數(shù)據(jù)、自有數(shù)據(jù)等。1.網(wǎng)絡(luò)開放數(shù)據(jù)是通用AI大模型訓(xùn)練的主力軍經(jīng)過幾十年的信息積累,互聯(lián)網(wǎng)上存在大量的政府、機(jī)構(gòu)及企業(yè)公開數(shù)據(jù)可以為AI大模型訓(xùn)練提供充足的“材料”。爬蟲抓取、開放數(shù)據(jù)集、交換共享是目前獲取網(wǎng)絡(luò)公開數(shù)據(jù)的主要方式。(1)爬蟲抓取通過分析網(wǎng)頁結(jié)構(gòu),使用相應(yīng)的爬蟲程序解析HTML、CSS和JavaScript等網(wǎng)頁內(nèi)容,獲取需要的數(shù)據(jù)。(2)開放數(shù)據(jù)集主要是組織和機(jī)構(gòu)公開發(fā)布供研究者和開發(fā)者使用的數(shù)據(jù),通常包括多個領(lǐng)域和類型的數(shù)據(jù),例如圖像、文本、音頻等。常見的開放數(shù)據(jù)集包括ImageNet、COCO、OpenAIGPT等。該類數(shù)據(jù)集通常經(jīng)過專業(yè)人員篩選、清洗、標(biāo)注和預(yù)處理,具有較高的質(zhì)量和可用性。(3)交換共享是指利用數(shù)據(jù)交換服務(wù)的模式,與開放數(shù)據(jù)不同,交換共享通常提供更多的功能和服務(wù),與數(shù)據(jù)提供者進(jìn)行合作獲取。例如Kaggle、UCIMachineLearningRepository等。此類平臺可以讓用戶上傳、分享、獲取數(shù)據(jù)集,并提供相關(guān)的工具和資源,方便用戶進(jìn)行研究和開發(fā)。2.服務(wù)商數(shù)據(jù)為AI大模型提供定制化的數(shù)據(jù)服務(wù)數(shù)據(jù)服務(wù)商通常會具有大量的數(shù)據(jù)資源和技術(shù)實力,能提供高質(zhì)量、多樣化的數(shù)據(jù)服務(wù)。通過與數(shù)據(jù)服務(wù)商合作,可以獲得符合自身需求和標(biāo)準(zhǔn)的數(shù)據(jù)集,避免大模型去處理數(shù)據(jù)的復(fù)雜性和不確定性。數(shù)據(jù)服務(wù)商通常會經(jīng)過專業(yè)的篩選、清洗、標(biāo)注和預(yù)處理等操作,保證數(shù)據(jù)集的質(zhì)量和可用性。根據(jù)需求快速提供符合要求的數(shù)據(jù)集,縮短獲取數(shù)據(jù)的時間和成本,同時緩解數(shù)據(jù)處理的工作量。提供合規(guī)、安全的數(shù)據(jù)服務(wù),避免違反相關(guān)法律法規(guī)和道德準(zhǔn)則,保護(hù)數(shù)據(jù)隱私和權(quán)益。3.自有數(shù)據(jù)是打造垂直領(lǐng)域AI大模型的核心資源自有數(shù)據(jù)指的是機(jī)構(gòu)或企業(yè)擁有自己收集、積累和維護(hù)的數(shù)據(jù)集。現(xiàn)有企業(yè)會通過自身軟件,利用多種途徑對用戶畫像進(jìn)行描述,實現(xiàn)用戶數(shù)據(jù)的精準(zhǔn)收集,該類數(shù)據(jù)具有很強(qiáng)的目標(biāo)導(dǎo)向,側(cè)重于某一屬性,某一行業(yè),某一特征的深層次收集。在我們生活過程中,幾乎所有的互聯(lián)網(wǎng)軟件都需要用戶開放數(shù)據(jù)權(quán)限,否則無法使用全部功能。用戶的每一項操作行為、每一次數(shù)據(jù)的輸入,都可能會被用于大模型學(xué)習(xí),從而進(jìn)一步優(yōu)化自身參數(shù)。眾多企業(yè)的推薦算法就是基于用戶的每一個行為以及每一特征屬性的分析,實現(xiàn)信息的精準(zhǔn)投喂。02AI大模型的數(shù)據(jù)安全問題伴隨著各國政府對于ChatGPT等AI大模型的謹(jǐn)慎態(tài)度以及各項數(shù)據(jù)管理法規(guī)的出臺,數(shù)據(jù)隱私與安全得到越來越多的關(guān)注,用戶在逐漸認(rèn)識到數(shù)據(jù)所蘊含的巨大潛力和價值。1.用戶難以控制數(shù)據(jù)在AI大模型的具體使用權(quán)傳統(tǒng)互聯(lián)網(wǎng)模式,數(shù)據(jù)主要存儲在互聯(lián)網(wǎng)公司的云端,在用戶使用App服務(wù)之前,企業(yè)強(qiáng)制用戶同意隱私政策條約,導(dǎo)致用戶很難掌握數(shù)據(jù)所有權(quán);缺乏有效的權(quán)力追蹤手段,所有用戶數(shù)據(jù)掌控在互聯(lián)網(wǎng)公司手中,無論他們?nèi)绾温暶鞑粫孤稊?shù)據(jù),不泄露數(shù)據(jù)不代表我們享有所有權(quán)。越來越多的智能服務(wù)背后離不開來自于互聯(lián)網(wǎng)公司AI機(jī)器人利用個人隱私數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)的結(jié)果,這個過程中,用戶是被動的,利益上存在受損的嫌疑。2.AI大模型生成數(shù)據(jù)缺乏合理的權(quán)益分配機(jī)制AI大模型作為一種生產(chǎn)工具,為人類社會帶來生產(chǎn)力提升和生產(chǎn)關(guān)系突變。在降低計算機(jī)交互門檻的同時也為人類提高了重復(fù)性生產(chǎn)的效率,隨之帶來的巨大生產(chǎn)力增量分配,需要在大模型擁有者,數(shù)據(jù)擁有者之間進(jìn)行再次分配。由于AI和大數(shù)據(jù)技術(shù)在很大程度上是中心化的,通常由少數(shù)大型公司或組織掌控,而用戶數(shù)據(jù)作為AI大模型訓(xùn)練數(shù)據(jù)的重要主體,在權(quán)益分配中處理絕對劣勢,缺乏決定市場走向和用戶行為的權(quán)力,因此難以獲取應(yīng)得的權(quán)益。03基于區(qū)塊鏈的AI大模型數(shù)據(jù)安全策略用戶在體驗AI服務(wù)時,也面臨數(shù)據(jù)違規(guī)、數(shù)據(jù)泄露以及數(shù)據(jù)濫用的風(fēng)險。區(qū)塊鏈作為去中心的信任機(jī)器,能有效實現(xiàn)AI大模型的數(shù)據(jù)確權(quán)、數(shù)據(jù)安全和隱私保護(hù)。1.區(qū)塊鏈通過智能合約與隱私計算完成數(shù)據(jù)使用權(quán)的鎖定作為Web3時代的代表性技術(shù),區(qū)塊鏈的去中心化賬本機(jī)制具有安全加密、不可篡改、來源可溯的特點。傳統(tǒng)互聯(lián)網(wǎng)中的用戶數(shù)據(jù),能夠通過區(qū)塊鏈技術(shù)將數(shù)據(jù)所有權(quán)歸還于用戶,而AI大模型所需要的用戶數(shù)據(jù),可以由用戶向AI大模型授權(quán)完成,數(shù)據(jù)使用模式,周期以及費用可以在區(qū)塊鏈上完成認(rèn)證與結(jié)算。2.區(qū)塊鏈重構(gòu)數(shù)據(jù)權(quán)益關(guān)系實現(xiàn)AI大模型價值再分配區(qū)塊鏈讓用戶自主選擇是否將自己的數(shù)據(jù)提供給AI模型訓(xùn)練,讓AI大模型數(shù)據(jù)收集、流轉(zhuǎn)、存儲和分享的過程集中在去中心化功能節(jié)點上,實現(xiàn)訓(xùn)練數(shù)據(jù)安全和可用性,確保數(shù)據(jù)的可追溯、可信任以及可回溯。并對數(shù)據(jù)來源確權(quán),在AI大模型應(yīng)用在獲取收益時,依據(jù)所涉及的訓(xùn)練數(shù)據(jù)權(quán)重,將部分收益分給到數(shù)據(jù)所有人,保證數(shù)據(jù)提供者的合法權(quán)益。3.區(qū)塊鏈再造AI大模型訓(xùn)練模式優(yōu)化AIGC產(chǎn)業(yè)生態(tài)AI大模型訓(xùn)練對于算力、數(shù)據(jù)的高強(qiáng)度要求是大模型生態(tài)發(fā)展無法逃避的問題。傳統(tǒng)互聯(lián)網(wǎng)企業(yè)依靠Web2.0時代的原始積累,在AI大模型競爭中處于絕對領(lǐng)先。區(qū)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論