生成式人工智能模型訓練階段的個人信息保護問題_第1頁
生成式人工智能模型訓練階段的個人信息保護問題_第2頁
生成式人工智能模型訓練階段的個人信息保護問題_第3頁
生成式人工智能模型訓練階段的個人信息保護問題_第4頁
免費預覽已結(jié)束,剩余2頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

生成式人工智能模型訓練階段的個人信息保護問題生成式人工智能(GenerativeAI,下稱“生成式AI”)訓練階段的面臨諸多法律風險,其中,在訓練階段的數(shù)據(jù)收集和處理過程中引發(fā)的個人信息保護問題尤為值得關(guān)注。模型訓練階段的個人信息保護問題集中涉及來源的合法性、深度處理引發(fā)的敏感信息識別與保護、數(shù)據(jù)泄露以及在個人信息跨境流動場景下的合規(guī)問題。由此衍生出了諸多治理路徑來對上述問題進行規(guī)制,如進行數(shù)據(jù)分類分級,聚焦訓練數(shù)據(jù)透明度、引入“監(jiān)管沙箱”制度等。

本文詳細梳理前述問題和治理路徑,以期為合理構(gòu)建生成式AI訓練數(shù)據(jù)的個人信息保護體系提供可行性思路。

一、問題的提出如今,以ChatGPT為代表的生成式AI的快速發(fā)展,已為全球經(jīng)濟的高質(zhì)量發(fā)展注入新動能,正逐步改變著人們的生活和生產(chǎn)方式。但在新技術(shù)帶來生產(chǎn)力提升的同時,還要考慮到數(shù)據(jù)在流通過程中的保護、安全與合規(guī)發(fā)展,以及AI開發(fā)和使用過程中的風險規(guī)制。生成式AI模型訓練通常需要巨量且高質(zhì)量的數(shù)據(jù),這些數(shù)據(jù)往往包含大量個人信息,這便引起社會公眾及政策制定者對生成式AI在收集和使用數(shù)據(jù)過程中對個人信息保護的擔憂。甚至在實踐中引發(fā)大量相關(guān)訴訟。僅2023年一年,美國就發(fā)生了十多起AI大模型訓練司法訴訟案件,例如,在一起集體訴訟案件中,原告在起訴狀中明確指控OpenAI的網(wǎng)絡(luò)抓取工具侵犯了個人信息,并通過盜用個人信息并納入OpenAI產(chǎn)品的方式侵犯了個人的財產(chǎn)權(quán)和隱私權(quán)。隨著生成式AI在日常生活中扮演愈發(fā)重要的角色,有效解決AI模型訓練帶來的個人信息保護風險至關(guān)重要。然而,在理論研究中,現(xiàn)有成果卻較少涉及模型訓練過程的個人信息保護問題,這與訓練數(shù)據(jù)在生成式AI中的重要地位不相適應(yīng)。在實踐中,各國政策制定者和AI開發(fā)者對模型訓練的規(guī)制既要重視個體權(quán)益的保護,又不能抑制新興技術(shù)的發(fā)展與應(yīng)用,充滿復雜性和挑戰(zhàn)性。二、生成式AI模型訓練階段的個人信息保護問題生成式AI生成較為準確且完成度較高的結(jié)論依賴在模型訓練過程中對數(shù)據(jù)進行加工,這就意味著海量的高質(zhì)量數(shù)據(jù)是生成式AI得以高質(zhì)量有效運行的必備養(yǎng)料。在這種處理模式下的個人信息如同“砧板上的肥肉”一樣為無數(shù)AI系統(tǒng)所覬覦,但缺乏科學合理且行之有效的法律保護措施,從而導致個人信息被違規(guī)利用。2.1來源合法性海量的高質(zhì)量數(shù)據(jù)是生成式AI模型訓練的必備能源和養(yǎng)料。一個高質(zhì)量的數(shù)據(jù)集需滿足四個基本標準:數(shù)據(jù)集必須足夠龐大以涵蓋問題的多次迭代、數(shù)據(jù)必須有明確的標簽和注釋、數(shù)據(jù)必須具有代表性和公正性、數(shù)據(jù)必須符合隱私法規(guī)。因此,數(shù)據(jù)來源的合法性是模型訓練的合規(guī)基石。《生成式人工智能服務(wù)管理暫行辦法》第7條規(guī)定,生成式AI訓練數(shù)據(jù)應(yīng)當使用具有合法來源的數(shù)據(jù)。從行業(yè)實踐的情況看,生成式AI訓練數(shù)據(jù)的來源渠道多樣,不但有自有數(shù)據(jù),還包含了抓取的公開數(shù)據(jù)、購買的第三方數(shù)據(jù)集以及合成數(shù)據(jù)等。然而,這些方式獲取的數(shù)據(jù)集充斥著不當許可的數(shù)據(jù),極易引發(fā)正當使用的爭議。例如OpenAI就利用Reedit鏈接等爬蟲技術(shù)抓取維基百科等網(wǎng)頁的公開數(shù)據(jù)為ChatGPT進行訓練。這一方式極易逾越數(shù)據(jù)安全保護的紅線,造成個人信息保護問題。一方面,在利用爬蟲技術(shù)收集數(shù)據(jù)的過程中很難符合“知情同意原則”、“最小化原則”等規(guī)定。如:我國《個人信息保護法》(以下簡稱“《個保法》”)第6條規(guī)定了個人信息處理活動應(yīng)當遵循的最小化原則;第13條規(guī)定處理個人信息的7種情形,除去個人信息主體明確同意的前置性條件之外其余均為嚴格的法定豁免情形?!渡墒饺斯ぶ悄芊?wù)安全基本要求》第5條也規(guī)定了模型訓練在個人信息方面規(guī)定:在使用包含個人信息的語料前,應(yīng)取得對應(yīng)個人同意;在使用包含敏感個人信息的語料前,應(yīng)取得對應(yīng)個人單獨同意。歐盟的《通用數(shù)據(jù)保護條例》(下稱“GDPR”)第5條和第6條也規(guī)定了個人數(shù)據(jù)的使用必須遵循合法性和最小化原則。根據(jù)OpenAI官網(wǎng)的表述,若用戶不同意輸入其個人信息作為訓練數(shù)據(jù)庫,可以根據(jù)《使用條款》的相關(guān)規(guī)定,通過郵件發(fā)送的方式進行拒絕授權(quán)。從表述上來看OpenAI似乎在個人信息的使用中采取了一種選擇退出的機制,但是實際上若輸入信息中包含個人信息,默認的選擇退出機制并不符合個人信息保護相關(guān)法規(guī)中的知情同意要求。另一方面,如果在爬取數(shù)據(jù)的過程中故意通過技術(shù)手段繞過或者突破技術(shù)保護措施,就會侵犯用戶個人信息安全。2023年6月,美國公益律師事務(wù)所(ClarksonLawFirm)代表匿名客戶在加州聯(lián)邦法院對OpenAI公司提起了一起集體訴訟,指控內(nèi)容便是OpenAI在未經(jīng)用戶同意的情況下非法收集和使用大量個人信息。此階段對個人信息的收集幾乎完全脫離了《個保法》基本的“告知同意”原則,導致法律規(guī)定在此階段幾乎失去了約束力。2.2深度處理引發(fā)的敏感信息保護問題ChatGPT對個人信息的利用所依賴的神經(jīng)卷積模型相較于傳統(tǒng)算法模型而言更加復雜,對于各種要素的分析也更加深入,深度神經(jīng)網(wǎng)絡(luò)會發(fā)掘出個人信息中潛藏的信息。因此,生成式AI在模型訓練過程中會將收集到的個人信息進行匯聚或融合,以提高其生成內(nèi)容的質(zhì)量和準確性。但個人信息匯聚或融合后的整體屬性存在潛在的敏感性風險,即使單獨來看某些個人信息并不敏感。例如,AI開發(fā)者收集了用戶的購物歷史記錄,這些數(shù)據(jù)單獨來看并不敏感,因為它僅顯示了用戶購買的商品記錄。然而,當這些購買記錄與其他數(shù)據(jù)(如購買頻率、特定種類商品的偏好)結(jié)合時,可能透露出用戶的敏感信息,如健康狀況。如果用戶購買了多次醫(yī)療設(shè)備或藥品(如血壓計、降血糖藥等),結(jié)合購買日期和頻率,就可能推斷出用戶存在高血壓、糖尿病等健康問題。全國網(wǎng)絡(luò)安全標準化技術(shù)委員會于2024年9月18日發(fā)布的《網(wǎng)絡(luò)安全標準實踐指南——敏感個人信息識別指南》規(guī)定了敏感個人信息的識別規(guī)則,既要考慮單項敏感個人信息的識別,也要考慮多項一般個人信息匯聚或融合后的整體屬性?!秱€保法》第28條規(guī)定了敏感個人信息的范圍以及只有在具有特定的目的和充分的必要性,并采取嚴格保護措施的情形下,個人信息處理者方可處理敏感個人信息;第29條規(guī)定了處理敏感個人信息應(yīng)當取得個人的單獨同意,但實踐中,模型訓練卻難以滿足這些要求。此外,由于生成式AI的強大分析能力,即使是碎片化不完整的信息,也有可能被ChatGPT進行標簽化重組與其他類似數(shù)據(jù)一起進行深度挖掘,進而推斷出敏感信息。2.3“算法黑箱”技術(shù)引發(fā)個人信息不透明生成式AI采用自然語言處理技術(shù)對獲取的數(shù)據(jù)進行模型訓練,運用超高強度的算力挖掘數(shù)據(jù)中存在的統(tǒng)計規(guī)律以實現(xiàn)深度學習。這種技術(shù)的運用使AI模型可以利用互聯(lián)網(wǎng)上幾乎所有的無人工標注數(shù)據(jù)進行訓練,實現(xiàn)無監(jiān)督學習,極大地降低了訓練成本,提高了計算機自然語言學習的成效。但這種自然語言統(tǒng)計規(guī)律卻保存在數(shù)以千億計的模型參數(shù)中,并非如硬盤中存儲的數(shù)據(jù)被人所確知。這就導致了不但普羅大眾無法知悉人工智能運行的內(nèi)在邏輯和過程,甚至連開發(fā)者也無法詳細了解模型到底掌握了何種自然語言統(tǒng)計規(guī)律。這一不公開、不透明的算法運行過程便是“算法黑箱”。生成式AI模型訓練過程中對個人信息的處理也同樣被置于“算法黑箱”之中,難以窺探其中“奧妙”。各國數(shù)據(jù)保護法律幾乎都規(guī)定了數(shù)據(jù)處理的透明度要求,如《個保法》第7、24條規(guī)定了個人信息處理應(yīng)當遵循公開透明原則。但這種“算法黑箱”卻導致個人信息處理顯著缺乏透明度,難以辨析模型訓練時使用的個人信息的權(quán)利狀態(tài)與隱私風險。這就導致個人信息處理的公開透明原則無法嚴格貫徹,嚴重侵害用戶的知情權(quán)。此外,既然連開發(fā)者也無法了解“算法黑箱”中個人信息是如何被處理的,那么就更無法向用戶進行詳細告知,也難以遵守個人信息處理的知情同意規(guī)則。并且生成式AI大模型具備“涌現(xiàn)”特性,即系統(tǒng)中的定量變化導致行為質(zhì)變。涌現(xiàn)的一個重要特征是“不可解釋性”,即無法通過任何構(gòu)成或共存規(guī)律從更簡單的情形中推導出來,數(shù)據(jù)處理的中間業(yè)態(tài)也就幾乎無法進行回溯。因此,模型訓練有可能進一步降低問責制,難以對個人信息主體權(quán)益進行有效保護。2.4個人信息泄露由于生成式AI模型訓練過程中需要不斷收集訓練數(shù)據(jù),因而會自動將爬取的數(shù)據(jù)和用戶信息存儲起來,這就存在多方面的數(shù)據(jù)泄露風險。第一,開發(fā)者并未向用戶提供檢查訓練數(shù)據(jù)及其個人信息存儲庫的方式,也未對用戶個人信息的存儲期限以及具體保護措施進行詳細的說明。雖然各國法律對開發(fā)者收集和存儲數(shù)據(jù)提出了限制性要求,如《個保法》第17條規(guī)定個人信息并非可以無限期地保留,其存儲時間應(yīng)當受到限制。但在實踐中,開發(fā)者這種對信息存儲期限的做法十分模糊,顯然不利于用戶的個人信息權(quán)益的保護。第二,開發(fā)者或掌握數(shù)據(jù)訪問權(quán)限的人員可能在威逼利誘下將存儲的個人信息非法轉(zhuǎn)讓給第三方,增加了個人信息泄露的風險。第三,前文闡述到,在模型訓練過程中,生成式AI通過深度學習對個人信息過度挖掘,使得去標識化的個人信息甚至匿名化信息被重新識別,也可能造成個人信息的泄露。最后,黑客攻擊也會導致極為慘重的數(shù)據(jù)集泄露。黑客通過植入污染數(shù)據(jù)來操縱訓練數(shù)據(jù)集,或通過模型反轉(zhuǎn)獲取和重新識別訓練數(shù)據(jù)的方式反向攻擊(AIInversionAttck)模型,侵犯用戶的合法權(quán)益。此外,生成式AI展現(xiàn)出來的強大能力會使得用戶將越來越多地與它們建立關(guān)系,并逐漸信任它們。用戶在與其互動的過程中可能會被誘導收集個人信息或其他資料,存在泄露個人信息的風險。2.5個人信息跨境流動風險生成式AI模型訓練一方面需要多樣化和大規(guī)模的數(shù)據(jù),另一方面需要強大的算力作為支撐,從而提升模型生成內(nèi)容的質(zhì)量和多樣性。兩種要求衍生出不同的數(shù)據(jù)出境場景,從而產(chǎn)生不同的個人信息保護風險。場景一:海量數(shù)據(jù)需求伴生個人信息出境生成式AI模型通常需要從多元化的語言、文化和行為模式中汲取數(shù)據(jù),以便模型在生成內(nèi)容時能夠具備更廣泛的適應(yīng)性和實用性。這些數(shù)據(jù)往往跨越多個國家和地區(qū),因此需要通過數(shù)據(jù)跨境傳輸來匯集全球化的數(shù)據(jù)資源。然而,這種跨國數(shù)據(jù)收集和使用行為會觸發(fā)多國數(shù)據(jù)保護法的適用,引發(fā)合規(guī)風險。如,根據(jù)GDPR的規(guī)定,個人信息的跨境傳輸只能在確保接收國具備足夠的數(shù)據(jù)保護水平或簽訂了標準合同條款的前提下進行。我國《個保法》也對個人信息的出境設(shè)定了嚴格的條件,包括申請個人信息保護認證或簽訂個人信息出境標準合同并完成備案等。這些法律差異可能導致跨境傳輸過程中的不一致性,增加了法律風險。場景二:跨境調(diào)用算力或算法模型導致數(shù)據(jù)出境生成式AI模型訓練需要強大的算力作為支撐。但是,許多國家生成式AI產(chǎn)業(yè)鏈的基礎(chǔ)設(shè)施層仍待完善,境內(nèi)開發(fā)者可能存在算力不足以及AI算法和模型落后的問題。在該種情況下,不少開發(fā)者在探討跨境調(diào)用境外算力或算法模型的可能性。如跨境調(diào)用境外算力,則其收集的訓練數(shù)據(jù)將會被傳輸至境外進行訓練,相關(guān)訓練數(shù)據(jù)和搭建后的模型亦可能被存儲至境外數(shù)據(jù)中心,從而引發(fā)數(shù)據(jù)跨境相關(guān)風險。三、治理路徑探析3.1進行數(shù)據(jù)分類分級歐盟《人工智能法案》依據(jù)風險等級對AI系統(tǒng)進行分類分級監(jiān)管。該法案將AI應(yīng)用劃分為最小風險、有限風險、高風險和不可接受的風險四個等級,并制定了對應(yīng)的監(jiān)管要求。根據(jù)法案第三章第10條的規(guī)定,對于風險較高的生成式AI應(yīng)用,不僅需要滿足更為嚴格的數(shù)據(jù)保護要求,包括滿足有關(guān)透明度、數(shù)據(jù)質(zhì)量、記錄保存、人工監(jiān)督和穩(wěn)健性的具體要求。還要求這類應(yīng)用進行定期的風險評估。如要求高風險AI系統(tǒng)的開發(fā)者記錄數(shù)據(jù)處理使用的全流程,審查數(shù)據(jù)來源。GDPR也實施了嚴格的個人數(shù)據(jù)分類分級保護。根據(jù)GDPR,個人數(shù)據(jù)被分為一般數(shù)據(jù)和特殊類別數(shù)據(jù),后者包括種族、宗教、健康、性取向等敏感信息。在生成式AI模型訓練過程中,處理這些特殊類別數(shù)據(jù)時,開發(fā)者需獲得用戶的明確同意,并提供額外的保護措施,如數(shù)據(jù)最小化、匿名化等。盡管美國缺乏統(tǒng)一的聯(lián)邦數(shù)據(jù)保護法,但不少州通過州一級的立法形成了對不同類別數(shù)據(jù)分別進行規(guī)制的制度框架,體現(xiàn)了分類分級保護的理念。如加利福尼亞州,通過《加利福尼亞消費者隱私法案》規(guī)定了個人數(shù)據(jù)的分類分級和保護。該法案要求企業(yè)對收集到的用戶數(shù)據(jù)進行分類,特別是對敏感個人信息進行嚴格保護。生成式AI在處理數(shù)據(jù)時,必須告知用戶其信息的用途,并為用戶提供刪除或限制數(shù)據(jù)使用的權(quán)利。在生成式AI模型的訓練階段,雖然企業(yè)采用數(shù)據(jù)分類分級來保護個人信息是一種有效的策略,但在實際應(yīng)用中面臨著一些問題和阻礙。如不同的領(lǐng)域和行業(yè)對數(shù)據(jù)分類分級的標準各不相同,增加了統(tǒng)一分類和分級標準的難度;自動化工具的局限性使得數(shù)據(jù)分類分級過程中存在誤分類的風險;對數(shù)據(jù)過度去標識化可能會削弱模型的訓練效果等。這些問題亟需在實踐中進一步研究與解決。3.2引入監(jiān)管沙箱制度“監(jiān)管沙箱”制度是指一個“安全空間”,企業(yè)可以在其中測試創(chuàng)新性的產(chǎn)品、服務(wù)、商業(yè)模式和交付機制,不會因從事相關(guān)活動而立即受到通常的監(jiān)管后果。該制度于2015年由英國金融行為監(jiān)管局提出,最早應(yīng)用在金融科技領(lǐng)域,是監(jiān)管機構(gòu)支持金融創(chuàng)新的一種重要制度嘗試。隨后,新加坡、澳大利亞、美國等國陸續(xù)在金融科技監(jiān)管領(lǐng)域開展類似試點。將該制度應(yīng)用在AI領(lǐng)域是一項創(chuàng)新之舉,具體是指AI開發(fā)者在產(chǎn)品投放市場之前,在一個可控、安全的環(huán)境中使用真實的或模擬的數(shù)據(jù)集來實驗新技術(shù)或解決方案。對于監(jiān)管機構(gòu)、生成式AI開發(fā)者及使用者而言,通過構(gòu)建“監(jiān)管沙箱”可以更好地觀察和應(yīng)對生成式AI所帶來的風險。歐盟《人工智能法案》將AI監(jiān)管沙箱設(shè)定為各成員國強制義務(wù),以減輕企業(yè)監(jiān)管負擔。建立沙箱數(shù)據(jù)集的統(tǒng)一標準,建設(shè)沙箱傳輸、整合、共享數(shù)據(jù)的平臺,實現(xiàn)數(shù)據(jù)互聯(lián)與共享,強化信息披露等。通過完善的技術(shù)安全保障措施降低數(shù)據(jù)安全隱患,確保數(shù)據(jù)存儲、加工和交付的安全。因此,“監(jiān)管沙箱”便成為數(shù)字化轉(zhuǎn)型中的主要規(guī)制工具。歐盟《人工智能法案》便將“監(jiān)管沙箱”作為規(guī)制學習和創(chuàng)建“靈活、有利于創(chuàng)新、面向未來、以證據(jù)為基礎(chǔ)、有彈性的規(guī)制框架”的工具,以應(yīng)對AI的顛覆性挑戰(zhàn)。英國信息專員辦公室(InformationCommissioner'sOffice,下稱“ICO”)在《關(guān)于數(shù)據(jù)保護法應(yīng)如何適用于生成式人工智能模型的開發(fā)和使用的征求意見中》也明確AI開發(fā)者可以通過“監(jiān)管沙箱”獲得ICO的建議和支持。伴隨著各國對“監(jiān)管沙箱”的理解不斷深入,AI領(lǐng)域“監(jiān)管沙箱”制度的實踐探索也逐步豐富,許多國家正在帶頭開發(fā)試點。相關(guān)實踐內(nèi)容參見下表:表:主要國家AI“監(jiān)管沙箱”試點概況國家開始時間內(nèi)容

挪威

2020年挪威數(shù)據(jù)保護局在個人信息保護中推出了一個監(jiān)管沙箱,旨在促進AI領(lǐng)域創(chuàng)新的同時保護用戶隱私

法國

2020年由教育行業(yè)的5家企業(yè)參與測試AI系統(tǒng),法國數(shù)據(jù)保護當局在監(jiān)測、評估風險的同時,為參與企業(yè)提供技術(shù)和人力支持

韓國

2019年韓國科技部、貿(mào)易、工業(yè)和能源部以及中小企業(yè)和初創(chuàng)企業(yè)部建立監(jiān)管沙箱,為AI企業(yè)提供有時間限制的監(jiān)管豁免,以測試創(chuàng)新產(chǎn)品、服務(wù)和商業(yè)模式。沙盒還根據(jù)實際數(shù)據(jù)為政府法規(guī)提供信息德國2015年德國的AI戰(zhàn)略計劃建立AI生活實驗室和試驗平臺,如

A9

高速公路生活實驗室,創(chuàng)建新的實驗條款作為監(jiān)管沙箱的法律基礎(chǔ),并創(chuàng)建監(jiān)管沙箱網(wǎng)絡(luò)以及提供監(jiān)管沙箱手冊。促進企業(yè)在自動駕駛領(lǐng)域的創(chuàng)新,并讓政府確定所需的監(jiān)管改革瑞士2022年由無人駕駛農(nóng)機、無人機、機器翻譯、作業(yè)糾錯和停車調(diào)度等領(lǐng)域的5家企業(yè)參與測試研發(fā)AI系統(tǒng)西班牙2023年測試在生物識別、關(guān)鍵基礎(chǔ)設(shè)施和教育培訓等8個領(lǐng)域中的高風險AI系統(tǒng)雖然引入“監(jiān)管沙箱”制度對AI的創(chuàng)新和發(fā)展有著諸多好處,如平衡創(chuàng)新與安全、創(chuàng)設(shè)靈活監(jiān)管、減輕監(jiān)管負擔等,但仍存在一定局限性,如沙箱侵權(quán)責任減免事由缺失、相關(guān)激勵措施有待規(guī)范,以及對數(shù)據(jù)利用的相關(guān)規(guī)定不完善等。這些問題的解決丞需政府、學術(shù)界和產(chǎn)業(yè)界的共同努力。3.3聚焦提升訓練數(shù)據(jù)透明度針對生成式AI訓練階段的個人信息保護問題,許多國家和地區(qū)聚焦訓練數(shù)據(jù)透明度的提升。數(shù)據(jù)的透明度通常指指的是指開發(fā)者在收集、使用和處理數(shù)據(jù)時,向用戶清晰、公開地說明其數(shù)據(jù)處理的目的、方式、范圍和用戶權(quán)利,從而增強用戶對數(shù)據(jù)處理過程的信任,并確保他們能夠更好地掌握自己的個人信息。新加坡《生成式人工智能治理模型框架》明確生成式AI訓練內(nèi)容來源的透明度可為最終用戶提供有用的信號,從而確保用戶能夠了解數(shù)據(jù)的來源和使用方式。實踐中,新加坡在“國家AI戰(zhàn)略”中推出AI治理測試框架和軟件工具包——AIVerify,其中,向個人披露AI在技術(shù)系統(tǒng)中的使用情況便是AIVerify測試框架下的支柱之一,通過文件證據(jù)(例如公司政策和溝通材料)的流程檢查進行評估,為可能受AI系統(tǒng)影響的個人提供適當?shù)男畔?。AIVerify提供的透明性報告能夠幫助開發(fā)者和監(jiān)管者深入了解數(shù)據(jù)的處理方式,并確保生成式AI模型在使用數(shù)據(jù)時是透明的。歐盟委員會《人工智能和數(shù)據(jù)保護指南》認為,盡管模型訓練階段必然需要大型數(shù)據(jù)集,但應(yīng)采用一種設(shè)計范式,嚴格評估所使用數(shù)據(jù)的性質(zhì)和數(shù)量,減少冗余或邊緣數(shù)據(jù),逐漸增加訓練集的規(guī)模。英國也建議提升訓練數(shù)據(jù)方面的信息透明度,例如:在《創(chuàng)新友好的人工智能監(jiān)管(2023)》中建議提升訓練數(shù)據(jù)方面的信息透明度,在合理透明度和可解釋性原則方面,希望監(jiān)管者對AI生命周期中的相關(guān)主體設(shè)置期待—積極提供其使用的數(shù)據(jù)以及訓練數(shù)據(jù)方面的信息。在產(chǎn)業(yè)層面,生成式AI開發(fā)者在實踐中也極為關(guān)注訓練數(shù)據(jù)透明度的提升。GoogleAI定期發(fā)布隱私和安全透明度報告,向公眾展示其數(shù)據(jù)保護的措施和技術(shù),包括生成式AI訓練中如何應(yīng)用隱私保護技術(shù)。Apple不僅通過隱私透明度報告展示其數(shù)據(jù)保護措施,還為用戶提供了細粒度的隱私控制選項。用戶可以選擇是否參與模型訓練和數(shù)據(jù)收集,并能查看和刪除相關(guān)數(shù)據(jù)。這些產(chǎn)業(yè)實踐不僅增強了用戶對生成式AI的信任,也為未來的技術(shù)可持續(xù)發(fā)展提供了穩(wěn)固的基礎(chǔ)。3.4采用嚴格的測試和評估措施為了確保生成式AI在模型訓練過程中對個人信息的保護符合法律要求,多個國家采取了嚴格的測試和評估措施,確保生成式AI的開發(fā)者和使用者能夠有效保護個人信息,并符合數(shù)據(jù)保護法律的要求。當前,不少國家和地區(qū)已經(jīng)采用或正在推動紅隊測試(RedTeaming)作為生成式AI模型訓練過程中的個人信息保護的手段。紅隊測試是網(wǎng)絡(luò)安全領(lǐng)域的一種常見測試方法,旨在模擬惡意攻擊者對系統(tǒng)、網(wǎng)絡(luò)或應(yīng)用進行攻擊,識別潛在的漏洞和安全風險在生成式AI領(lǐng)域,紅隊測試通常由一個專門的“紅隊”負責,測試模型的邊界以及在各種領(lǐng)域生成不良輸出的潛力。通過模擬攻擊行為,紅隊測試能夠有效評估AI系統(tǒng)在處理和保護個人數(shù)據(jù)方面的能力,并幫助提高模型的整體安全性。美國總統(tǒng)拜登于2023年10月30日簽署頒布的《關(guān)于安全、可靠、可信地開發(fā)和使用人工智能的行政命令》(ExecutiveOrderontheSafe,Secure,andTrustworthyDevelopmentandUseofArtificialIntelligence)強調(diào)了AI紅隊測試的必要性。該命令將“AI紅隊測試”定義為一種“結(jié)構(gòu)化的測試活動,旨在發(fā)現(xiàn)AI系統(tǒng)中的缺陷和漏洞”,通常由專門的“紅隊”通過對抗性方法進行。歐盟也將紅隊測試作為其AI監(jiān)管方法的核心。歐盟于2024年初通過的《人工智能法》要求“具有系統(tǒng)性風險的通用AI模型”在其生命周期內(nèi)進行嚴格的紅隊測試或“對抗性測試”。新加坡推出的AIVerify治理測試框架規(guī)定了通過第三方測試提供外部驗證和增加信任。韓國個人信息保護委員會(PIPC)發(fā)布的《關(guān)于處理公開數(shù)據(jù)以開發(fā)和服務(wù)AI的指南》在管理和組織防護措施中考慮運行AI隱私紅隊。英國ICO在“生成式人工智能和數(shù)據(jù)保護”咨詢中提出了合法利益評估標準,為生成式AI抓取個人數(shù)據(jù)進行模型訓練提供了合法依據(jù)。明確AI開發(fā)者應(yīng)進行三步測試:一是目的性測試,即處理目的是否合法。二是必要性測試,即個人信息處理活動對于目的而言是必需的。三是平衡測試,AI開發(fā)者所追求的利益沒有被用戶的優(yōu)先性權(quán)利或基本權(quán)利與自由推翻。綜上所述,多個國家和地區(qū)通過測試確保生成式AI模型訓練過程中的個人信息保護。這些機制不僅幫助生成式AI開發(fā)者確保其技術(shù)合規(guī),還加強了個人信息在模型訓練過程中的安全性,提升數(shù)據(jù)保護能力。四、思考與展望當前,生成式AI通過將海量數(shù)據(jù)與先進的智能算法注入各行各業(yè),不僅極大地提高了生

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論