大模型治理藍皮報告（2023年）-從規(guī)則走向實踐

上傳人：中*** IP屬地：廣東上傳時間：2024-04-12 格式：DOC 頁數(shù)：72 大?。?.26MB 積分：25 舉報 版權申訴

已閱讀5頁，還剩67頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

z大模型治理藍皮報告——從規(guī)則走向實踐（2023年）中國信息通信研究院政策與經(jīng)濟研究所中國科學院計算技術研究所智能算法安全重點實驗室2023年11月前言近一年來，以ChatGPT為代表的大模型技術引發(fā)通用人工智能新一輪發(fā)展熱潮，在帶動大規(guī)模產(chǎn)業(yè)升級、勞動力轉移、產(chǎn)品的分配機制等方面均帶來深刻變革，成為改變世界競爭格局的重要力量。與此同時，圍繞人工智能治理的議題探討顯著增多，全球人工智能治理體系加速構建。黨中央國務院高度重視人工智能治理工作，作出一系列重要部署。習近平總書記強調，要共同做好風險防范，形成具有廣泛共識的人工智能治理框架和標準規(guī)范，不斷提升人工智能技術的安全性、可靠性、可控性、公平性。尋找大模型治理的準確定位，構建適應技術發(fā)展趨勢的治理體系愈加重要且迫切。面對大模型帶來的新問題新挑戰(zhàn)，傳統(tǒng)監(jiān)管模式面臨著AI自主演化控制難、迭代快速跟進難、黑箱遮蔽追責難等問題，一勞永逸的事前監(jiān)管模式已經(jīng)難以應對不斷推陳出新的人工智能發(fā)展需求。從治理框架來看，敏捷治理成為回應大模型技術快速迭代的重要治理模式，軟硬法協(xié)調、多主體協(xié)同的治理需求更為突出。構建高質量數(shù)據(jù)集、創(chuàng)新知識產(chǎn)權制度、探索價值對齊實現(xiàn)方式、維護信息內(nèi)容安全等成為各方關注的熱點問題。美國、歐盟、英國等主要國家和地區(qū)加緊推進人工智能治理布局，共同尋求具有共識和互操作性的治理規(guī)則。我國圍繞人工智能發(fā)展、安全、治理三方面提出《全球人工智能治理倡議》，通過算法備案、評估評測、事后溯源檢測等方式，推動人工智能治理從規(guī)則走向實踐，為全球提供人工智能治理中國方案。希望研究成果為社會各界進一步參與大模型治理實踐提供有益參考。目錄一、大模型治理的重要性緊迫性凸顯 1（一）大模型技術浪潮興起 1（二）大模型引領數(shù)字化變革 3（三）大模型帶來的典型風險 5二、技術變革下大模型治理框架日漸明朗 11（一）治理模式：敏捷治理成為國際較為通行的治理方案 11（二）治理主體：激勵多元主體協(xié)同治理成為全球共識 14（三）治理機制：軟硬兼施推進大模型治理 18三、聚焦大模型治理核心議題規(guī)則 22（一）數(shù)據(jù)治理規(guī)則 23（二）知識產(chǎn)權保護 32（三）倫理問題治理 36（四）信息內(nèi)容治理 40四、把握全球大模型治理最新動態(tài)趨勢 42（一）美國從松散碎片式治理逐步趨向體系化治理 42（二）歐盟繼續(xù)發(fā)揮人工智能治理領域布魯塞爾效應 45（三）英國力圖以促進創(chuàng)新的監(jiān)管方法引領全球治理 49（四）國際組織在大模型治理國際合作中各顯其能 52五、探索我國大模型治理的主要落地工具 55（一）事前備案 55（二）事中全流程評估 57（三）事后溯源檢測 60六、完善我國大模型治理體系的思路建議 63（一）確立促進創(chuàng)新的人工智能敏捷治理理念 64（二）聚焦人工智能場景應用細化制度方案 64（三）立足當前治理實踐創(chuàng)新人工智能治理工具 65（四）激勵企業(yè)積極管控風險以推動平臺合規(guī) 66（五）促進全球人工智能合作治理體系構建 67大模型治理藍皮書—從規(guī)則走向實踐（2023年）一、大模型治理的重要性緊迫性凸顯（一）大模型技術浪潮興起當前，世界人工智能領域科技創(chuàng)新異?；钴S，日益成為改變世界競爭格局的重要力量。一批里程碑意義的前沿成果陸續(xù)突破，以ChatGPT為代表的大模型技術引發(fā)通用人工智能新一輪發(fā)展熱潮。1.對大模型的基本認識大模型（LLM，LargeLanguageModel）指的是具有超大參數(shù)規(guī)模，建立在多頭自注意力機制Transformer架構之上，以深度神經(jīng)網(wǎng)絡為基礎，用海量文本數(shù)據(jù)預訓練而成的語言模型。以ChatGPT為代表的大模型能夠模擬人類的創(chuàng)造性思維，生成具有一定邏輯性和連貫性的語言文本、圖像、音頻等內(nèi)容。大模型基于大數(shù)據(jù)、大算力、多模態(tài)的技術優(yōu)勢，實現(xiàn)從感知世界、理解世界向創(chuàng)造世界的躍遷，推動人類社會加速邁向人機共生的智能社會階段。大模型體現(xiàn)出三方面技術趨勢：一是從決策式AI到生成式AI。決策式AI主要是通過分類回歸對數(shù)據(jù)進行分析，主要應用于圖像識別、推薦系統(tǒng)、決策智能體等領域。生成式AI借助Transformer架構等，具有全局表征能力強、高度并行性、通用性強、可擴展性強等優(yōu)勢，主要應用于內(nèi)容創(chuàng)作、科研、人機交互等領域，實現(xiàn)了從簡單感知到內(nèi)容創(chuàng)造的躍遷。二是從單模態(tài)模型到多模態(tài)模型。多模態(tài)是指通過處理和關聯(lián)來自多種模態(tài)的多源異構數(shù)據(jù)，挖掘分析信息、提高模型能力的學習方法。典型任務是圖像/視頻/語言間的跨模態(tài)預訓練、跨模態(tài)定位等，如給定文本生成一段對應的聲音、圖像/視頻與文本1大模型治理藍皮書—從規(guī)則走向實踐（2023年）的相互檢索或生成等。三是從億級到千億、萬億級參數(shù)的預訓練模型。大模型指的正是模型參數(shù)規(guī)模龐大，大模型參數(shù)規(guī)模從億級發(fā)展到百億、千億級別，并向著更高規(guī)模的參數(shù)探索。例如，GPT-3參數(shù)量達1750億，文心一言參數(shù)規(guī)模為2600億等。隨著參數(shù)規(guī)模的增長，模型能力也得到顯著提升。2.大模型的變革影響（1）內(nèi)容生產(chǎn)方式的“顛覆者”大模型實現(xiàn)了高質量、高效率、多樣化的內(nèi)容生產(chǎn)，成為推動內(nèi)容生產(chǎn)方式變革的重要力量。一是信息內(nèi)容生產(chǎn)主體發(fā)生顯著變革。人工智能在信息收集、篩選和整合、推理的全過程都能替代人力，極大地解放人力資源。二是信息內(nèi)容生產(chǎn)效率快速提升。大算力驅動強算法處理大數(shù)據(jù)，在自然語言處理、計算機視覺、自動駕駛、等各領域多種任務上，都能高質量作出結果判斷，高效率進行內(nèi)容生成。三是信息內(nèi)容傳播出現(xiàn)顛覆性變化。信息的生產(chǎn)、傳播更加便利，尤其是降低了專業(yè)知識的獲取門檻。信息內(nèi)容的表現(xiàn)形態(tài)更加豐富，利用人工智能創(chuàng)生技術，圖、文、代碼等相互轉換更加自由，可以一鍵生成“數(shù)字人”分身，開啟智能互聯(lián)時代。（2）通用人工智能的“先行者”大模型是邁向通用人工智能的重要技術探索。一是具備了與人類智能相媲美的綜合智能能力。大模型的能力不再局限于自然語言、視覺等特定方面，而是具備了執(zhí)行一般智慧行為的能力，廣泛拓展了人工智能技術的適用范圍。二是具備了通用型技術能力的潛力。業(yè)界普2大模型治理藍皮書—從規(guī)則走向實踐（2023年）遍認為，大模型是智能時代的關鍵基礎底座，各領域不再需要單獨開發(fā)人工智能，僅需調用大模型接口即可。將來可能構建出新的應用生態(tài)、創(chuàng)造新的用戶接口，并帶來潛在商業(yè)模式的變革。三是具備了賦能千行百業(yè)的適應性。大模型可作為底層技術，垂直應用于各個產(chǎn)業(yè)和復雜場景。這種可以嫁接千行百業(yè)的智能生產(chǎn)力，正在重塑和影響未來生活。（3）人機交互的“協(xié)作者”大模型使得人類行為與機器運行之間的協(xié)作更加自然、高效和智能，拓展了更為廣闊的人機交互空間。一是呈現(xiàn)出極大的語言表達的自由度。大模型“善于”理解和生成自然語言，人們可以自由提問或表達需求，不必擔心特定的格式或指令。這種自由度使得人與機器的交互更為自然、靈活。二是呈現(xiàn)出極為個性化的交互體驗。大模型可以通過分析和理解用戶的喜好、興趣和上下文信息，進行定制化的服務和建議。大模型的即時回應和連續(xù)對話，給用戶提供了實時的幫助和引導。Web2.0之父蒂姆·奧萊利（TimO'Reilly）認為未來的人工智能系統(tǒng)將成為人類工作的協(xié)作者，通過人機合作實現(xiàn)更強大的效果。（二）大模型引領數(shù)字化變革大模型體現(xiàn)出強智能性、強通用性、強交互性，為進一步的產(chǎn)業(yè)革新與數(shù)字政府發(fā)展奠定了堅實的基礎。根據(jù)麥肯錫報告，生成式人工智能每年或將為全球GDP增加2.6-4.4萬億美元。根據(jù)MarketsandMarkets報告，2023年全球生成式人工智能的市場規(guī)模預計為110.3億美元，2028年預計將達到518億美元，年復合增長率達35.6%。3大模型治理藍皮書—從規(guī)則走向實踐（2023年）1.大模型推動產(chǎn)業(yè)跨域深度融合憑借大數(shù)據(jù)、大市場、多場景優(yōu)勢，人工智能與交通、醫(yī)療、工業(yè)等傳統(tǒng)行業(yè)深入融合，涌現(xiàn)出一批新業(yè)態(tài)新模式。在工業(yè)領域，大模型實現(xiàn)汽車、建模等設計的自動優(yōu)化、打造3D模型、通過智能物流、智能安防實現(xiàn)智能化管理；在醫(yī)療領域，大模型實現(xiàn)蛋白質分子的結構預測、輔助醫(yī)生影像讀片與分析病例報告，推出AI陪護與交互式心理咨詢；在金融領域，大模型催生了數(shù)字員工，借助AI客服、AI投資顧問、AI財務實現(xiàn)服務的自動化，并進一步優(yōu)化投資管理與風險管理。據(jù)埃森哲預計，2035年人工智能應用將為制造業(yè)帶來4萬億美元額外增長，年增長率可達4.4%。2.大模型提升公共服務水平當前，公共領域大模型應用如火如荼，為公共服務提質增效。美國、英國、葡萄牙、新加坡等13個國家或地區(qū)已將ChatGPT應用于政府內(nèi)部辦公、公共服務提供等場景。據(jù)日本野村綜合研究所開展的網(wǎng)絡問卷調查顯示，政府部門對ChatGPT的利用率達17.5%，僅次于信息通信業(yè)（32.8%）和制造業(yè)（19.2%）。從市場份額來看，根據(jù)普魯杜爾公司（PrudourPvt.Ltd）數(shù)據(jù)顯示，2022年各國政府應用大模型的市場份額超過1千萬美元，預計2032年超過5億美元，年復合增長率達45.8%。大模型技術的引入可以顯著提升人機交互的友好程度。同時，大模型在信息收集、數(shù)據(jù)分析以及語言重塑能力層面的優(yōu)勢，能夠有效協(xié)助整合政府治理資源，改善政府治理結構，打破政府組織壁壘，實現(xiàn)跨部門、跨層級的協(xié)同治理。4大模型治理藍皮書—從規(guī)則走向實踐（2023年）（三）大模型帶來的典型風險大模型在提升產(chǎn)業(yè)效率與社會生產(chǎn)力的同時，亦伴隨著多重風險與挑戰(zhàn)，有必要從技術自身缺陷引發(fā)的風險、技術應用在不同層面帶來的問題與挑戰(zhàn)等維度出發(fā)，梳理和探討大模型發(fā)展面臨的困局。1.大模型自身技術缺陷帶來的風險挑戰(zhàn)一是大模型的生成“幻覺”問題引發(fā)生成內(nèi)容不可信。生成幻覺通常指模型按照流暢正確的語法規(guī)則產(chǎn)生的包含虛假信息甚至無意義內(nèi)容的文本。幻覺一般被認為是模型生成的文本不遵循原文或不符合事實，在大模型場景下主要指不符合事實，即出現(xiàn)“一本正經(jīng)胡說八道”的情形?；糜X產(chǎn)生的本質原因是大模型的輸出結果是根據(jù)概率推理而成的，這導致了大模型可能針對一個原本模糊或者不確定的預測，給出一個“過度自信”的結果。因此，OpenAI公司首席技術官MiraMurati亦指出，ChatGPT和底層大型語言模型的最大挑戰(zhàn)是其會編造錯誤的或不存在的事實。二是大模型的“涌現(xiàn)”效應帶來模型能力不可控。所謂智能“涌現(xiàn)”，是指大語言模型在沒有經(jīng)過針對性訓練的任務，包括需要復雜推理能力的任務中，同樣表現(xiàn)出卓越的性能。這種“智能涌現(xiàn)”能力通常在小模型中未被發(fā)現(xiàn)，而只會在具備一定規(guī)模的大模型中出現(xiàn)。目前僅能夠明確觀測到當模型大小超過一定閾值時，模型各方面綜合能力得到質變式爆發(fā)增長的“涌現(xiàn)”現(xiàn)象，但卻無法確定“涌現(xiàn)”的閾值所在，這使現(xiàn)有大模型的“智能涌現(xiàn)”能力具有突發(fā)性、不可預測性和不可控性，例如，在某用戶故意“激怒”ChatGPT后，后者威5大模型治理藍皮書—從規(guī)則走向實踐（2023年）脅將披露該用戶的IP、居所等個人信息，甚至損害其名譽。不少人工智能研究人員亦發(fā)出警告，如果控制不當，足夠強大的人工智能模型可能超越人類智能成為地球主導力量，引發(fā)災難性后果。三是大模型的脆弱性和攻擊性造成外部安全隱患難以根除。由于技術本身的特性，沒有一個系統(tǒng)是永遠安全和不可能被攻破的。一方面，隨著大模型生成側的高度發(fā)展，對其進行網(wǎng)絡攻擊日漸增多。例如通過在提示詞后增加一些不規(guī)則后綴，即可讓此提示詞繞過大模型的攔截策略，讓其生成預料之外的內(nèi)容。另一方面，大模型應用降低了漏洞查找與系統(tǒng)攻擊的難度。如果模型被惡意植入后門，模型的安全也會受到威脅，尤其在大模型應用下，漏洞查找與系統(tǒng)攻擊變得更加容易，導致系統(tǒng)安全隱患持續(xù)升級。例如，有攻擊者利用ChatGPT生成自動攻擊的代碼，讓它更加高效的利用某個目標系統(tǒng)的漏洞，進行網(wǎng)絡攻擊。2.大模型在個人維度引發(fā)的風險挑戰(zhàn)一是加深“信息繭房”并影響公平正義。一方面，以呈現(xiàn)高頻次單一信息為生成機制會加深“信息繭房”。過去，個人自主進行信息檢索是往往能夠獲得來源豐富、多種多樣的信息以供選擇，從而形成對所欲探究事物更全面的認知；而在大模型應用下，個人只能被動接受模型提供的信息，而無法獲取樣本數(shù)量不占優(yōu)勢的“小眾”信息，使得大模型生成內(nèi)容類似于“繭房”，將個體對事物的認知桎梏于有限信息之中。1另一方面，大模型訓練數(shù)據(jù)存在的固有偏見和歧視問參見/s/FIX1cUkw6PiduOwJ00l0mA6大模型治理藍皮書—從規(guī)則走向實踐（2023年）題。這是由于大模型對數(shù)據(jù)高度依賴，所以生成結果會體現(xiàn)出數(shù)據(jù)源的偏向性。如GPT-3顯示出了基于宗教信仰的偏見和性別歧視，大語言模型Gopher存在職業(yè)與性別之間的刻板印象聯(lián)想，圖像生成模Dalle-2則表現(xiàn)出顯著的性別和種族歧視。二是技術濫用侵犯人格尊嚴并阻礙個人發(fā)展。一方面，大模型的惡意利用侵犯人格尊嚴。當前已有大量案例表明，大模型被用于生成虛假的有損公民人格尊嚴的視頻、音頻、圖像等，進而被惡意應用于網(wǎng)絡欺凌、辱罵、造謠等場景下，給當事人帶來極大的精神及財產(chǎn)損害。例如，喬治華盛頓大學法學院教授JonathanTurley發(fā)現(xiàn)，ChatGPT生成內(nèi)容顯示他在阿拉斯加課程旅行中對學生進行了性騷擾。然而，Turley教授并未帶領學生去阿拉斯加或任何其他地方進行課程旅行，也未曾受到過性騷擾學生的指控。另一方面，大模型的過度依賴阻礙個人發(fā)展。當前越來越多個體頻繁應用大模型服務完成工作學習任務，例如用ChatGPT寫論文、寫判決書的案例屢見不鮮，且個人對大模型的依賴表現(xiàn)出應用日益廣泛、程度日益加深的特征，恐導致個人學習能力以及認知水平可能大幅退化，影響人與社會的長期發(fā)展?jié)摿?。美國智庫布魯金斯學會刊文指出，ChatGPT將可能導致人類記憶和批判能力的下降。三是情感計算造成潛在倫理風險并擾亂人際關系。情感計算是模擬某個角色并設定其情緒或心理狀態(tài)的新型人工智能應用，其發(fā)展與普及可能給個人行為、社會關系、倫理道德等諸多領域帶來巨大的沖擊。一方面，情感計算可能瓦解傳統(tǒng)人際關系。以近期眾多人工智能7大模型治理藍皮書—從規(guī)則走向實踐（2023年）企業(yè)推出的“AI伴侶”為例，該類應用可能導致個人不愿花時間精力與真正的人類進行情感交流，從而導致傳統(tǒng)的人際關系與婚姻家庭結構遭到重創(chuàng)，甚至顛覆過往的倫理道德觀念。另一方面，情感計算可能不正當?shù)匾龑€人情緒、行為乃至價值觀。人工智能產(chǎn)品可能會有偏見或有目的性地引導某些個體，尤其當人類習慣于長期與機器人交互時，人獲取的信息會很自然地被機器所引導，進而影響個人的價值觀，或是控制個人的情緒與行為。3.大模型在企業(yè)維度引發(fā)的風險挑戰(zhàn)一是用戶過度授權、違規(guī)信息使用以及黑客攻擊，引發(fā)用戶隱私與商業(yè)秘密的泄露風險。在用戶個人隱私方面面臨侵權訴訟，當前，大模型的用戶使用條款普遍給予企業(yè)超出必要限度的個人信息使用權，加大了用戶個人信息泄漏的風險，從而擔負極大的違規(guī)風險。以ChatGPT為例，其使用條款明確規(guī)定，除非用戶要求OpenAI不對其輸入和輸出內(nèi)容進行使用，否則OpenAI擁有對任何用戶輸入和輸出內(nèi)容的廣泛使用權，以達成優(yōu)化訓練ChatGPT的目的。在企業(yè)商業(yè)秘密方面，企業(yè)員工很有可能故意或過失地違反公司保密制度，將公司的營業(yè)信息、技術信息、平臺底層代碼、近期營銷計劃、公司薪酬體系等信息泄露，黑客也可能利用系統(tǒng)漏洞發(fā)起攻擊獲取海量涉密信息，從而導致企業(yè)商業(yè)秘密泄露風險。二是內(nèi)容生成依托海量文本與圖像數(shù)據(jù)，引發(fā)版權侵權風險。一方面，大模型生成內(nèi)容由于缺乏規(guī)范的許可使用機制具有侵權風險。由于大模型根據(jù)概率推理的生成機制，其使用作品難以逐個、準確地8大模型治理藍皮書—從規(guī)則走向實踐（2023年）援引法定許可或合理使用條款，這使得大模型未經(jīng)許可使用作品的行為可能會侵犯被使用作品的復制、改編、信息網(wǎng)絡傳播權等權利。例2023年1月，全球知名圖片提供商華蓋創(chuàng)意（GettyImages）起訴熱門人工智能繪畫工具StableDiffusion的開發(fā)者StabilityAI，稱其未經(jīng)許可從網(wǎng)站上竊取了數(shù)百萬張圖片。再如，用于谷歌T5和METALLaMA等大模型訓練的C4數(shù)據(jù)集，雖然源自公開網(wǎng)站，但也包括至少27個被美國政府認定為盜版和假冒產(chǎn)品市場的網(wǎng)站。另一方面，大模型生成內(nèi)容存在與既有作品“實質性相似”的潛在侵權風險。如果大模型通過分析學習后生成的內(nèi)容與原始作品過于相似，以至于可能會誤導公眾或混淆原始作品的來源，其可能會因與他人作品存在“實質性相似”而被認定為侵權，從而導致著作權侵權相關的訴訟，而含有侵權內(nèi)容的大模型生成內(nèi)容的使用者亦有可能需要承擔侵權責任。2三是應用形態(tài)顛覆現(xiàn)有數(shù)據(jù)收集模式，引發(fā)數(shù)據(jù)安全風險。大模型生成工具的運作機制導致企業(yè)緯度的違規(guī)數(shù)據(jù)傳輸與敏感信息泄露頻發(fā)。以ChatGPT為例，根據(jù)其運作原理，用戶在輸入端提出的問題首先會傳輸?shù)轿挥诿绹腛penAI公司，隨后ChatGPT才會給出相應回答，因此存在數(shù)據(jù)泄露風險。如韓媒報道，三星半導體事業(yè)部向員工開放使用ChatGPT后短短20天內(nèi)即發(fā)生多起數(shù)據(jù)違規(guī)輸入事件。又如數(shù)據(jù)安全公司Cyberhaven調研顯示，不同行業(yè)客戶的160萬名員工平均每周向ChatGPT泄露敏感數(shù)據(jù)達數(shù)百次。參見/s/LbeMIgeJeZSAqDWeLTBX9g9大模型治理藍皮書—從規(guī)則走向實踐（2023年）4.大模型在社會維度引發(fā)的風險挑戰(zhàn)一是沖擊就業(yè)市場，提升勞動力轉型下的社會不安定性。雖然大模型帶來的崗位智能化升級將提升社會生產(chǎn)效率、創(chuàng)造新興崗位，但也會導致特定領域或人群的失業(yè)危機。大模型對初等和中等技能白領崗位需求的沖擊較大，從事重復性、機械性等工作的勞動者將極易被大模型工具替代。據(jù)高盛研究報告分析，以美國為例，46%的行政工作和44%的法律工作將受到較高程度的影響。在此趨勢下，相當數(shù)量的勞動者需在短期內(nèi)進行與社會新需求相匹配的職業(yè)轉換，這對他們的經(jīng)濟收入、社會地位、身心健康都可能產(chǎn)生較大影響，如果大規(guī)模勞動力轉型不當甚至有可能引發(fā)社會動蕩等風險。二是擴大數(shù)字鴻溝，加劇社會分化和不平等。大模型的擁有程度、應用程度以及創(chuàng)新能力的差別將引發(fā)信息落差，進而造成新一輪數(shù)字鴻溝，甚至加劇社會分化和不平等。從國家與地區(qū)層面來看，在大模型加速迭代的進程中，僅有少數(shù)發(fā)達國家能夠能夠憑借龐大的數(shù)據(jù)、算力等資源進一步掌控生產(chǎn)力資源，這將進一步擴大發(fā)達國家與發(fā)展中國家的差距。例如，美國的GPT-4總共包含了1.8萬億參數(shù)，一次的訓練成本為6300萬美元，非百億美金公司很難持續(xù)跟進。從組織和個人層面來看，大模型服務對于不同群體的可得性是不同的。部分地區(qū)或群體可能由于無法獲得高質量的互聯(lián)網(wǎng)連接、教育水平與專業(yè)背景不足等原因，無法有效且正確地使用GPT技術。這會使得ChatGPT等技術成為精英階層提升和優(yōu)化生產(chǎn)力的有力工具，進一步拉大精英階層和社會底層、高知分子與普通勞動者之間的差距。大模10大模型治理藍皮書—從規(guī)則走向實踐（2023年）型生成機制對于不同群體的“關注度”是不同的。特殊群體及其呼聲會在數(shù)字化進程中成為被排斥的對象，淪為“數(shù)字棄民”，這可能導致未來日益依托于大模型的社會治理框架忽視特殊群體的需求，加劇社會在年齡、地域等緯度的不平等。三是深度偽造與對抗性攻擊，危及公共安全與利益。一方面，大模型被用于制作虛假文本、音頻、視頻等深度偽造內(nèi)容，損害公共利益。當前，通過AI換臉、語音模擬、人臉合成、視頻生成等惡意運用手段生成的深度偽造信息，既加劇了公眾對于公開信息的不信任感，又導致相關虛假信息與虛假形象被運用于詐騙、政治干預、煽動暴力和犯罪等破壞公共利益的領域，造成了極大的安全風險。另一方面，對抗性攻擊的存在威脅著公共安全。大模型容易受到對手生成的對抗樣本的“注入式攻擊”，即圖謀不軌者從算法角度別有用心地構造并注入特定詞語、符號或圖片，進而誘導大模型邏輯混亂、輸出錯誤，再利用這一漏洞進行欺詐或篡改，甚至直接圖謀根源極其隱蔽的安全事故。3例如，研究人員通過在停止信號圖片添加細微噪聲，就可以欺騙自動駕駛系統(tǒng)錯認為速度限制45英里/小時，產(chǎn)生潛在事故風險。二、技術變革下大模型治理框架日漸明朗（一）治理模式：敏捷治理成為國際較為通行的治理方案2018年，世界經(jīng)濟論壇提出敏捷治理概念，討論如何應對第四次工業(yè)革命中的政策制定問題，敏捷治理理念開始受到廣泛關注。敏參見/s/yAEBHtf-SEPgC65vmtdMEQ11大模型治理藍皮書—從規(guī)則走向實踐（2023年）捷治理是“一套具有柔韌性、流動性、靈活性或適應性的行動或方法，是一種自適應、以人為本以及具有包容性和可持續(xù)的決策過程”。一方面，敏捷治理體現(xiàn)為快速感知能力。強調對時間的高度靈敏度，需要時刻準備應對快速發(fā)展中的變化，主動接受變化并在變化中學習。能夠快速感知到內(nèi)外部環(huán)境的變化，預測內(nèi)外部面臨的風險問題。另一方面，敏捷治理強調參與主體應具有廣泛性。治理主體不再局限于政府，而是需要與開發(fā)者、部署者、用戶等利益相關者密切互動，建立機制持續(xù)性監(jiān)測和討論政策內(nèi)容，保持長期可持續(xù)性。從治理原則來看，采取原則指引為主、靈活政策為輔的策略。敏捷治理強調在治理原則指導下，使用靈活政策工具作為補充，依據(jù)情況及時調整大模型治理方向和落地舉措。在治理關系上，監(jiān)管者和市場主體之間存在重要的相互依賴關系。雙方在信任基礎上深入密切交流，監(jiān)管者可以更好了解技術趨勢和產(chǎn)業(yè)發(fā)展走向，準備評估相關風險并制定合理措施。從治理工具來看，治理措施要“下手快”并允許包容試錯空間?！跋率挚臁笨梢詼p少企業(yè)的沉默成本，減少技術路徑和商業(yè)模式的轉變損失。包容試錯意味著鼓勵企業(yè)積極創(chuàng)新，對于風險程度較低的問題，支持企業(yè)自行整改消除風險。4在治理模式選擇上，靈活感知、動態(tài)調適的敏捷治理更契合大模型發(fā)展需求。大模型具有突破性、變革性、高風險性等特點，傳統(tǒng)監(jiān)管模式面臨著AI自主演化控制難、迭代快速跟進難、黑箱遮蔽追責難等問題，一勞永逸的事前監(jiān)管模式已經(jīng)難以應對不斷推陳出新的人參見薛瀾，《走向敏捷治理：新興產(chǎn)業(yè)發(fā)展與監(jiān)管模式探究》，《中國行政管理》2019年第8期。12大模型治理藍皮書—從規(guī)則走向實踐（2023年）工智能發(fā)展需求。開展科技倫理敏捷治理試點工作，是邊發(fā)展、邊治理，邊摸索、邊修正的動態(tài)治理方式，對于平衡安全和創(chuàng)新，在實踐中不斷提煉和打磨大模型治理方案具有重要意義。歐盟、英國、美國均在不同層面引入敏捷治理以規(guī)制大模型風險。美國出臺法案細化基于風險的敏捷治理具體實施路徑。2023年5月，美國提出建立數(shù)字平臺委員會相關法案，指出應采用基于風險的敏捷方法，并建立規(guī)制技術風險的新機構。法案認為，新機構應效仿企業(yè)的敏捷治理做法，制定行為守則，并以透明、反應迅速的方法執(zhí)行相關標準。法案還為敏捷治理提出了具體的實施路徑，例如為準則制定過程設定時間表，確定并量化需要解決的問題，建立多利益相關方專家小組，專家組對政策實施效果進行持續(xù)追蹤，找出新問題并循環(huán)整個過程。英國實行靈活的“按比例監(jiān)管”以提升在人工智能領域的競爭優(yōu)勢。2023年3月，英國發(fā)布《促進創(chuàng)新的人工智能監(jiān)管方式》白皮書，明確監(jiān)管目標為“提供清晰的、有利于創(chuàng)新的監(jiān)管環(huán)境”，強調“按比例監(jiān)管”的靈活監(jiān)管方式，力圖推動英國成為“世界上建立基礎人工智能企業(yè)的最佳地點之一”。歐盟總體基調嚴苛，但仍體現(xiàn)出敏捷治理思路。如《人工智能法案》第56b條款指出，人工智能辦公室應對基礎模型進行監(jiān)測，并與開發(fā)者、部署者就其合規(guī)性進行定期對話，討論行業(yè)自我治理的最佳做法；定期更新將基礎模型界定為大型訓練模型的判定標準，記錄并監(jiān)測大模型運行的實例。再如，該法案第五章“支持創(chuàng)新的措施”中，提出人工智能監(jiān)管沙箱制度，要求建立受控環(huán)境，在一定時間內(nèi)推動人工智能系統(tǒng)的開發(fā)、測試和13大模型治理藍皮書—從規(guī)則走向實踐（2023年）驗證。我國采取包容審慎、分類分級監(jiān)管的敏捷治理模式。兩辦印發(fā)《關于加強科技倫理治理的意見》，提出敏捷治理的治理理念，要求加強科技倫理風險預警與跟蹤研判，及時動態(tài)調整治理方式和倫理規(guī)范，快速、靈活應對科技創(chuàng)新帶來的倫理挑戰(zhàn)。國家網(wǎng)信辦等七部門出臺《生成式人工智能服務管理暫行辦法》，堅持發(fā)展和安全并重、促進創(chuàng)新和依法治理相結合的原則，采取有效措施鼓勵大模型創(chuàng)新發(fā)展，對大模型服務實行包容審慎和分類分級監(jiān)管。相反，加拿大立法進程中的非敏捷做法遭到外界批判。國際治理創(chuàng)新中心評論文章《加拿大人工智能立法草案需要重新修訂》一文批評道，加拿大正在制定的《人工智能與數(shù)據(jù)法案》敏捷性不足，敏捷監(jiān)管應該是不斷迭代和數(shù)據(jù)驅動的，有明確的程序來評估政策影響并作出調整，但該草案并不具備這些要素?？傮w來看，作為一種新型治理思路，敏捷治理具備全面性、適應性和靈活性特征，契合大模型的治理需求。如何有效落地敏捷治理理念，是當前需要探索的重要任務。（二）治理主體：激勵多元主體協(xié)同治理成為全球共識1.國際組織是全球人工智能治理的重要力量越來越多的國際組織開始關注人工智能的全球治理問題。在增進全球利益方面，國際組織有助于推動人工智能的全球應用和普及，提升各地產(chǎn)業(yè)發(fā)展和社會服務水平，惠及發(fā)展中國家和地區(qū)。在管理共同風險方面，人工智能具有不受制于國界的風險跨境生成、擴散特征，單純的國內(nèi)監(jiān)管無法有效管控風險，因此，在國際組織推動下，全球14大模型治理藍皮書—從規(guī)則走向實踐（2023年）協(xié)同制定標準規(guī)范、支持和激勵最佳國際實踐，成為人工智能治理的應有之義。根據(jù)歐洲委員會正在推進的《關于人工智能規(guī)制框架的建議》，從2020年起國際組織已經(jīng)超過國家成為主要的人工智能舉措的來源；從2015年到2023年，國家政府層面共發(fā)布了172項舉措，而國際組織5同期實施了214項舉措，總體數(shù)量也超過各國政府。（6見1）國際組織在引導形成國際共識、建立國際通行和互操作的治理規(guī)則、確保新一輪人工智能發(fā)展造福全人類等方面具有重要作用和獨特優(yōu)勢。來源：歐洲委員會圖12010-2023年間政府和國際組織發(fā)布的人工智能舉措數(shù)量對比2.國家政府加緊完善人工智能監(jiān)管架構國家政府在人工智能治理中發(fā)揮著領導性作用，從國家層面統(tǒng)領大模型研發(fā)、設立專業(yè)監(jiān)管機構、以及政策與法律規(guī)則的制定等。國參見統(tǒng)計數(shù)據(jù)中的“國際組織”包括歐洲委員會（CoE）與歐盟（EU）、經(jīng)合組織（OECD）和聯(lián)合國教科文組織（UNESCO）、G7、G20等。參見CouncilofEurope,AIInitiatives,/en/web/artificial-intelligence/national-initiatives,visitedon29August,202315大模型治理藍皮書—從規(guī)則走向實踐（2023年）家政府作為肩負公共事務管理職責的公權力機關，是公共利益和廣大民意的代言人，也是國家安全和社會穩(wěn)定的捍衛(wèi)者。為更好應對大模型對傳統(tǒng)監(jiān)管架構和機制挑戰(zhàn)，部分國家從不同維度加緊推進監(jiān)管組織機構調整。一是部分國家和地區(qū)“另起爐灶”，探索建立專門的人工智能監(jiān)管機構。歐盟將根據(jù)《人工智能法案》設立歐洲人工智能辦公室，負責監(jiān)督并確保法律的有效實施，協(xié)調聯(lián)合調查等。歐洲人工智能辦公室將下設管理委員會（由各成員國代表組成的）、秘書處、咨詢論壇（包括企業(yè)、民間社會、學術界等利益關聯(lián)方）三個部分。7西班牙率先成立歐洲首個人工智能監(jiān)管機構——西班牙人工智能監(jiān)管局（AESIA）。該機構將負責監(jiān)管算法應用、數(shù)據(jù)使用以及確保AI系統(tǒng)遵守道德規(guī)范，其首要任務是執(zhí)行歐盟《人工智能法案》。二是現(xiàn)有監(jiān)管部門下設人工智能工作組，規(guī)制本部門管轄范圍內(nèi)大模型帶來的風險。美國國土安全部成立首個人工智能特別工作組，旨在保護國家免受人工智能技術尖端發(fā)展造成的安全威脅。美商務部宣布，國家標準與技術研究院（NIST）將成立新的人工智能公共工作組，集合私營和公共部門的專家力量，重點關注大模型相關風險挑戰(zhàn)。8韓國文化體育觀光部成立版權制度改進工作組、數(shù)字內(nèi)容人工智能工作組、產(chǎn)業(yè)應用工作組，將致力于開發(fā)韓文語料庫、審查版權侵權行為、開發(fā)試點項目等。三是在中央層面加強各行業(yè)部門之間的監(jiān)管協(xié)同。大模型技術可被普遍調用于各類行業(yè)場景，對政參見歐盟《人工智能法案》第六編第一章要求參見NIST制定指導意見，指導在NIST發(fā)布的AI風險管理框架內(nèi)開展研發(fā)等短期目標，中期來看工作組將致力于開展大模型測試評估，長期來看，將探索有效利用大模型解決環(huán)境、健康等社會問題的可能性。16大模型治理藍皮書—從規(guī)則走向實踐（2023年）府部門的監(jiān)管協(xié)調能力提出更高要求。英國《支持創(chuàng)新的人工智能監(jiān)管方案》白皮書指出，由于通用大模型供應鏈的廣泛性，難以將其納入任一監(jiān)管機構的職權范圍，應加強中央層面的監(jiān)管協(xié)調。英國將重點依靠現(xiàn)有的金融行為監(jiān)管局、信息專員辦公室、競爭與市場管理局、平等與人權委員會、藥品和保健產(chǎn)品監(jiān)管機構展開監(jiān)管。3.企業(yè)站在人工智能治理的最前線最前沿企業(yè)在推動人工智能治理規(guī)則和標準落地上發(fā)揮著決定性作用，是踐行治理規(guī)則和行業(yè)標準的中堅力量。當下人工智能領域內(nèi)產(chǎn)業(yè)界呈現(xiàn)出領先于學術界的發(fā)展態(tài)勢。2022年，由產(chǎn)業(yè)界開發(fā)的機器學習模型數(shù)量高達32個，而學術界則只研發(fā)了3個。（見圖2）一是建立人工智能行業(yè)治理共同體。微軟、谷歌、OpenAI等成立前沿模型論壇，致力于推進人工智能安全研究，確定部署前沿人工智能模型的最佳實踐，并促進政企之間的信息共享。9韓國汽車、造船、機器人等十大主要行業(yè)領軍企業(yè)則啟動建立了包括政府部門、公共機構及400多家國內(nèi)企業(yè)的跨行業(yè)人工智能聯(lián)盟，該聯(lián)盟將設立行業(yè)數(shù)據(jù)、法律法規(guī)兩個政策小組以推進人工智能治理。10二是企業(yè)內(nèi)部增設人工智能治理相關組織架構。國內(nèi)外多家企業(yè)均設置了人工智能治理專門工作組。例如，微軟設置了三個機構負責人工智能治理事務，分別是AI辦公室、AI戰(zhàn)略管理團隊以及人工智能、倫理與工程研究委員會。IBM為踐行人工智能倫理治理成立了AI倫理委員會，參見/2023/07/26/google-openai-microsoft-anthropic-join-forces-promote-safe-ai-development/參見/view.php?ud=2023072500058417大模型治理藍皮書—從規(guī)則走向實踐（2023年）以支持公司執(zhí)行人工智能倫理原則。商湯科技則成立AI倫理與治理委員會，統(tǒng)籌推進人工智能倫理治理工作體系建設。三是企業(yè)自身推動完善人工智能治理機制。一方面，企業(yè)提出治理原則和指南等構建人工智能治理生態(tài)系統(tǒng)。2023年5月，微軟發(fā)布《人工智能治理：未來藍圖》，提出治理人工智能的五大建議，例如應建立并實施政府主導的人工智能安全框架，為控制關鍵基礎設施的人工智能系統(tǒng)部署安全“剎車”。另一方面，企業(yè)不斷創(chuàng)新治理工具來落實AI治理工作。在2023年RSA大會上，谷歌推出大模型網(wǎng)絡安全套件云安全AIWorkbench，將大模型引入網(wǎng)絡安全領域。來源：斯坦福HAI圖22002-2022重要機器學習系統(tǒng)數(shù)量（按行業(yè)劃分）（三）治理機制：軟硬兼施推進大模型治理圍繞可信可控、以人為本、公平公正等人工智能治理價值目標，全球各國注重“剛柔并濟、軟硬兼施”，從柔性倫理規(guī)范和硬性法律法規(guī)等維度發(fā)布具體的人工智能規(guī)則規(guī)范。根據(jù)世界經(jīng)合組織18大模型治理藍皮書—從規(guī)則走向實踐（2023年）（OECD）人工智能政策觀察站最新統(tǒng)計，已有69個國家和地區(qū)發(fā)布800多項人工智能政策。111.以軟法為引領的社會規(guī)范體系全球在人工智能治理中率先推進“軟法”創(chuàng)制，“軟法”與促進創(chuàng)新發(fā)展的治理需求有著天然的契合性。一般而言，倫理、行業(yè)標準等“軟法”的制定方式和周期更富彈性，參與主體具有高程度的協(xié)商性，內(nèi)容更細致更具針對性，有助于實現(xiàn)人工智能治理的敏捷化、多元化和場景化。近年來，主要國家和國際組織紛紛發(fā)布AI倫理原則和規(guī)范文件，例如G20《人工智能原則》、國際電氣和電子工程師協(xié)會（IEEE）《人工智能設計倫理準則》、歐盟《可信人工智能倫理指南》等。我國在《科學技術進步法》《關于加強科技倫理治理的意見》等頂層設計下，積極推進制定人工智能倫理治理規(guī)范，落實科技倫理審查、監(jiān)測預警、檢測評估等要求，提升公共服務水平，推動科技倫理治理技術化、工程化、標準化落地。伴隨大模型的應用，軟法治理體現(xiàn)出以下趨勢特點：一是受地域文化、發(fā)展水平等因素影響，各國倫理治理重點存在分歧。西方國家更關注算法偏見歧視問題，保障少數(shù)族裔免受大模型應用帶來的歧視風險。發(fā)展中國家更為重視透明度和可解釋性，保障新一輪人工智能浪潮下的國家數(shù)字主權。二是推進出臺可評估、可驗證的標準。為同步落實《人工智能法案》要求，歐盟委員會下發(fā)人工智能標準需求清單，歐盟立法委員直接參與標準工作，保障立法到標準的落地。參見https://oecd.ai/en/dashboards/overview19大模型治理藍皮書—從規(guī)則走向實踐（2023年）愛爾蘭政府推出《人工智能標準和保證路線圖》，協(xié)助愛爾蘭企業(yè)以合乎道德的方式使用人工智能。三是提升人工智能的社會化服務水平。國際標準組織IEEE面向行業(yè)推出了人工智能治理認證制度。英國則發(fā)布《建立有效人工智能認證生態(tài)系統(tǒng)的路線圖》，建立包括影響評估、偏見審計、認證、性能測試等中立第三方服務，力圖培育世界領先的人工智能認證行業(yè)。四是出臺行為守則、指南文件等作為過渡階段的適用規(guī)則。在出臺正式的法律法規(guī)之前，部分國家率先發(fā)布行為守則等，為企業(yè)或政府利用大模型提供指引。例如，加拿大政府發(fā)布《生成式人工智能行為守則》，要求在《加拿大人工智能和數(shù)據(jù)法》生效之前，由加拿大公司自愿執(zhí)行。12美國波士頓發(fā)布全球首份《政府應用生成式人工智能臨時指南》，指南適用于除波士頓公立學校外的所有城市機構和部門，列明了政府部門應用大模型的部分示例用例及注意事項，例如不要在提示詞中包含機密信息等。2.以硬法為底線的風險防控體系面對大模型風險調整，建立完善“剛性”的硬法約束，通過構建風險防控體系，提前布局、樹立起防火墻，把握大模型發(fā)展的底線以規(guī)避風險的發(fā)生。在新一輪人工智能浪潮中，以歐盟《人工智能法案》、我國《生成式人工智能服務管理暫行辦法》為代表的法律法規(guī)均受到各國高度關注。具體來看，體現(xiàn)如下趨勢特點：一是總體來看人工智能立法步伐加快，但仍有部分國家采取保守觀望態(tài)度。斯坦福報告顯示，大模型的廣泛應用成為推動人工智能立參見/s/xCfDeoWepskSVierIrUA4w20大模型治理藍皮書—從規(guī)則走向實踐（2023年）法的關鍵節(jié)點。2016至2022年間全球AI法律的數(shù)量增加了36項，立法程序中提到人工智能的次數(shù)增長近6.5倍（見圖3、圖4）。美國參議院舒默等召開數(shù)次聽證會，提出《兩黨人工智能立法框架》，以加快立法進程。新加坡、印度則表示暫不監(jiān)管人工智能，印度信息技術部部長阿什溫尼·瓦什納在2023年4月表示，政府目前并未考慮出臺任何法律來規(guī)范人工智能在印度的發(fā)展。二是基于風險的分級分類方式仍然是大模型治理的重要訴求。在歐盟基于風險的治理理念影響下，分級分類成為平衡創(chuàng)新與發(fā)展的重要方式。歐盟-美國貿(mào)易和技術委員會發(fā)布了一份聯(lián)合聲明，重申“基于風險的（人工智能）方法，以推進值得信賴和負責任的人工智能技術”。日本提出風險鏈模型（RiskChainModel），根據(jù)不同行業(yè)場景提出不同風險分級。德國電力電子與信息技術協(xié)會提出VCIO模型，指導使用者對應用場景風險等級作出判斷。三是后發(fā)國家立法注重與已有法律框架的互操作性?！都幽么笕斯ぶ悄芎蛿?shù)據(jù)法》立法文件指出，該法案在關鍵定義和概念、采取以風險為基礎的監(jiān)管路徑等方面，均注重與人工智能領域的國際規(guī)范相銜接，包括歐盟《人工智能法案》、經(jīng)濟合作與發(fā)展組織《人工智能原則》和美國NIST《人工智能風險管理框架》等。四是在傳統(tǒng)法律框架下探索有效、靈活的執(zhí)法手段。例如美國注重利用傳統(tǒng)立法，例如反歧視法、消費者權益保護法、競爭法等現(xiàn)有法規(guī)，來打擊詐騙、虛假宣傳、欺騙性廣告、不公平競爭等行為，并采取相應處罰措施，甚至要求公司刪除根據(jù)不正當數(shù)據(jù)訓練出的算法。21大模型治理藍皮書—從規(guī)則走向實踐（2023年）來源13：中國信息通信研究院根據(jù)斯坦福HAI報告數(shù)據(jù)整理圖32016-22年81個選定國家立法程序中提及人工智能的次數(shù)來源：中國信息通信研究院根據(jù)斯坦福HAI報告數(shù)據(jù)整理圖42016-22年127個選定國家人工智能相關立法數(shù)量三、聚焦大模型治理核心議題規(guī)則數(shù)據(jù)來源：斯坦福HAI《2023人工智能指數(shù)報告》22大模型治理藍皮書—從規(guī)則走向實踐（2023年）如何構建高質量數(shù)據(jù)集，如何更新知識產(chǎn)權制度以激勵創(chuàng)新，如何實現(xiàn)價值對齊等問題，是大模型帶來的新興問題挑戰(zhàn)。基于此，本章設定四大議題予以回應。（一）數(shù)據(jù)治理規(guī)則1.構建高質量數(shù)據(jù)集高質量訓練數(shù)據(jù)是大模型發(fā)展的基礎。數(shù)據(jù)作為新型生產(chǎn)要素，是人工智能技術創(chuàng)新和產(chǎn)業(yè)應用的基礎。在大模型時代，數(shù)據(jù)質量的重要性大幅提升。當前，以模型為中心的傳統(tǒng)開發(fā)模式逐漸式微，巨量優(yōu)質數(shù)據(jù)堆疊對模型表現(xiàn)的提升效果遠優(yōu)于微小的算法改動，因此數(shù)據(jù)成為大模型開發(fā)的核心要素。以GPT為例，GPT-1只使用了4629MB文本數(shù)據(jù)，GPT-2使用了40GB從Reddit爬取并篩選的文本，而GPT-3用了至少45TB的純文本，GPT-4的數(shù)據(jù)需求量更隨著模型參數(shù)的躍升而顯著增加。我國高質量中文數(shù)據(jù)集尤為匱乏，當前用于大模型訓練的英文文本較中文文本更為規(guī)范、豐富，針對中文文本的標注規(guī)范、質量把控、成果激勵等均有不足。對于數(shù)據(jù)質量差而帶來的負面影響，“1-10-100”數(shù)據(jù)法則指出，如果最初用于驗證數(shù)據(jù)的成本是1美元，則糾正錯誤數(shù)據(jù)則需10美元，可能導致的業(yè)務成本增加將達100美元。在大模型開發(fā)中，這種負面影響將因模型改進對數(shù)據(jù)依賴性增強而呈指數(shù)放大，除影響企業(yè)成本、收入外，還將增加數(shù)據(jù)生態(tài)系統(tǒng)的復雜性，最終可能導致模型訓練失敗。數(shù)據(jù)流通共享是建立高質量數(shù)據(jù)集的前提。高質量數(shù)據(jù)集需要經(jīng)歷數(shù)據(jù)資源化、數(shù)據(jù)共享、交易流通與分析應用等數(shù)據(jù)價值化過程；23大模型治理藍皮書—從規(guī)則走向實踐（2023年）尤其是其中的流通共享環(huán)節(jié)，有利于充分發(fā)揮數(shù)據(jù)可無損地被重復利用的潛在價值。14各主要經(jīng)濟體制定促進數(shù)據(jù)流通共享的框架法規(guī)。2023年3月，美白宮OSTP正式發(fā)布《國家戰(zhàn)略：推進隱私保護的數(shù)據(jù)共享與分析》15，旨在通過技術手段推動公共和私營部門數(shù)據(jù)共享，實現(xiàn)“負責任地利用隱私保護的數(shù)據(jù)共享與分析來造福個人和社會”的愿景。16歐盟《人工智能法案》提出，歐盟委員會建立的歐洲共同數(shù)據(jù)空間以及促進企業(yè)之間和與政府之間的公共數(shù)據(jù)共享，將有助于為人工智能系統(tǒng)的訓練、驗證和測試提供可信的、可問責的和非歧視性的高質量數(shù)據(jù)訪問。為充分利用歐盟本土數(shù)據(jù)，2022年3月，美國積極推動與歐盟達成“歐盟-美國數(shù)據(jù)隱私框架（DPA）”，該框架于2023年7月被歐盟委員會批準通過，使美國公司可以在新的監(jiān)管要求下，在美國和歐盟之間自由傳輸個人數(shù)據(jù)。為促進商業(yè)數(shù)據(jù)流通共享，中國在《反不正當競爭法（修訂草案征求意見稿）》第十八條提出“獲取、使用或者披露與公眾可以無償利用的信息相同的數(shù)據(jù)”，不屬于其所稱對商業(yè)數(shù)據(jù)的不正當獲取或使用。但目前數(shù)據(jù)的流通共享仍存在一些阻礙。數(shù)據(jù)權屬的界定問題、權責不清問題、平臺經(jīng)濟生態(tài)封閉問題等成為降低數(shù)據(jù)要素市場供需匹配效率、阻礙數(shù)據(jù)流通共享的重要原因。在我國，數(shù)據(jù)要素入場交易仍存在多重壁壘，全國各地雖已建設或建成諸多數(shù)據(jù)交易平臺，但實際交易流量與活躍參見/s/S8VmeOHh7CB1yIOjapwyqw.參見/s/_B8mE5swyAxDR2Lh1cVnFQ.參見/articles/crs-congress-should-consider-data-privacy-in-generative-ai-regulation/.24大模型治理藍皮書—從規(guī)則走向實踐（2023年）度偏低；數(shù)據(jù)市場交易主體及模式也較為單一，數(shù)據(jù)資源挖掘能力和供需關系匹配能力較弱。17數(shù)據(jù)標注是提升數(shù)據(jù)集質量的重要環(huán)節(jié)。一是數(shù)據(jù)標注是大模型開發(fā)訓練的關鍵環(huán)節(jié)。初始數(shù)據(jù)通常是雜亂無章、不具有直接使用價值的，因此需要對數(shù)據(jù)進行不同形式的標注，方可滿足模型訓練的質量要求。作為大模型開發(fā)與訓練不可或缺的上游環(huán)節(jié)，數(shù)據(jù)標注的工作高效性、標準一致性與結果準確性，將直接影響有效數(shù)據(jù)集的生產(chǎn)速度、適用范圍與質量水平。二是當前數(shù)據(jù)加工產(chǎn)業(yè)高速發(fā)展，大模型推動數(shù)據(jù)標注在產(chǎn)業(yè)應用模式上迅速革新。當前，隨著數(shù)據(jù)要素市場化配置進程加速、生產(chǎn)力度加大，數(shù)據(jù)標注產(chǎn)業(yè)迎來快速發(fā)展階段，2021年我國數(shù)據(jù)標注行業(yè)市場規(guī)模已達到43.3億元。18數(shù)據(jù)標注在產(chǎn)業(yè)應用上正經(jīng)歷著從外包手動標注到一體化數(shù)據(jù)處理的模式變革。過去，多數(shù)公司委托外包公司或眾包平臺，對數(shù)據(jù)集進行手動標注，以提升數(shù)據(jù)集質量；后來，隨著大模型對數(shù)據(jù)需求的提升，單靠人力已無法滿足數(shù)據(jù)供給的效率要求，一體化的數(shù)據(jù)處理平臺、算法工具鏈開始發(fā)展起來，并在行業(yè)中得到了廣泛的應用。三是數(shù)據(jù)標注規(guī)范逐步完善?！渡墒饺斯ぶ悄芊展芾頃盒修k法》第八條要求，在生成式人工智能技術研發(fā)過程中進行數(shù)據(jù)標注的，提供者應當制定符合本辦法要求的清晰、具體、可操作的標注規(guī)則；開展數(shù)據(jù)標注質量評估，抽樣核驗標注內(nèi)容的準確性；對標注人員進行必要培訓，提升遵法守法意識，監(jiān)督指導標注人員規(guī)范開展標注工作。此外，我國出臺參見陳蕾、薛欽源：《著力構建高質量數(shù)據(jù)要素市場》，載《中國社會科學報》2023年第3期。參見/s/JGc-iPFDESgTz9riM7MTug.25大模型治理藍皮書—從規(guī)則走向實踐（2023年）《人工智能面向機器學習的數(shù)據(jù)標注規(guī)程》《大同市促進數(shù)據(jù)呼叫（標注）產(chǎn)業(yè)發(fā)展的若干政策》等相關政策標準，細化數(shù)據(jù)標注規(guī)范。合成數(shù)據(jù)成為未來大模型訓練重要數(shù)據(jù)來源。合成數(shù)據(jù)是通過計算機模擬技術或者算法創(chuàng)建、生成的，在數(shù)學、物理或者統(tǒng)計學上可以反映真實世界數(shù)據(jù)屬性的自標注信息。MIT科技評論將AI合成數(shù)據(jù)列為2022年10大突破性技術之一。第一，合成數(shù)據(jù)誕生于高質量數(shù)據(jù)集匱乏的大背景之下。當前社會中充斥著大量如聊天記錄等連續(xù)性弱、邏輯性差、訓練作用有限的低質量數(shù)據(jù)，造成了有效數(shù)據(jù)的稀缺；GPT-3的開發(fā)文檔揭露，其對純文本數(shù)據(jù)進行質量過濾后僅可獲1.27%有效數(shù)據(jù)。此外，在隱私保護、知識產(chǎn)權、信息壟斷等因素作用下，特殊行業(yè)的高質量數(shù)據(jù)難以獲取，即使獲取也時常無法進入訓練集使用。專家警告，ChatGPT等人工智能驅動的機器人可能很快就會“耗盡宇宙中的文本”；更有研究在探討了數(shù)據(jù)短缺的可能性后預測，按照目前的模型增長速度，到2026年左右，高質量NLP數(shù)據(jù)將會不足以支持訓練。19第二，合成數(shù)據(jù)在生產(chǎn)效率提升、獲取成本降低、數(shù)據(jù)質量提升、隱私/安全問題規(guī)避等方面具有顯著優(yōu)勢。在效率上，合成數(shù)據(jù)可以自動產(chǎn)生，緩解真實數(shù)據(jù)集增速有限的問題。在成本上，合成數(shù)據(jù)既能在采集方面節(jié)省數(shù)據(jù)采集團隊、數(shù)據(jù)回傳系統(tǒng)和數(shù)據(jù)篩選系統(tǒng)，也因其自標注的特征在圖片標注上僅需花費人工標注約1%的成本。在質量上，合成數(shù)據(jù)為定向生產(chǎn)數(shù)據(jù)、定制大模型特征提供了可能，有利于保證數(shù)據(jù)的均衡性，解決真實數(shù)據(jù)長尾特參見PabloVillalobos,JaimeSevilla,LennartHeim,TamayBesiroglu,MariusHobbhahn,AnsonHo.Willwerunoutofdata?AnanalysisofthelimitsofscalingdatasetsinMachineLearning.arXive-prints.26大模型治理藍皮書—從規(guī)則走向實踐（2023年）征導致的無法針對邊緣案例進行大模型訓練的問題，在AI訓練中發(fā)揮較真實數(shù)據(jù)同樣甚至更好的效果。20在隱私與安全上，合成數(shù)據(jù)避免了基于真實數(shù)據(jù)常見的用戶隱私問題與國家安全問題，對于金融、醫(yī)療等數(shù)據(jù)開放度低、壟斷性強的領域具有重要意義。21第三，當前，合成數(shù)據(jù)在全球范圍內(nèi)的應用場景日益多元，產(chǎn)業(yè)細分化程度逐漸提升，未來的人工智能或將依賴合成數(shù)據(jù)進行訓練。合成數(shù)據(jù)早期主要應用于計算機視覺領域，借此解決自動駕駛汽車、機器人、安防、制造業(yè)等行業(yè)中真實數(shù)據(jù)難以獲取的問題。例如，騰訊開發(fā)的自動駕駛仿真系統(tǒng)TADSim可以自動生成無需標注的各種交通場景數(shù)據(jù)，助力自動駕駛系統(tǒng)開發(fā)。目前，合成數(shù)據(jù)正迅速向金融、醫(yī)療、零售、工業(yè)等諸多產(chǎn)業(yè)領域拓展應用。微軟、OpenAI、Cohere等公司，紛紛轉向使用合成數(shù)據(jù)作為解決方案，以降低數(shù)據(jù)成本，推動AI技術的發(fā)展。在此需求之下，針對各種應用情景的合成數(shù)據(jù)創(chuàng)業(yè)公司應運而生，產(chǎn)業(yè)整體正在向更細分化、專業(yè)化的方向發(fā)展。Gartner預測，2024年用于訓練AI的數(shù)據(jù)中有60%將是合成數(shù)據(jù)，到2030年合成數(shù)據(jù)將徹底取代真實數(shù)據(jù)，成為訓練人工智能的主要數(shù)據(jù)來源。2.數(shù)據(jù)隱私保護各國探索在現(xiàn)有的個人信息保護框架下應對大模型帶來的隱私風險。一是在人工智能立法中援引已有的個人信息保護法律規(guī)則。例如，歐盟《人工智能法案》第45條要求，在人工智能系統(tǒng)全生命周參見/2022/synthetic-data-ai-improvements-1103.參見曹建峰、陳楚儀：《AIGC浪潮下，合成數(shù)據(jù)關乎人工智能的未來》，載《新經(jīng)濟導刊》2022年第4期，第25-31頁。27大模型治理藍皮書—從規(guī)則走向實踐（2023年）期中，應當保障個人數(shù)據(jù)權利，要求數(shù)據(jù)收集和處理符合《通用數(shù)據(jù)保護條例》的規(guī)定。我國《生成式人工智能服務管理暫行辦法》第七條規(guī)定，生成式人工智能服務提供者應當使用具有合法來源的數(shù)據(jù)依法開展預訓練、優(yōu)化訓練等訓練數(shù)據(jù)處理活動，遵守《個人信息保護法》等法律。二是出臺解釋性或指引性規(guī)則保障數(shù)據(jù)隱私。法國數(shù)據(jù)保護監(jiān)管機構CNIL發(fā)布《人工智能：國家信息與自由委員會（CNIL）行動計劃》指出，未來幾個月將重點關注ChatGPT等大模型技術，開發(fā)隱私友好型人工智能系統(tǒng)、開發(fā)審計和控制人工智能的手段、探索最佳實踐等。224月，英國信息專員辦公室（ICO）發(fā)布開發(fā)或使AIGC的指南文件，列明了ICO重點關注的八大領域，包括處理個人數(shù)據(jù)的合法依據(jù)、數(shù)據(jù)保護影響評估、限制不必要處理等內(nèi)容。新加坡個人數(shù)據(jù)保護委員會（PDPC）研究生成式人工智能對新加坡《個人數(shù)據(jù)保護法》的影響，發(fā)布《關于在人工智能推薦與決策系統(tǒng)中使用個人數(shù)據(jù)的建議指南草案》。23三是積極探索監(jiān)管沙盒等創(chuàng)新治理手段。挪威數(shù)據(jù)保護監(jiān)管機構嘗試對處理個人信息的人工智能企業(yè)進行沙盒測試，在安全可控的環(huán)境中測試人工智能處理個人信息的影響。24訓練數(shù)據(jù)的合法性基礎是個人信息保護的焦點問題。訓練數(shù)據(jù)的來源包括企業(yè)直接收集、網(wǎng)絡抓取、使用開源數(shù)據(jù)集和通過商業(yè)途徑參見《人工智能：國家信息與自由委員會（CNIL）的行動計劃》，il.fr/en/artificial-intelligence-action-plan-cnil參見《關于在人工智能推薦與決策系統(tǒng)中使用個人數(shù)據(jù)的建議指南草案》，.sg/-/media/Files/PDPC/PDF-Files/Legislation-and-Guidelines/Public-Consult-on-Proposed-AG-on-Use-of-PD-in-AI-Recommendation-and-Systems-2023-07-18-Draft-Advisory-Guidelines.pdf參見《挪威DPA關于在Ruter參與AI監(jiān)管沙盒的最終報告》，https://www.datatilsynet.no/en/regulations-and-tools/sandbox-for-artificial-intelligence/reports/ruter-exit-report-on-track-with-artificial-intelligence/going-forward/.28大模型治理藍皮書—從規(guī)則走向實踐（2023年）獲取等途徑。企業(yè)直接收集數(shù)據(jù)應取得使用數(shù)據(jù)的合法性基礎。當超出原有目的，將有關個人信息用作模型訓練時，如何取得相應的合法性基礎？對此，百度等開發(fā)大模型的廠商在其隱私協(xié)議中指出，在使用用戶的個人信息前，會對個人信息進行匿名化或去標識化處理，以達到無法識別具體個人的程度。25OECD在今年2月份發(fā)布的《推進人工智能的可問責原則》的數(shù)字經(jīng)濟文件中強調，無論是在用于訓練的數(shù)據(jù)集中還是在終端用戶可以訪問的數(shù)據(jù)集中，應當進行敏感數(shù)據(jù)和個人數(shù)據(jù)的識別。26如模型涉及提取人臉、聲紋等敏感個人信息用于人臉識別、對比、關聯(lián)與挖掘，在訓練數(shù)據(jù)獲取前需通過產(chǎn)品端上單獨的彈窗、協(xié)議或其他單獨的授權頁面等“選擇加入”（opt-in）的方式獲得個人信息主體的單獨同意。通過商業(yè)途徑獲得授權的訓練數(shù)據(jù)，應要求交易方提供語料合法性證明。美國加州《刪除法》（TheDeleteAct）提出應允許個人要求數(shù)據(jù)經(jīng)紀商刪除其個人信息，減少公民個人信息在數(shù)據(jù)交易中泄露的可能。27從采買、外部采集等外部渠道獲取的敏感個人信息用于模型訓練的目的，需要和個人信息權利主體單獨簽署《個人信息授權書》等相關授權文件，文件中需明確寫明收集的敏感個人信息的類型以及使用的場景與目的，不得超出授權的范圍對敏感個人信息進行使用。網(wǎng)絡抓取訓練數(shù)據(jù)應合法進行。澳大利亞信息專員辦公室聯(lián)合其他11個國家的數(shù)據(jù)和隱私保護機構，發(fā)布《關于數(shù)據(jù)抓取和隱私保護的聯(lián)合聲明》，旨在說明社交媒體公參見《文心一言個人信息保護規(guī)則》，/talk/protectionrule/android.參見《推進人工智能的可問責原則》,/docserver/2448f04b-en.pdf?expires=1699552106&id=id&accname=guest&checksum=F7E1FC3A212BF83F1BF2AB818C22EE3F.參見Trahan,Edwards,Cassidy,OssoffReintroduceBicameralBilltoReininDataBrokers,/news/documentsingle.aspx?DocumentID=2934.29大模型治理藍皮書—從規(guī)則走向實踐（2023年）司和個人網(wǎng)站如何保護個人信息免受非法抓取，以滿足監(jiān)管需求。28開源數(shù)據(jù)集的使用應當遵守開源協(xié)議或者取得相應授權文件。202310月，全國信安標委發(fā)布《生成式人工智能服務安全基本要求》（征求意見稿）第5條規(guī)定，生成式人工智能服務的提供者應當對生成式人工智能的語料來源進行評估，通過開源協(xié)議獲得的語料應當遵守開源協(xié)議或者相應授權文件。使用包含個人信息的語料時，獲得對應個人信息主體的授權同意，或滿足其他合法使用該個人信息的條件。專欄1：金融領域考慮數(shù)據(jù)安全而謹慎應用大模型服務根據(jù)彭博社在今年二月的報道，美國銀行、花旗集團、德意志銀行、高盛集團和富國銀行等多家金融機構在不同程度上限制類似ChatGPT等大模型產(chǎn)品的應用。富國銀行的發(fā)言人表示，其在評估ChatGPT等應用的安全性之前，將繼續(xù)限制其在本機構的應用。2920233月20日，OpenAI開源代碼庫出現(xiàn)漏洞，導致1.2%ChatGPT付費用戶的姓名、賬戶信息、聊天記錄等數(shù)據(jù)泄露，引發(fā)全球數(shù)據(jù)安全和隱私憂慮。由于金融業(yè)對身份信息、金融資產(chǎn)、交易記錄、信用歷史等數(shù)據(jù)流動的合規(guī)要求較高，在數(shù)據(jù)安全和隱私保護方面面臨巨大挑戰(zhàn)，金融機構對于大模型在其業(yè)務中的應用顯得更為謹慎。202210月，中國人民銀行發(fā)布并實施《金融領域科技倫理指引》，提出金融機構應當嚴格采取防護措施，嚴防隱私泄露，保護數(shù)據(jù)主體權利不受侵害。參見《關于數(shù)據(jù)抓取和隱私保護的聯(lián)合聲明》，.au/newsroom/global-expectations-of-social-media-platforms-and-other-sites-to-safeguard-against-unlawful-data-scraping.參見/news/articles/2023-11-16/apple-plans-to-adopt-rcs-texting-standard-in-truce-with-android.30大模型治理藍皮書—從規(guī)則走向實踐（2023年）透明度和可問責是個人信息保護的重要制度保障。透明度方面，今年7月，美國聯(lián)邦貿(mào)易委員會（FTC）對OpenAI啟動新的民事調查質詢（CivilInvestigativeDemand），在此次質詢文本中，F(xiàn)TC主要圍繞大模型產(chǎn)品設計了49個問題，其中特別包括了原始訓練數(shù)據(jù)和數(shù)據(jù)隱私保護政策，要求OpenAI披露相關信息，提供相關說明。美國參議院召開聽證會討論《人工智能兩黨立法框架》，框架要求AI開發(fā)和部署人員必須遵守與系統(tǒng)透明度相關的責任要求，包括披露AI系統(tǒng)的訓練數(shù)據(jù)。30問責方面，OECD在今年2月份發(fā)布的《推進人工智能的可問責原則》的數(shù)字經(jīng)濟文件中提到，在人工智能生命周期的不同階段采取不同技術相關和流程相關的方法來增加人工智能的透明度和可問責性。31英國政府于2023年3月發(fā)布的《人工智能監(jiān)管：支持創(chuàng)新的方法》中，將問責和管理原則列為其五項核心原則之一。同時，該原則也是英國數(shù)據(jù)監(jiān)管機關在監(jiān)管人工智能使用和生成個人數(shù)據(jù)方面的重點關注。32以刪除權為代表的個人信息權益實現(xiàn)面臨實踐困境。美國國會研究處發(fā)布的《生成式人工智能與數(shù)據(jù)隱私：入門指南》指出，目前，大多數(shù)領先的聊天機器人和其他人工智能模型并不提供讓用戶刪除其個人信息的選項。國會可能會考慮要求公司為用戶提供退出數(shù)據(jù)收集的選項（Opt-out），或要求公司提供機制，讓用戶能夠從現(xiàn)有數(shù)據(jù)參見《人工智能兩黨立法框架》，/imo/media/doc/09072023bipartisanaiframework.pdf.參見《推進人工智能的可問責原則》，/science-and-technology/advancing-accountability-in-ai_2448f04b-en.參見《人工智能監(jiān)管：支持創(chuàng)新的方法》，.uk/government/publications/ai-regulation-a-pro-innovation-approach.31大模型治理藍皮書—從規(guī)則走向實踐（2023年）集中刪除他們的數(shù)據(jù)，或者規(guī)定個人數(shù)據(jù)的最大保留期限。332023年10月26日，歐洲數(shù)據(jù)保護組織聯(lián)盟（CEDPO）發(fā)布《生成式人工智能：數(shù)據(jù)保護的影響》報告強調，數(shù)據(jù)主體請求修改或者刪除原始訓練數(shù)據(jù)集中的個人信息可能會影響模型的準確性。不僅如此，要求刪除已嵌入模型中的訓練數(shù)據(jù)往往會增加企業(yè)的時間與金錢成本。因此，其建議采用匿名技術和數(shù)據(jù)最小化的實踐在維護個人信息權利和保持人工智能生成模型的整體實用性之間取得平衡34。面對用戶刪除權的訴求，OpenAI在其隱私協(xié)議中表示將會根據(jù)用戶請求盡量“刪除”模型中用戶的個人信息。35用戶交互信息帶來的隱私問題受到關注。用戶有意或無意輸入的個人信息可能會被用來進行訓練，從而進入模型的參數(shù)并泄露在其他用戶生成的內(nèi)容中。OpenAI等廠商在其大模型服務的協(xié)議中規(guī)定用戶與大模型產(chǎn)品交互的內(nèi)容會被用來進行大模型的訓練36，而在OpenAI根據(jù)意大利數(shù)據(jù)保護機構修訂的隱私政策中，規(guī)定為所有的用戶提供了不保留交互記錄的選項。37（二）知識產(chǎn)權保護1.輸入端：訓練數(shù)據(jù)版權治理規(guī)則探索為更好地釋放作品數(shù)據(jù)價值，世界主要經(jīng)濟體積極為人工智能訓練提供版權制度保障。韓國、日本、以色列等國家持開放態(tài)度。2022年12月，以色列司法部發(fā)布意見書明確，受版權作品可用于機器學參見《生成式人工智能與數(shù)據(jù)隱私：入門指南》，/product/pdf/R/R47569.參見《生成式人工智能：數(shù)據(jù)保護的影響》,https://cedpo.eu/generative-ai-the-data-protection-implications/.參見OpenAI《隱私政策》第4條，/policies/privacy-policy.參見《OpenAI隱私政策》，/policies/privacy-policy.參見《ChatGPT:OpenAI重新在意大利開放平臺，保證給歐洲的用戶和非用戶更多的透明度和更多的權利》，https://www.garanteprivacy.it/web/guest/home/docweb/-/docweb-display/docweb/9881490.32大模型治理藍皮書—從規(guī)則走向實踐（2023年）習。2023年2月，韓國發(fā)布《新增長4.0推進計劃》指出，為促進人工智能服務創(chuàng)新發(fā)展，需推動版權法修訂，允許在數(shù)據(jù)分析中使用版權作品。5月，日本政府人工智能戰(zhàn)略委員會發(fā)布草案規(guī)定，人工智能訓練數(shù)據(jù)不受版權法限制，因此被稱為人工智能“訓練天堂”。美國現(xiàn)有規(guī)定提供了一定的解釋空間。美國在2017年《人工智能未來法案》中表明了其對大模型開發(fā)和數(shù)據(jù)共享的支持立場38。司法領域中，2023年9月，作為ChatGPT發(fā)布以來首起關于大模型訓練“合理使用”的案例，美國法院在ThomsonReutersEnterpriseCenterv.RossIntelligenceInc.一案指出，人工智能訓練使用版權作品是否滿足作為合理使用關鍵判定因素的轉換性使用，主要取決于人工智能復制目的是為學習語言模式還是重復作品的創(chuàng)新性成果39。目前我國對此則持有保守態(tài)度。網(wǎng)信辦等七部門發(fā)布《生成式人工智能服務管理暫行辦法》規(guī)定，大模型服務提供者應當依法開展預訓練、優(yōu)化訓練等訓練數(shù)據(jù)處理活動，使用具有合法來源的數(shù)據(jù)和基礎模型；不得侵害他人依法享有的知識產(chǎn)權?！吨鳈喾ā返?4條中列舉的合理使用原則的具體情形，也無法將大規(guī)模機器學習行為涵蓋在內(nèi)，在我國大模型訓練過程未經(jīng)許可利用版權作品存在一定侵權風險。《著作權法》立法目的不僅在于賦予著作權人專有權以激勵作品的創(chuàng)作，促進創(chuàng)新和文化繁榮；更在于平衡社會公共利益與相關主體的利益訴求，促進知識公眾傳播并保障公眾獲取知識的權利。為作品參見《人工智能未來法案》第4節(jié)b.1.e.參見ThomsonReutersEnterpriseCenterGMBHandWestPublishingCorp.,v.RossIntelligenceInc.,MemorandumOpinion,Sep.25,2023,CaseNo.1:20-cv-613-SB.33大模型治理藍皮書—從規(guī)則走向實踐（2023年）數(shù)據(jù)挖掘使用提供合理使用空間的立法例，主要存在以下考量：一是展現(xiàn)開放姿態(tài)，吸引人工智能企業(yè)。為避免侵權賠償而需投入大量金錢以獲取授權，生成人工智能系統(tǒng)開發(fā)運營商可能將運營基地轉移到允許使用版權作品進行訓練的國家。二是提高訓練數(shù)據(jù)集質量。出于對高昂許可費用和潛在侵權風險的擔心，生成式人工智能系統(tǒng)的開發(fā)運營商往往選擇公共領域的作品或者經(jīng)由協(xié)議獲得的有限作品進行訓練。規(guī)模和質量有限的數(shù)據(jù)集會導致模型出現(xiàn)“算法偏見”“內(nèi)容毒性”等問題。三是提供良性競爭環(huán)境，避免行業(yè)壟斷。授權的高昂費用導致進一步擴大生成人工智能系統(tǒng)開發(fā)運營商之間的差距，最終導致“贏者通吃”不公平的競爭環(huán)境甚至行業(yè)壟斷。為抵消版權過度保護可能產(chǎn)生的壁壘效用，可以在兼顧社會公眾利益、科技創(chuàng)新發(fā)展和著作權保護的基礎上，構建更加開放的合理使用制度。2.輸出端：人工智能生成物知識產(chǎn)權保護進路展望生成式人工智能基于深度學習等技術實現(xiàn)了人類所理解的知識生產(chǎn)方式的顛覆，并在文化市場與工業(yè)應用中展現(xiàn)了巨大商業(yè)價值。其獨立創(chuàng)作、多元主體參與的知識生產(chǎn)方式不僅給以人類為中心構建的知識產(chǎn)權制度本身帶來了沖擊，而且也給司法實踐帶來了新問題。人工智能輸出端的治理不僅在于精準賦權以避免公地悲劇，更在于市場主體之間的利益平衡以保障人工智能產(chǎn)業(yè)健康發(fā)展。生成式人工智能的發(fā)展超出各國知識產(chǎn)權制度立法預期，人工智能生成內(nèi)容可版權性與可專利性存在較大爭議。2023年9月，經(jīng)濟合作與發(fā)展組織（OECD）發(fā)布報告《七國集團（G7）生成式人工智34大模型治理藍皮書—從規(guī)則走向實踐（2023年）能廣島進程：達成G7生成式人工智能共識》，報告指出：生成式人工智能對知識產(chǎn)權帶來了挑戰(zhàn)。國家層面正在調查完全或部分由生成式人工智能創(chuàng)建的內(nèi)容的知識產(chǎn)權法律地位問題。英國重視人工智能生成物的知識產(chǎn)權保護問題，并做出了積極的嘗試。英國《版權、外觀設計和專利法》明確提及計算機生成作品的文學、戲劇、音樂或藝術作品。美國當前實踐并不認可人工智能生成物知識產(chǎn)權客體屬性。美國聯(lián)邦巡回上訴法院認為人工智能無法成為發(fā)明人，從而駁回人工智能生成技術方案的專利申請。美國版權局《版權登記指南》同樣指出，只有由人類創(chuàng)作的內(nèi)容才有資格成為作品，不會登記沒有人類作者的任何創(chuàng)造性投入或干預隨機或自動運行的內(nèi)容為作品。我國司法實踐對人工智能生成物可版權性存在不同見解。在“菲林訴百度案”中，二審法院認為作品的作者范圍應當限于自然人，人工智能生成的作品不能構成著作權法上的作品40。在“騰訊訴盈訊案”中，法院認為相關人員個性化安排與選擇對案涉人工智能生成物具有決定作用，具有一定的獨創(chuàng)性，構成文字作品41。面臨大模型所帶來的價值沖突，需作為“技術之子”的知識產(chǎn)權制度積極回應。一是對人工智能生成物法律屬性予以明確。知識產(chǎn)權客體并未明確排除人工智能生成物，其在一定程度上滿足作品與發(fā)明構成要件，但是也存在著主體適格、思想價值等質疑。二是厘定權屬分配以保障利益公平。目前人工智能生成物的權屬分配尚不明晰，英國在《版權、外觀設計和專利法》中，將計算機生成作品的版權授予參見北京知識產(chǎn)權法院民事判決書，（2019）京73民終2030號。參見廣東省深圳市南山區(qū)人民法院民事判決書，（2019）粵0305民初14010號。35大模型治理藍皮書—從規(guī)則走向實踐（2023年）“在作品創(chuàng)作過程中進行了必要安排的人”，但司法實踐中對“必要安排的人”尚存爭議。OpenAI公司則在《共享和發(fā)布政策》中提出ChatGPT共同創(chuàng)作的內(nèi)容歸屬于用戶。三是對相關權利行使作出適當限制。例如，人工智能作品相較于人類作品具備生產(chǎn)效率高、迭代迅速的優(yōu)勢，針對人工智能生成物的權利保護期限是否應當合理調整。（三）倫理問題治理超越人類控制是大模型的典型倫理風險。大模型潛在的失控風險性，很大程度來源于大模型的“智能涌現(xiàn)”能力，使大模型可能超越人類控制，生成具有各類倫理風險、不服從人類價值觀的內(nèi)容。價值對齊是人工智能倫理治理的重要解決方案。價值對齊即要求人工智能系統(tǒng)的能力和行為與人類的價值觀、真實意圖、利益以及倫理原則相一致，確保人類與人工智能協(xié)作過程中的安全與信任，是讓大模型更加安全、可靠和實用的核心議題。大模型價值對齊的實現(xiàn)，需要多種對齊技術和監(jiān)管治理措施的結合。通過對訓練數(shù)據(jù)的有效干預，從根源層面消除數(shù)據(jù)蘊含的倫理安全風險；通過人類反饋強化學習（RLHF）、模型可解釋性等技術，在模型訓練和學習過程中，從模型層面讓人工智能理解和遵從人類的價值、偏好與倫理原則；通過對抗測試和內(nèi)容過濾工具，從使用層面發(fā)現(xiàn)模型的潛在倫理安全問題，過濾可能存在倫理風險的模型輸出。利用上述多種技術和治理措施的36大模型治理藍皮書—從規(guī)則走向實踐（2023年）結合，從人工智能開發(fā)和使用流程多個層面上實現(xiàn)價值對齊，創(chuàng)建安全、可靠、實用的人工智能模型。專欄2：醫(yī)療領域人工智能大模型存在的偏見風險2019年發(fā)表在《科學》雜志上的一項具有里程碑意義的研究發(fā)現(xiàn)，一種用于預測1億多人醫(yī)療需求的算法對黑人患者存在偏見。該算法依靠醫(yī)療支出來預測未來的醫(yī)療需求。但由于歷史上黑人患者獲得醫(yī)療服務的機會較少，他們往往花費較少。因此，根據(jù)該算法，黑人患者的病情必須嚴重得多，才會被推薦接受額外護理。42如果大模型的訓練數(shù)據(jù)集中存在樣本不平衡、歧視、偏見、歪曲表述等內(nèi)容，由此產(chǎn)生的模型可能會無意中學習和

人人文庫> 全部分類> 專業(yè)文獻 > 學術論文

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

大模型治理藍皮報告（2023年）-從規(guī)則走向實踐

文檔簡介

溫馨提示

最新文檔

評論

相關文檔