大模型訓(xùn)練數(shù)據(jù)行業(yè)市場(chǎng)前景及投資研究報(bào)告:培訓(xùn)課件_第1頁(yè)
大模型訓(xùn)練數(shù)據(jù)行業(yè)市場(chǎng)前景及投資研究報(bào)告:培訓(xùn)課件_第2頁(yè)
大模型訓(xùn)練數(shù)據(jù)行業(yè)市場(chǎng)前景及投資研究報(bào)告:培訓(xùn)課件_第3頁(yè)
大模型訓(xùn)練數(shù)據(jù)行業(yè)市場(chǎng)前景及投資研究報(bào)告:培訓(xùn)課件_第4頁(yè)
大模型訓(xùn)練數(shù)據(jù)行業(yè)市場(chǎng)前景及投資研究報(bào)告:培訓(xùn)課件_第5頁(yè)
已閱讀5頁(yè),還剩22頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大模型訓(xùn)練數(shù)據(jù)白皮書(shū)目錄CONTENTS01..........................................................................

02訓(xùn)練數(shù)據(jù)對(duì)大模型發(fā)展的重要性02.....................................................................................

03模型訓(xùn)練所需的數(shù)據(jù)類型2.1訓(xùn)練大語(yǔ)言模型的數(shù)據(jù)

..................................................................................

032.2訓(xùn)練多模態(tài)模型的數(shù)據(jù)

..................................................................................

042.3訓(xùn)練數(shù)據(jù)的常見(jiàn)疑問(wèn)和誤解

...........................................................................

042.3.1大模型訓(xùn)練并不依賴用戶個(gè)人信息

......................................................

042.3.2中文語(yǔ)料短缺不是制約我國(guó)大模型發(fā)展的重要因素

.............................

0503......................................................................

06科學(xué)理解高質(zhì)量數(shù)據(jù)的含義與作用3.1高質(zhì)量數(shù)據(jù)的重要性

......................................................................................

063.2高質(zhì)量數(shù)據(jù)的標(biāo)準(zhǔn)

..........................................................................................

073.2.1高質(zhì)量數(shù)據(jù)類型的三重不確定性

..........................................................

073.2.2同類數(shù)據(jù)的評(píng)估標(biāo)準(zhǔn)并不完全一致

......................................................

0804....................................................

09合成數(shù)據(jù)作為解決訓(xùn)練數(shù)據(jù)供給不足的新方案4.1訓(xùn)練數(shù)據(jù)供給不足帶來(lái)的思考

........................................................................

094.2合成數(shù)據(jù)的定義

.............................................................................................

104.3合成數(shù)據(jù)的必要性

..........................................................................................

104.4合成數(shù)據(jù)的生成方法及分類

...........................................................................

114.5合成數(shù)據(jù)在模型訓(xùn)練中的作用

........................................................................

124.5.1預(yù)訓(xùn)練語(yǔ)料的新物種

............................................................................

124.5.2提升對(duì)齊語(yǔ)料獲取效率的..........................................................

134.6解決訓(xùn)練數(shù)據(jù)供給不足的新方案

....................................................................

144.7在發(fā)展中治理的合成數(shù)據(jù)

...............................................................................

160506..............................................................................

17對(duì)大模型訓(xùn)練數(shù)據(jù)治理的思考5.1大模型對(duì)訓(xùn)練數(shù)據(jù)的使用特點(diǎn)

........................................................................

175.2大模型訓(xùn)練數(shù)據(jù)合規(guī)的治理之智

....................................................................

18...................................................................

19政府與社會(huì)力量協(xié)同的訓(xùn)練數(shù)據(jù)生態(tài)6.1美國(guó)的現(xiàn)狀

....................................................................................................

196.2中國(guó)的現(xiàn)狀

....................................................................................................

210708...................................................................

23阿里巴巴集團(tuán)在大模型訓(xùn)練與應(yīng)用的探索.................................................

24以更開(kāi)放和務(wù)實(shí)的方式解決高質(zhì)量訓(xùn)練數(shù)據(jù)供給自《中共中央國(guó)務(wù)院關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見(jiàn)》發(fā)布以來(lái),我國(guó)數(shù)據(jù)要素建設(shè)不斷深入,在國(guó)家數(shù)據(jù)局等

17

部門(mén)聯(lián)合印發(fā)的《“數(shù)據(jù)要素

×”

三年行動(dòng)計(jì)劃(2024-2026

年)》進(jìn)一步明確

“建設(shè)高質(zhì)量語(yǔ)料庫(kù)和基礎(chǔ)科學(xué)數(shù)據(jù)集,支持開(kāi)展人工智能大模型開(kāi)發(fā)和訓(xùn)練”。通過(guò)數(shù)據(jù)要素建設(shè)推動(dòng)人工智能大模型發(fā)展,可以有效解決我國(guó)人工智能,特別是大模型研發(fā)所面臨的數(shù)據(jù)瓶頸,進(jìn)一步發(fā)揮大模型對(duì)于世界知識(shí)數(shù)據(jù)的匯集和處理能力,創(chuàng)造更大的生產(chǎn)力,助力我國(guó)從數(shù)據(jù)經(jīng)濟(jì)走向智能經(jīng)濟(jì)新發(fā)展模式。大模型是數(shù)據(jù)要素價(jià)值釋放的最短路徑,通過(guò)理解其訓(xùn)練所使用的數(shù)據(jù)類型,可以更好理解大模型發(fā)揮價(jià)值的內(nèi)在機(jī)制,破解對(duì)訓(xùn)練數(shù)據(jù)常見(jiàn)的迷思和誤解。而促進(jìn)高質(zhì)量訓(xùn)練數(shù)據(jù)的建設(shè),需要理解人工智能對(duì)數(shù)據(jù)的實(shí)際需求,科學(xué)評(píng)價(jià)數(shù)據(jù)的規(guī)模和質(zhì)量;需要綜合利用政府、企業(yè)、社會(huì)等各方資源,構(gòu)建共享、共創(chuàng)、共贏的合作生態(tài),以更務(wù)實(shí)、多元、開(kāi)放的方式解決供給不足的問(wèn)題;還需要為技術(shù)發(fā)展預(yù)留空間,構(gòu)建更順應(yīng)模型發(fā)展的數(shù)據(jù)治理體系,相信隨著技術(shù)的日益成熟,相應(yīng)的商業(yè)模式和制度設(shè)計(jì)也都會(huì)逐步完善。01大模型訓(xùn)練數(shù)據(jù)白皮書(shū)01訓(xùn)練數(shù)據(jù)對(duì)大模型發(fā)展的重要性業(yè)界認(rèn)為,算法、算力與數(shù)據(jù),是支撐大模型發(fā)展的三大基石。更高質(zhì)量、更豐富的數(shù)據(jù)是以

GPT

為例的生成式人工智能大模型成功的驅(qū)動(dòng)力。GPT

模型架構(gòu)從第

1

代到第

4

代均較為相似,而用來(lái)訓(xùn)練數(shù)據(jù)的數(shù)據(jù)規(guī)模和質(zhì)量卻有很大的不同。GPT-1

是由

4.8G

未過(guò)濾原始數(shù)據(jù)訓(xùn)練,GPT-2

是由經(jīng)人類過(guò)濾后的

40G

數(shù)據(jù)訓(xùn)練,GPT-3是由從

45T

原始數(shù)據(jù)中過(guò)濾的

570G

數(shù)據(jù)訓(xùn)練,而

chatGPT/GPT-4

則是在該基礎(chǔ)上又加入了高質(zhì)量人類標(biāo)注。以吳恩達(dá)(AndrewNg)為代表的學(xué)者觀點(diǎn)認(rèn)為,人工智能是以數(shù)據(jù)為中心的,而不是以模型為中心。“有標(biāo)注的高質(zhì)量數(shù)據(jù)才能釋放人工智能的價(jià)值,如果業(yè)界將更多精力放在數(shù)據(jù)質(zhì)量上,人工智能的發(fā)展會(huì)更快”。0202模型訓(xùn)練所需的數(shù)據(jù)類型數(shù)據(jù)作為大模型訓(xùn)練的基礎(chǔ),它提供了大模型所必需的知識(shí)和信息。區(qū)別于以往搜索系統(tǒng)、個(gè)性化推薦等所需的大量用戶行為和偏好數(shù)據(jù),隨著技術(shù)的演進(jìn),大模型所需的數(shù)據(jù)是對(duì)知識(shí)性內(nèi)容有強(qiáng)需求,是一種新的類型。2.1?訓(xùn)練大語(yǔ)言模型的數(shù)據(jù)大模型所需要的數(shù)據(jù)根據(jù)訓(xùn)練的階段有所不同。以

ChatGPT

為代表的大語(yǔ)言模型(LLM)為例,其訓(xùn)練過(guò)程分為預(yù)訓(xùn)練(Pre-training)、監(jiān)督微調(diào)(SFT)、基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)三個(gè)階段,后兩部分又統(tǒng)稱為03大模型訓(xùn)練數(shù)據(jù)白皮書(shū)“對(duì)齊”(Alignment)階段。第一階段預(yù)訓(xùn)練所需的語(yǔ)料是各種類型的世界知識(shí),包括網(wǎng)頁(yè)、書(shū)籍、新聞、論文期刊、對(duì)話文本、代碼等形式,通過(guò)大量學(xué)習(xí)世界知識(shí),構(gòu)建模型的基礎(chǔ)能力,理解客觀世界的規(guī)律,該階段的語(yǔ)料特征可以概括為

“廣”。第二階段

SFT,通過(guò)標(biāo)注人員設(shè)計(jì)問(wèn)答,編寫(xiě)正確答案,將例題投喂給模型,并希望模型在沒(méi)有見(jiàn)過(guò)的任務(wù)中“舉一反三”,提升泛化能力。第三階段

RLHF,訓(xùn)練目標(biāo)是讓模型的價(jià)值觀與人類對(duì)齊,需要人類對(duì)模型的回答進(jìn)行打分、排序,讓模型知道

"

怎么說(shuō)更好

"。第二和第三階段的數(shù)據(jù)質(zhì)量要求較高,需要來(lái)自人類的高質(zhì)量反饋,語(yǔ)料特征可以概括為

“齊”。如果將模型微調(diào)后部署應(yīng)用于特定的場(chǎng)景形成行業(yè)大模型(如工業(yè)、金融、醫(yī)療等),則需要滿足該場(chǎng)景專業(yè)需求的特定領(lǐng)域知識(shí)做預(yù)訓(xùn)練和對(duì)齊,需要具備一定專業(yè)深度,如行業(yè)數(shù)據(jù)庫(kù)、專業(yè)文檔、專業(yè)網(wǎng)站等,這部分的語(yǔ)料特征是

“專”。2.2?訓(xùn)練多模態(tài)模型的數(shù)據(jù)大語(yǔ)言模型迅速發(fā)展的同時(shí),Transformer

開(kāi)始遷移到圖像、視頻和語(yǔ)音等其他模態(tài)數(shù)據(jù)領(lǐng)域,并與大語(yǔ)言模型融合,形成多模態(tài)大模型。多模態(tài)模型模擬人類大腦處理信息的方式,把各種感知模態(tài)結(jié)合起來(lái),以更全面、綜合的方式理解和生成信息,最終實(shí)現(xiàn)更豐富的任務(wù)和應(yīng)用。從以

Mid-journey

Sora

為例的多模態(tài)大模型看,在訓(xùn)練階段需要大量圖像

-

文本對(duì)、視頻

-

文本對(duì)等有標(biāo)注數(shù)據(jù)集進(jìn)行訓(xùn)練。圖像

-

文本對(duì)是包含一張圖像和一段描述該圖像內(nèi)容的文本的數(shù)據(jù),讓模型學(xué)習(xí)組成圖像的像素之間、文字與圖像的關(guān)聯(lián)。視頻

-

文本對(duì)包括一個(gè)短視頻和一段描述視頻中發(fā)生事件的文本,讓模型不僅學(xué)習(xí)單個(gè)畫(huà)面,還需要理解視頻中的時(shí)間序列和動(dòng)態(tài)變化。2.3?訓(xùn)練數(shù)據(jù)的常見(jiàn)疑問(wèn)和誤解2.3.1?大模型訓(xùn)練并不依賴用戶個(gè)人信息人工智能經(jīng)歷了從有監(jiān)督學(xué)習(xí)到無(wú)監(jiān)督學(xué)習(xí)的發(fā)展階段,神經(jīng)網(wǎng)絡(luò)等技術(shù)推動(dòng)了數(shù)據(jù)驅(qū)動(dòng)的應(yīng)用模式。傳統(tǒng)的決策類人工智能在需求側(cè)通過(guò)學(xué)習(xí)和分析海量的用戶行為數(shù)據(jù),判斷用戶的偏好和需求。在供給側(cè)通過(guò)學(xué)習(xí)內(nèi)容的特征,借助推薦、排序等機(jī)制實(shí)現(xiàn)需求和內(nèi)容的匹配,并根據(jù)用戶的行為反饋進(jìn)行優(yōu)化,提高算法的準(zhǔn)確性。以個(gè)性化搜索為例,以大量的用戶使用記錄、用戶畫(huà)像、內(nèi)容畫(huà)像等原始數(shù)據(jù)為基礎(chǔ),提煉出客群和內(nèi)容標(biāo)簽等不同維04度的信息,進(jìn)而抽象出特征向量,用向量的空間距離計(jì)算用戶和內(nèi)容的相似度,通過(guò)匹配與排名進(jìn)行個(gè)性化的搜索結(jié)果召回。基于上述特點(diǎn),此類決策式人工智能技術(shù)在需求側(cè)需要更多用戶數(shù)據(jù),在供給側(cè)依賴更為全面的內(nèi)容特征。與以前的決策類人工智能相比,以大模型為代表的生成式人工智能的技術(shù)特征有明顯差異。大模型是模擬人類的思維活動(dòng)方式生成人類可以理解和使用的內(nèi)容,而訓(xùn)練數(shù)據(jù)也是基于世界知識(shí),對(duì)語(yǔ)料庫(kù)等知識(shí)性內(nèi)容有強(qiáng)烈需求,因此大模型訓(xùn)練階段不依賴個(gè)人信息等原始數(shù)據(jù)。此外,為保證生成內(nèi)容與人類價(jià)值觀對(duì)齊,業(yè)界往往利用強(qiáng)化學(xué)習(xí),通過(guò)納入人工標(biāo)注等機(jī)制優(yōu)化表達(dá),使模型生成內(nèi)容更接近于人類認(rèn)知。因此大模型對(duì)于用戶數(shù)據(jù)并不依賴,而對(duì)專業(yè)化、高質(zhì)量語(yǔ)料的知識(shí)性內(nèi)容依賴大。由此看出,隨著技術(shù)的演進(jìn),對(duì)訓(xùn)練數(shù)據(jù)的需求類型也有所不同。然而,有很多人對(duì)此仍存在誤解。根據(jù)第三方專業(yè)機(jī)構(gòu)測(cè)評(píng)顯示,超過(guò)

60%

的受訪者誤選了

“盜取、泄露個(gè)人隱私數(shù)據(jù)的安全風(fēng)險(xiǎn)”

作為大模型的最主要風(fēng)險(xiǎn)點(diǎn)。與一般看法相反,過(guò)量的個(gè)人數(shù)據(jù)會(huì)負(fù)面影響大模型的能力,而過(guò)于個(gè)性化的應(yīng)用也將增加大模型的運(yùn)算負(fù)擔(dān)。對(duì)此,OpenAI

負(fù)責(zé)人

SamAltman

表示,ChatGPT

不需要用戶的個(gè)人數(shù)據(jù),用戶可以選擇刪除其與

ChatGPT

的交互歷史;類似的,我國(guó)目前主流大模型在提供用戶隱私保護(hù)的基礎(chǔ)上,并不過(guò)度收集和使用用戶個(gè)人信息,并允許用戶控制和刪除其與大模型交互的對(duì)話和提供的內(nèi)容。當(dāng)然,在大模型的推理階段,如果用戶惡意誘導(dǎo),盡管有相應(yīng)的模型安全機(jī)制,仍不能完全避免個(gè)人信息泄露的問(wèn)題。但可以明確的是,大模型在訓(xùn)練階段并不依賴個(gè)人信息。2.3.2?中文語(yǔ)料短缺不是制約我國(guó)大模型發(fā)展的重要因素談到中文大模型,一個(gè)普遍關(guān)注的問(wèn)題是,中文語(yǔ)料和英文語(yǔ)料在互聯(lián)網(wǎng)中的占比存在顯著差異:在全球網(wǎng)站中,英文占

59.8%,而中文僅占

1.3%,那中文語(yǔ)料供給短缺是否是制約我國(guó)大模型發(fā)展的關(guān)鍵要素呢?在實(shí)踐中發(fā)現(xiàn),規(guī)模并不是決定性影響因素。一是世界知識(shí)的積累有的屬于客觀事實(shí),用英文或中文表達(dá),其原理是一致的。或者說(shuō),在機(jī)器翻譯質(zhì)量有保障的前提下,可以彌補(bǔ)這部分中文語(yǔ)料的缺少。二是在訓(xùn)練技術(shù)上引入新方法也可以彌補(bǔ)語(yǔ)料供給不足的問(wèn)題。例如通過(guò)合理安排不同語(yǔ)言類型的訓(xùn)練順序,也能讓模型學(xué)習(xí)到供給相對(duì)較少語(yǔ)言的豐富特征。然而有一種類型的中文語(yǔ)料是極為重要且存在短缺的

-

中式價(jià)值觀類語(yǔ)料。因?yàn)槟P蜑榱烁玫乩斫饪陀^世界和掌握規(guī)律,需要學(xué)習(xí)大量來(lái)自知識(shí)和價(jià)值觀層的數(shù)據(jù),它們更多受到人類主觀意志的影響。而大模型是概率分布模型,其使用的數(shù)據(jù)分布將使得模型具備與之相似的人類意志。所以,訓(xùn)練中加入更多代表中式價(jià)值觀的語(yǔ)料,有助于大模型更好地理解和反映中文使用者的文化背景和價(jià)值取向,從而在全球化的背景下保持文化的多樣性和獨(dú)特性。而且此類語(yǔ)料短缺的問(wèn)題也沒(méi)有辦法通過(guò)機(jī)器翻譯彌補(bǔ),因?yàn)榧词狗g質(zhì)量有保障,仍會(huì)引入源語(yǔ)言的偏見(jiàn),體現(xiàn)的仍是源語(yǔ)言的價(jià)值觀。總體來(lái)看,文言文、古漢語(yǔ)、電子書(shū)籍等反映優(yōu)秀傳統(tǒng)文化的內(nèi)容,以及主流媒體發(fā)布的能反映本土價(jià)值觀的內(nèi)容,都可視為高質(zhì)量具有中式價(jià)值觀的語(yǔ)料。但目前看,與語(yǔ)料相關(guān)的各環(huán)節(jié):05大模型訓(xùn)練數(shù)據(jù)白皮書(shū)從積累機(jī)制、數(shù)字化(比如我國(guó)古籍?dāng)?shù)字化率不到

30%),到開(kāi)放共享與開(kāi)發(fā)利用,及訓(xùn)練過(guò)程中機(jī)器算法與編碼系統(tǒng)的建設(shè),都仍需大量持續(xù)投入精力??梢?jiàn),中文語(yǔ)料

“量”

的短缺尚可有解決方案,但中式價(jià)值觀類的語(yǔ)料短缺,則會(huì)成為制約我國(guó)大模型發(fā)展的短板。03科學(xué)理解高質(zhì)量數(shù)據(jù)的含義與作用在生成式人工智能時(shí)代,模型訓(xùn)練的成功與否與所依賴的數(shù)據(jù)質(zhì)量息息相關(guān)。模型的能力很大程度上可以反映出其訓(xùn)練數(shù)據(jù)的質(zhì)量,這也無(wú)疑凸顯了高質(zhì)量數(shù)據(jù)在大模型訓(xùn)練和應(yīng)用中不可替代的重要性。3.1?高質(zhì)量數(shù)據(jù)的重要性由于高質(zhì)量數(shù)據(jù)可以更好地模擬客觀世界,將其作為訓(xùn)練數(shù)據(jù)可以增強(qiáng)模型能力。從技術(shù)層面看,通常用損失函數(shù)來(lái)量化模型預(yù)測(cè)輸出與實(shí)際目標(biāo)之間的不匹配程度。能更好模擬客觀世界的高質(zhì)量數(shù)據(jù),可以使模型預(yù)測(cè)的概率分布盡可能逼近實(shí)際數(shù)據(jù)的真實(shí)分布,通過(guò)優(yōu)化算法調(diào)整模型參數(shù),讓模型在訓(xùn)練集上的損失函數(shù)最小。從模型能力表現(xiàn)看,一是高質(zhì)量數(shù)據(jù)可以提升模型的準(zhǔn)確性和穩(wěn)定性。首先,這些數(shù)據(jù)通常包含更準(zhǔn)確和豐富的信息,有助于模型更好地理解數(shù)據(jù)的內(nèi)在結(jié)構(gòu),掌握世界規(guī)律,提升產(chǎn)出的精準(zhǔn)性。其次,數(shù)據(jù)清洗是提高數(shù)據(jù)質(zhì)量的重要環(huán)節(jié),包括去重、刪除個(gè)信隱私內(nèi)容、糾正錯(cuò)誤、填補(bǔ)缺失值等,經(jīng)過(guò)清洗的數(shù)據(jù)可以提升訓(xùn)練階段的穩(wěn)定性。二是高質(zhì)量數(shù)據(jù)具有多樣性,可以降低模型對(duì)特定數(shù)據(jù)集的依賴,提升魯棒性和泛化能力。一方面高質(zhì)量數(shù)據(jù)通過(guò)對(duì)現(xiàn)有不同的數(shù)據(jù)加以混合,調(diào)試配比,提升模型執(zhí)行下游任務(wù)的泛化能力。另一方面可以利用數(shù)據(jù)增強(qiáng)等手段有效提升多樣性,即通過(guò)對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行變換或擴(kuò)充,如旋轉(zhuǎn)、縮放、亮度調(diào)整等,生成更多的訓(xùn)練樣本,增加訓(xùn)練數(shù)據(jù)代表性和多樣性。然而,即使在訓(xùn)練各階段中的語(yǔ)料都滿足高質(zhì)量,能做到

“真實(shí)性”、“準(zhǔn)確性”、“客觀性”、“多樣性”

的要求,仍不能完全避免模型結(jié)果產(chǎn)生幻覺(jué),即

“一本正經(jīng)胡說(shuō)八道”。因?yàn)榇竽P捅举|(zhì)是概率模型,是基于前文預(yù)測(cè)06下一個(gè)詞出現(xiàn)的概率,“詞語(yǔ)接龍”

出現(xiàn)的下一個(gè)詞并不是

100%

有確定性的。所以高質(zhì)量的語(yǔ)料,可以大幅降低模型結(jié)果產(chǎn)生幻覺(jué)的概率,但并不能完全避免。但如果在訓(xùn)練中使用了較多錯(cuò)誤、有毒、重復(fù)的低質(zhì)量數(shù)據(jù),則會(huì)對(duì)模型能力產(chǎn)生破壞性影響,也就是人們常說(shuō)的

“GarbageInGarbageOut”,比如沒(méi)有經(jīng)過(guò)嚴(yán)格質(zhì)量篩選的大量社交媒體對(duì)話、用戶生成的內(nèi)容等。在對(duì)模型能力的損害上,使用錯(cuò)誤的數(shù)據(jù)進(jìn)行訓(xùn)練,會(huì)導(dǎo)致模型記憶有偏差信息,發(fā)生事實(shí)性錯(cuò)誤;使用有重復(fù)的語(yǔ)料,則可能會(huì)導(dǎo)致模型在訓(xùn)練過(guò)程中對(duì)特定類型的示例產(chǎn)生偏見(jiàn),降低生成結(jié)果的多樣性,造成模型能力的顯著下降。由于高質(zhì)量數(shù)據(jù)如此重要,會(huì)引發(fā)對(duì)一系列問(wèn)題的思考,比如我們能否前置制定統(tǒng)一的標(biāo)準(zhǔn)體系,把高質(zhì)量訓(xùn)練數(shù)據(jù)先識(shí)別出來(lái)?數(shù)據(jù)質(zhì)量與模型的能力有什么聯(lián)系?3.2?高質(zhì)量數(shù)據(jù)的標(biāo)準(zhǔn)3.2.1?高質(zhì)量數(shù)據(jù)類型的三重不確定性第一重不確定性來(lái)自于所需的語(yǔ)料種類,其類型是由人類對(duì)模型能力需求決定的,而能力需求又是根據(jù)需要模型所完成的任務(wù)而不斷演變。回溯基礎(chǔ)大模型的發(fā)展歷程,在

2020

年左右,基于

Transformer

架構(gòu)的

GoogleMeena,其目的是讓模型具有生成連貫且有意義內(nèi)容的對(duì)話能力,因此對(duì)話文本被視為最重要的高質(zhì)量數(shù)據(jù)。而隨著技術(shù)路線的演進(jìn),人們發(fā)現(xiàn)更通用的上下文理解是重點(diǎn),因此書(shū)籍和科研論文等又被視為高質(zhì)量數(shù)據(jù)。通過(guò)提升其在訓(xùn)練語(yǔ)料中的占比,可以增強(qiáng)模型從文本中捕捉長(zhǎng)距離依賴的能力。隨著人們對(duì)通用人工智能的向往,對(duì)提升通用性能的北極星指標(biāo)

-

推理能力有幫助的語(yǔ)料,又更加被重視。一種是代碼數(shù)據(jù),因?yàn)槔锩嫔婕按罅縄f-Then-Else

等條件控制信息;另一種是教材,因?yàn)樯婕傲吮容^詳細(xì)的數(shù)學(xué)推理過(guò)程,和邏輯鏈高度相關(guān)。如果再拓展到行業(yè)模型,根據(jù)對(duì)模型能力的不同需求,語(yǔ)料類型更難以一一列舉。比如,經(jīng)人類標(biāo)注的,由視覺(jué)相似性圖片構(gòu)成的匹配對(duì)數(shù)據(jù)庫(kù),可以作為高質(zhì)量數(shù)據(jù)用于大模型在廣告領(lǐng)域的訓(xùn)練,通過(guò)更好預(yù)測(cè)用戶需求實(shí)現(xiàn)對(duì)素材點(diǎn)擊率的優(yōu)化。而通過(guò)收集人類駕駛員對(duì)稀有事件(比如駕駛過(guò)程中遇到的復(fù)雜路況、極端天氣、異常行為的人或車輛等場(chǎng)景)的應(yīng)對(duì)數(shù)據(jù),則可以更好訓(xùn)練完全自動(dòng)駕駛(FSD)模型在不同場(chǎng)景中的處理能力。由此看出,由于生成式

AI

在技術(shù)演進(jìn)和應(yīng)用場(chǎng)景拓展中具有不確定性,模型對(duì)所需要語(yǔ)料類型也在發(fā)生變化,“高質(zhì)量語(yǔ)料”

的類型和范圍也在不斷拓展。第二重不確定性來(lái)自于語(yǔ)料形態(tài)的演化,高質(zhì)量數(shù)據(jù)的形態(tài)會(huì)不斷增強(qiáng),以強(qiáng)化該類型語(yǔ)料的能力。一方面隨著合成數(shù)據(jù)和數(shù)據(jù)增強(qiáng)技術(shù)的提升,大模型正在不斷拓展對(duì)數(shù)據(jù)利用的可能性。如領(lǐng)域知識(shí)生成,對(duì)于大模型難以直接使用的原始數(shù)據(jù),通過(guò)加工、改造和泛化可以形成模型訓(xùn)練可用的知識(shí)類數(shù)據(jù)。另外,在自動(dòng)駕駛等領(lǐng)域,通過(guò)仿真數(shù)據(jù)生成更多樣化、不同視角的物理世界用于模型訓(xùn)練,可以提升針對(duì)特定場(chǎng)景的數(shù)據(jù)收集效率,彌補(bǔ)真實(shí)07大模型訓(xùn)練數(shù)據(jù)白皮書(shū)世界中對(duì)稀有事件觀測(cè)不足的問(wèn)題。另一方面,隨著模型長(zhǎng)上下文建模能力的增強(qiáng),對(duì)代碼和教材的需求又有了質(zhì)的變化。例如,訓(xùn)練用的代碼數(shù)據(jù)從執(zhí)行單一任務(wù)到倉(cāng)庫(kù)級(jí),讓模型推理能力從掌握單任務(wù)模塊進(jìn)化到學(xué)習(xí)整體架構(gòu);訓(xùn)練用的教材從中小學(xué)級(jí)別知識(shí)拓展到大學(xué),進(jìn)一步增強(qiáng)了復(fù)雜場(chǎng)景下的推理能力。第三重不確定性來(lái)自于不同數(shù)據(jù)類型之間的有效搭配,數(shù)據(jù)調(diào)度對(duì)模型能力起到重要作用。該環(huán)節(jié)強(qiáng)調(diào)對(duì)不同的數(shù)據(jù)加以混合,以提升數(shù)據(jù)集的多樣性。因?yàn)椴煌愋偷臄?shù)據(jù)對(duì)模型能力提升的側(cè)重點(diǎn)不同,各個(gè)數(shù)據(jù)的配比不同,也會(huì)影響模型的泛化能力以及在下游任務(wù)的表現(xiàn),其中包含兩個(gè)重要環(huán)節(jié):一是調(diào)整不同配比(數(shù)據(jù)混合),二是不同

數(shù)據(jù)用于訓(xùn)練的順序(數(shù)據(jù)課程)。數(shù)據(jù)的數(shù)據(jù)混合環(huán)節(jié)可以在訓(xùn)練的不同階段設(shè)定配比,在實(shí)踐中不斷嘗試出最優(yōu)的組合。例如在監(jiān)督微調(diào)階段,有研究者從

StackExchange、Reddit等網(wǎng)站中精選高贊語(yǔ)料,配合手工整理的問(wèn)答對(duì),得到共計(jì)

1000條高質(zhì)量微調(diào)數(shù)據(jù),以

“少而精”

的數(shù)據(jù)在模型對(duì)齊能力上取得了很好的效果。數(shù)據(jù)混合在實(shí)踐中會(huì)采取不同策略,一是增加數(shù)據(jù)源的多樣性,這對(duì)大模型在下游任務(wù)能力的提升十分關(guān)鍵;二是可以根據(jù)大模型執(zhí)行的目標(biāo)任務(wù),選擇對(duì)任務(wù)性能產(chǎn)生積極影響的數(shù)據(jù)。數(shù)據(jù)課程環(huán)節(jié)是為了讓大模型更好地學(xué)習(xí)某項(xiàng)技能,對(duì)語(yǔ)料學(xué)習(xí)順序進(jìn)行探索。一般來(lái)說(shuō),按照技能集合的順序組織預(yù)訓(xùn)練語(yǔ)料(從基礎(chǔ)技能到目標(biāo)技能),比直接從專注于目標(biāo)技能的語(yǔ)料庫(kù)中學(xué)習(xí)更為有效,如從通用或簡(jiǎn)單的例子開(kāi)始,逐步引入更具專業(yè)化或復(fù)雜度的數(shù)據(jù)。3.2.2?同類數(shù)據(jù)的評(píng)估標(biāo)準(zhǔn)并不完全一致對(duì)同類語(yǔ)料的質(zhì)量評(píng)估,往往從質(zhì)量、規(guī)模、多樣性三個(gè)維度出發(fā)。在質(zhì)量上,被視為

“高質(zhì)量”

通常是因?yàn)槠湫畔⒁呀?jīng)通過(guò)了有用性或質(zhì)量篩選,這些大多可以從中做判斷。例如,在語(yǔ)言模型訓(xùn)練中,新聞、科研論文或開(kāi)源代碼項(xiàng)目中的內(nèi)容會(huì)受到專業(yè)標(biāo)準(zhǔn)(如同行評(píng)審)的篩選;常識(shí)性內(nèi)容中,維基百科則經(jīng)受了一群專注編輯者的篩選;而經(jīng)過(guò)篩選的對(duì)話內(nèi)容則是基于用戶的積極互動(dòng)(如在

Reddit

上獲得的點(diǎn)贊數(shù)量);在多模態(tài)模型訓(xùn)練中,以視覺(jué)中國(guó)為例,其網(wǎng)站有經(jīng)過(guò)專業(yè)設(shè)計(jì)師篩選的大量圖片和視頻素材,并有對(duì)圖像的光照、構(gòu)圖、藝術(shù)性、美觀性等專業(yè)性標(biāo)注,形成了高質(zhì)量的圖像

/

視頻

-

文本對(duì)。其次,對(duì)于無(wú)法從信息直接判斷數(shù)據(jù)質(zhì)量的語(yǔ)料,人們會(huì)嘗試用評(píng)估模型進(jìn)行打分。例如對(duì)大量公開(kāi)的網(wǎng)頁(yè),通過(guò)先對(duì)少量樣本人工評(píng)價(jià)得到可讀性、幫助性、安全性等指標(biāo),通過(guò)這些具有代表性的樣本訓(xùn)練評(píng)估模型,將人工定義的評(píng)價(jià)標(biāo)準(zhǔn)轉(zhuǎn)化為機(jī)器可識(shí)別的特征和模式,在此基礎(chǔ)上評(píng)價(jià)語(yǔ)料中所有網(wǎng)頁(yè)信息的質(zhì)量。然而,即使有了前兩種方法,針對(duì)部分語(yǔ)料仍無(wú)法前置判斷其質(zhì)量。如用于領(lǐng)域模型訓(xùn)練的語(yǔ)料,涉及到不同行業(yè)的專業(yè)知識(shí),缺少統(tǒng)一的判斷標(biāo)準(zhǔn),往往是在模型訓(xùn)練中不斷檢驗(yàn)其質(zhì)量的高低。從規(guī)??矗占銐蛞?guī)模的高質(zhì)量語(yǔ)料也非常重要。根據(jù)大模型

“伸縮法則”,當(dāng)模型的參數(shù)或計(jì)算量按比例擴(kuò)大時(shí),模型性能也與之成比例提升。而隨著參數(shù)規(guī)模的增加,也需要更多數(shù)據(jù)來(lái)訓(xùn)練模型,即模型參數(shù)與訓(xùn)練語(yǔ)料之間也存在類似的比例關(guān)系。需要指出的是,并不是語(yǔ)料規(guī)模越大越好,而是高信息密度的語(yǔ)料規(guī)模越大越好:以

CC(CommonCrawl)和

C4

數(shù)據(jù)集的對(duì)比為例,CC

是一個(gè)有

400TB

的公共網(wǎng)絡(luò)抓取數(shù)據(jù)集,包含了互聯(lián)08網(wǎng)上數(shù)十億網(wǎng)頁(yè),內(nèi)容非常廣泛但未經(jīng)清洗。而

C4

則是對(duì)

CC

進(jìn)行了過(guò)濾噪聲、重復(fù)內(nèi)容等清洗后的

305GB

數(shù)據(jù)集。經(jīng)評(píng)估發(fā)現(xiàn)基于

C4

訓(xùn)練的模型性能優(yōu)于

CC,這既說(shuō)明了數(shù)據(jù)清洗的重要性,也說(shuō)明了語(yǔ)料規(guī)模不能一味追求大。此外,同類型語(yǔ)料中的多樣性也是值得關(guān)注的問(wèn)題。首先,會(huì)涉及到數(shù)據(jù)集的公平性,從網(wǎng)絡(luò)采集的信息存在對(duì)于弱勢(shì)群體(如種族、性別、職業(yè)、年齡等)不平衡的問(wèn)題,可能會(huì)加劇現(xiàn)有偏見(jiàn)或系統(tǒng)性不平等。在技術(shù)層面上,通過(guò)對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行仔細(xì)地審查和篩選,確保其分布的廣度和均衡性,可以緩解公平性問(wèn)題。另外,同類語(yǔ)料的多樣性也會(huì)影響模型能力,特別是在安全能力建設(shè)方面。真實(shí)世界中潛在隱患的出現(xiàn)往往是偶然事件,相較于對(duì)這些

“不良信息”

的一概刪除,對(duì)這些樣本采用打安全標(biāo)簽的方式,反而有助于提升模型對(duì)安全風(fēng)險(xiǎn)的識(shí)別,增強(qiáng)安全防護(hù)能力。針對(duì)不同類型的高質(zhì)量語(yǔ)料,意味著其在語(yǔ)料類型、語(yǔ)料形態(tài)以及語(yǔ)料搭配使用三個(gè)層面存在不確定性。而針對(duì)同類型的語(yǔ)料,又涉及到從質(zhì)量、規(guī)模、多樣性三方面的綜合考量,對(duì)高質(zhì)量并沒(méi)有統(tǒng)一的評(píng)估標(biāo)準(zhǔn)。就像生成式人工智能技術(shù)的發(fā)展路徑充滿不確定性一樣,對(duì)高質(zhì)量數(shù)據(jù)的判斷,也同樣沒(méi)有人擁有

“上帝視角”,可以精準(zhǔn)前置預(yù)知高質(zhì)量的標(biāo)準(zhǔn),來(lái)決定哪些是未來(lái)的高質(zhì)量數(shù)據(jù)。因此,在對(duì)高質(zhì)量數(shù)據(jù)的理解上,應(yīng)認(rèn)識(shí)到對(duì)高質(zhì)量并不適合被前置的客觀標(biāo)準(zhǔn)定義?!案哔|(zhì)量”

更多是一種主觀判斷,它的標(biāo)準(zhǔn)取決于模型的應(yīng)用目的,數(shù)據(jù)類型會(huì)根據(jù)模型的發(fā)展階段

“因時(shí)而動(dòng)”、根據(jù)技術(shù)人員的理解判斷

“因人而異”、根據(jù)模型的訓(xùn)練效果

“因效而定”。因此,所謂

“高質(zhì)量標(biāo)準(zhǔn)”

的制定,至多也只是對(duì)同類型數(shù)據(jù)在質(zhì)量維度評(píng)估提供一種參考,對(duì)模型訓(xùn)練的價(jià)值有限。04合成數(shù)據(jù)作為解決訓(xùn)練數(shù)據(jù)供給不足的新方案4.1?訓(xùn)練數(shù)據(jù)供給不足帶來(lái)的思考在生成式人工智能技術(shù)不斷發(fā)展的趨勢(shì)下,訓(xùn)練數(shù)據(jù)是人們最關(guān)心的問(wèn)題之一。上節(jié)以政府和社會(huì)力量的視角展開(kāi)。本節(jié)以已經(jīng)使用的數(shù)據(jù)源和正在探索的新數(shù)據(jù)源視角展開(kāi)。在已經(jīng)使用的訓(xùn)練語(yǔ)料中,有用于語(yǔ)言大模09大模型訓(xùn)練數(shù)據(jù)白皮書(shū)型訓(xùn)練的文本數(shù)據(jù),包括網(wǎng)頁(yè)信息、書(shū)籍、科研論文、知識(shí)百科、專業(yè)問(wèn)答、代碼以及領(lǐng)域知識(shí),也有用于多模態(tài)模型的圖片、視頻、音頻等媒體數(shù)據(jù)。根據(jù)

EpochAI

的估算,書(shū)籍、科研論文等高質(zhì)量語(yǔ)言數(shù)據(jù)集可能會(huì)在2024

年前耗盡。人們正在積極探索新數(shù)據(jù)源,以緩解訓(xùn)練語(yǔ)料可能面臨不足的問(wèn)題。一種思路是將未數(shù)字化的知識(shí)數(shù)字化,如在最新發(fā)布的

Claude3

中,提到了將大量未數(shù)字化的書(shū)籍和資料做數(shù)字化處理,成為模型可讀取的訓(xùn)練語(yǔ)料。還可利用機(jī)器感知數(shù)據(jù),比如將無(wú)人車、無(wú)人機(jī)、其他智能硬件設(shè)備等生成的大量物理世界數(shù)據(jù)用于訓(xùn)練。另一種思路是利用模型或算法,批量生成新數(shù)據(jù),比如合成數(shù)據(jù),然后利用它們訓(xùn)練模型。近期,合成數(shù)據(jù)在大模型訓(xùn)練和應(yīng)用的話題引起了廣泛關(guān)注。一方面,高質(zhì)量的合成數(shù)據(jù)可以作為真實(shí)數(shù)據(jù)的補(bǔ)充和替代,模擬現(xiàn)實(shí)世界的復(fù)雜性和多樣性,被視為擴(kuò)展模型學(xué)習(xí)范圍與能力的重要手段。另一方面,合成數(shù)據(jù)的生成過(guò)程可能存在偏差或噪聲,導(dǎo)致其質(zhì)量和真實(shí)性無(wú)法完全模擬客觀世界。由此引出一系列值得深入討論的問(wèn)題:對(duì)于合成數(shù)據(jù)的價(jià)值,它能否拓展大模型能力的邊界?又是否能替代真實(shí)數(shù)據(jù),緩解優(yōu)質(zhì)數(shù)據(jù)供給不足的問(wèn)題?此外,合成數(shù)據(jù)能否通過(guò)對(duì)現(xiàn)有數(shù)據(jù)的深加工,將之前不能被用于訓(xùn)練的數(shù)據(jù)轉(zhuǎn)化為可用,提升模型對(duì)數(shù)據(jù)利用的可能性?而對(duì)于合成數(shù)據(jù)的風(fēng)險(xiǎn),人們也會(huì)擔(dān)憂是否會(huì)出現(xiàn)

“大模型自己產(chǎn)生數(shù)據(jù)進(jìn)行自我訓(xùn)練”

的循環(huán),導(dǎo)致初始偏差被不斷放大,最終使模型失控?這種新數(shù)據(jù)源還會(huì)帶來(lái)哪些新風(fēng)險(xiǎn)?4.2?合成數(shù)據(jù)的定義合成數(shù)據(jù)是通過(guò)算法和數(shù)學(xué)模型創(chuàng)建的。首先建模真實(shí)數(shù)據(jù)的分布,然后在該分布上進(jìn)行采樣,創(chuàng)建出新數(shù)據(jù)集,模擬真實(shí)數(shù)據(jù)中的統(tǒng)計(jì)模式和關(guān)系。合成數(shù)據(jù)類似于數(shù)據(jù)的

“替身演員”,發(fā)揮補(bǔ)充或替代真實(shí)數(shù)據(jù)的作用。在機(jī)器學(xué)習(xí)和人工智能領(lǐng)域,合成數(shù)據(jù)可以為模型提供訓(xùn)練材料,幫助它們學(xué)習(xí)、理解和預(yù)測(cè)。需要注意的是,如果生成過(guò)程設(shè)計(jì)不當(dāng),合成數(shù)據(jù)也可能缺乏保真度,對(duì)客觀世界的模擬出現(xiàn)偏差。4.3?合成數(shù)據(jù)的必要性什么情況下會(huì)用到合成數(shù)據(jù)?本質(zhì)原因是真實(shí)世界中獲取數(shù)據(jù)遇到困難。一是真實(shí)世界中難以觀測(cè),如罕見(jiàn)病或極端天氣等。利用合成數(shù)據(jù)可以設(shè)計(jì)比真實(shí)數(shù)據(jù)集更廣泛的情況,對(duì)

CornerCase

進(jìn)行模擬,提升訓(xùn)練數(shù)據(jù)集的全面性和多樣性,確保在處理邊緣案例時(shí)也有良好性能,提升模型泛化能力。二是真實(shí)世界中數(shù)據(jù)獲取的成本高,如大模型對(duì)齊訓(xùn)練中需要人類大量的高質(zhì)量反饋。利用合成數(shù)據(jù)可以實(shí)現(xiàn)對(duì)齊流程自動(dòng)化,幾乎不需人類標(biāo)注,大幅節(jié)省成本,提高獲取效率。三是數(shù)據(jù)獲取和處理涉及到真實(shí)世界中的個(gè)信甚至敏感信息,特別是醫(yī)療健康10和金融領(lǐng)域。合成數(shù)據(jù)可以利用差分隱私對(duì)個(gè)體信息

“加噪聲”

等方法,模擬真實(shí)數(shù)據(jù)集的分布,而不模擬其中的真實(shí)個(gè)人信息,實(shí)現(xiàn)對(duì)個(gè)信去標(biāo)識(shí)化。由此歸納出,合成數(shù)據(jù)具有全面性和多樣性、經(jīng)濟(jì)高效、有利于隱私保護(hù)等優(yōu)點(diǎn)。4.4?合成數(shù)據(jù)的生成方法及分類根據(jù)是否基于實(shí)際數(shù)據(jù)集生成,合成數(shù)據(jù)生成方法主要分為兩大類。第一種是基于真實(shí)數(shù)據(jù)集構(gòu)建的:人們會(huì)建立模型以捕獲真實(shí)數(shù)據(jù)的分布特性和結(jié)構(gòu)特征,刻畫(huà)數(shù)據(jù)中的多變量關(guān)系和相互作用。然后從該模型中抽樣或生成合成數(shù)據(jù)。如果模型能很好地代表真實(shí)數(shù)據(jù),那么合成數(shù)據(jù)將具有與真實(shí)數(shù)據(jù)相似的統(tǒng)計(jì)特性。以

ChatGPT

為例,它深入研究了人類寫(xiě)的數(shù)十億例文本,分析了詞語(yǔ)之間的關(guān)系,并構(gòu)建了一個(gè)模型來(lái)理解它們是如何組合在一起的。在生成文本時(shí),每一個(gè)單詞的選擇也都取決于它前一個(gè)單詞出現(xiàn)的統(tǒng)計(jì)概率。第二種生成方法并不于真實(shí)數(shù)據(jù),而是通過(guò)使用現(xiàn)有模型或者人類專業(yè)背景知識(shí)來(lái)創(chuàng)建。現(xiàn)有的模型可以是某個(gè)過(guò)程的統(tǒng)計(jì)模型,也可以是模擬模型。模擬可以通過(guò)游戲引擎等方法創(chuàng)建,如最近火爆的

Sora

文生視頻模型,里面用到了由游戲引擎11大模型訓(xùn)練數(shù)據(jù)白皮書(shū)(Unity、UnrealEngine5

等)合成的視頻數(shù)據(jù)作為訓(xùn)練集,以提高生成質(zhì)量。根據(jù)用于訓(xùn)練的

AI

類型,可以將合成數(shù)據(jù)分為應(yīng)用于生成式

AI

和判別式

AI

訓(xùn)練兩類。應(yīng)用于生成式

AI

訓(xùn)練的通常有媒體合成數(shù)據(jù),即由模型和算法合成的視頻、圖像或聲音。文本合成數(shù)據(jù),即在自然語(yǔ)言處理中由模型生成的文本。而判別式

AI

訓(xùn)練(分類或回歸)所需的通常是表格合成數(shù)據(jù),類似真實(shí)生活中數(shù)據(jù)記錄或表格的合成數(shù)據(jù)。4.5?合成數(shù)據(jù)在模型訓(xùn)練中的作用基礎(chǔ)大模型訓(xùn)練所需的數(shù)據(jù)類型包含兩大類,一是用于預(yù)訓(xùn)練的世界知識(shí),二是用于對(duì)齊的數(shù)據(jù)。合成數(shù)據(jù)作為真實(shí)數(shù)據(jù)的一種替代,現(xiàn)階段雖然在預(yù)訓(xùn)練占比不高,但未來(lái)發(fā)展?jié)摿薮?,可作為一個(gè)

“新物種”

密切關(guān)注;目前合成數(shù)據(jù)多應(yīng)用于提升對(duì)齊階段的數(shù)據(jù)獲取效率,增強(qiáng)模型安全和可靠性。4.5.1?預(yù)訓(xùn)練語(yǔ)料的新物種模型預(yù)訓(xùn)練階段是通過(guò)大量無(wú)監(jiān)督學(xué)習(xí)構(gòu)建基礎(chǔ)能力,掌握世界的規(guī)律。大語(yǔ)言模型需要各類世界知識(shí),包括網(wǎng)頁(yè)、書(shū)籍、新聞、代碼等;而多模態(tài)又需要視頻、圖片、音頻等語(yǔ)料。那么合成數(shù)據(jù)作為新物種,能對(duì)模型的訓(xùn)練語(yǔ)料起到哪些補(bǔ)充作用呢?首先,合成數(shù)據(jù)可應(yīng)用于多模態(tài)數(shù)據(jù)的生成。最近火爆的

Sora

文生視頻大模型,里面用到了大量由游戲引擎合成的視頻數(shù)據(jù)作為訓(xùn)練集,以提高生成質(zhì)量。此外,利用模擬器生成的多模態(tài)場(chǎng)景數(shù)據(jù)還廣泛應(yīng)用于具身智能機(jī)器人、自動(dòng)駕駛、AIforScience

等場(chǎng)景的訓(xùn)練。利用模擬模型生成多模態(tài)數(shù)據(jù)可以更好滿足模型對(duì)訓(xùn)練數(shù)據(jù)差異化的需求,例如通過(guò)有效

“過(guò)采樣”(隨機(jī)復(fù)制少數(shù)樣例以增大它們的規(guī)模)罕見(jiàn)事件或?yàn)?zāi)難性事件,以確保模型能夠針對(duì)更廣泛的輸入保持魯棒性。而伴隨生成式人工智能走向更通用,模型訓(xùn)練將不僅從文字中學(xué)習(xí),也會(huì)從聲音、圖片和視頻中學(xué)習(xí),就更需要多模態(tài)的訓(xùn)練數(shù)據(jù)。因此,我們判斷通過(guò)合成的多模態(tài)數(shù)據(jù)進(jìn)行訓(xùn)練的需求還會(huì)持續(xù)且大幅增加。其次,合成數(shù)據(jù)還可應(yīng)用于高價(jià)值領(lǐng)域知識(shí)的生成。核心是合成數(shù)據(jù)能通過(guò)對(duì)現(xiàn)有數(shù)據(jù)的深加工,將之前不能被用于訓(xùn)練的數(shù)據(jù)轉(zhuǎn)化為可用,提升模型對(duì)數(shù)據(jù)利用的可能性。例如工業(yè)制造領(lǐng)域,利用合成數(shù)據(jù),可以把生產(chǎn)、制造等工藝流程相關(guān)的原始數(shù)據(jù),結(jié)合行業(yè)知識(shí)圖譜,轉(zhuǎn)化為可供大模型學(xué)習(xí)的工業(yè)語(yǔ)料,以緩解行業(yè)語(yǔ)料短缺的問(wèn)題。該過(guò)程分為三步:一是將原始數(shù)據(jù)(Data)轉(zhuǎn)變?yōu)樾畔ⅲ↖nformation):即將非自然語(yǔ)言描述的內(nèi)容(如工藝生產(chǎn)中的操作行為或時(shí)序數(shù)據(jù))轉(zhuǎn)化為大模型可讀的結(jié)構(gòu)化信息(操作記錄)。二是將信息提煉為知識(shí)(Knowledge):僅有操作記錄并不能直接提供有效知識(shí),但將多條結(jié)構(gòu)化信息與行業(yè)的知識(shí)圖譜、專家經(jīng)驗(yàn)相結(jié)12合,可以產(chǎn)出有價(jià)值的行業(yè)知識(shí)(如在什么溫度下應(yīng)該如何操作,好處是什么)。三是將得到的知識(shí)泛化:利用大模型的推理能力,將相對(duì)單一的知識(shí)進(jìn)行多樣性拓展,積累更豐富的行業(yè)語(yǔ)料。由此看出,大模型可以利用原始數(shù)據(jù)、信息、知識(shí)等不同層次的內(nèi)容,打通數(shù)據(jù)利用的模式。我們判斷,通過(guò)合成數(shù)據(jù)拓展對(duì)數(shù)據(jù)利用的可能性,生成領(lǐng)域知識(shí)的趨勢(shì)是

“精”,即對(duì)語(yǔ)料質(zhì)量要求高,且是不可或缺的。因?yàn)榇竽P椭挥性陬A(yù)訓(xùn)練中學(xué)習(xí)過(guò)領(lǐng)域知識(shí),才能在后期利用行業(yè)語(yǔ)料進(jìn)行

SFT

訓(xùn)練時(shí)激發(fā)出更好的效果,更容易應(yīng)用于垂直領(lǐng)域。綜上,我們認(rèn)為合成數(shù)據(jù)作為預(yù)訓(xùn)練語(yǔ)料的新物種,發(fā)展?jié)摿薮?,特別是在多模態(tài)數(shù)據(jù)和領(lǐng)域知識(shí)生成方面值得密切關(guān)注。4.5.2?提升對(duì)齊語(yǔ)料獲取效率的對(duì)齊數(shù)據(jù)以人類高質(zhì)量反饋為主,包含監(jiān)督微調(diào)階段和基于人類反饋的強(qiáng)化學(xué)習(xí)。此方法主要在以下幾方面遇到問(wèn)題:一是數(shù)據(jù)獲取的成本更高,二是人類評(píng)估的準(zhǔn)確性和一致性,三是模型通常選擇避免回答敏感和有爭(zhēng)議的問(wèn)題,降低模型的整體效用。如果引入合成數(shù)據(jù)作為真實(shí)數(shù)據(jù)的補(bǔ)充和替代,能否緩解這些問(wèn)題呢?合成數(shù)據(jù)最大的優(yōu)勢(shì)是可以大幅提升對(duì)齊數(shù)據(jù)的獲取效率,“如果掌握了合成數(shù)據(jù)技術(shù),對(duì)齊的成本可能會(huì)降低好幾個(gè)數(shù)量級(jí),或用一樣的投入產(chǎn)生更大數(shù)量級(jí)的數(shù)據(jù),競(jìng)爭(zhēng)格局就會(huì)發(fā)生變化”。這種對(duì)合成數(shù)據(jù)的應(yīng)用是13大模型訓(xùn)練數(shù)據(jù)白皮書(shū)“從人工智能反饋中進(jìn)行強(qiáng)化學(xué)習(xí)(RLAIF)”。通常是用一個(gè)較大規(guī)模模型產(chǎn)出合成數(shù)據(jù),生成指令及輸入和輸出樣本,過(guò)濾掉無(wú)效或重復(fù)信息,自動(dòng)化微調(diào)出性能較好的小模型,全過(guò)程中幾乎無(wú)需人類標(biāo)注。這不僅大幅降低了標(biāo)注成本,也能緩解人工對(duì)齊導(dǎo)致模型對(duì)敏感問(wèn)題拒答的情況。例如斯坦福大學(xué)發(fā)布的

70

億參數(shù)對(duì)話大模型Alpaca,正是采用此類自我指導(dǎo)(Self-instruct)方法,用

OpenAI

API

自動(dòng)生成指令數(shù)據(jù)進(jìn)行微調(diào)。還有一種基于

RLAIF新思路探索,希望在不引入外部模型的前提下實(shí)現(xiàn)自動(dòng)化微調(diào)。例如自我對(duì)局(Self-play),在滿足一定條件時(shí),利用合成數(shù)據(jù)進(jìn)行自我對(duì)抗微調(diào)(t+1

代的模型嘗試將

t

代模型的輸出與真人的輸出區(qū)分開(kāi)),得到了比

RLHF更好的效果。再如

Claude3用到的憲法式

AI,讓

AI系統(tǒng)在遵循預(yù)先設(shè)定的原則下,使用模型自身生成的反饋和修正意見(jiàn)來(lái)進(jìn)行自我改進(jìn),得到一個(gè)既能生成無(wú)害內(nèi)容,又不規(guī)避有害問(wèn)題的模型。同時(shí)另一種對(duì)合成數(shù)據(jù)的應(yīng)用是

“從人類和人工智能反饋中進(jìn)行強(qiáng)化學(xué)習(xí)(RLHAIF)”,該方法整合了人類和

AI

元素以提供監(jiān)督。有研究表明,在利用

AI

協(xié)助人類評(píng)估模型有效性時(shí),模型生成的批評(píng)有助于人類發(fā)現(xiàn)可能錯(cuò)過(guò)的缺陷,提高人類評(píng)估的準(zhǔn)確性。4.6?解決訓(xùn)練數(shù)據(jù)供給不足的新方案高質(zhì)量數(shù)據(jù)是大模型技術(shù)發(fā)展的主要瓶頸之一,可供大模型學(xué)習(xí)的數(shù)據(jù)類型較多,但能夠進(jìn)一步拓展大模型知識(shí)邊界、推動(dòng)大模型推理、泛化等關(guān)鍵能力提升的數(shù)據(jù)更多偏向于視頻、圖片等多模態(tài)數(shù)據(jù),以及特定行業(yè)中的領(lǐng)域知識(shí)數(shù)據(jù)。此類數(shù)據(jù)主要來(lái)自于人類的創(chuàng)造、制作和經(jīng)驗(yàn)積累,其規(guī)模、類型和質(zhì)量因客觀條件的不同存在較大差異。在大模型強(qiáng)大的無(wú)監(jiān)督數(shù)據(jù)學(xué)習(xí)能力面前,大模型的數(shù)據(jù)需求快速經(jīng)歷了從量到質(zhì)的轉(zhuǎn)換,能夠被大模型更為直接地利用、可以進(jìn)一步提升大模型關(guān)鍵能力、幫助大模型生成內(nèi)容更符合人類習(xí)慣和要求的高質(zhì)量數(shù)據(jù),成為了最為關(guān)鍵的數(shù)據(jù)類型。對(duì)于提高此類高質(zhì)量訓(xùn)練數(shù)據(jù)的供給,現(xiàn)行的主要方案?jìng)?cè)重于構(gòu)建更為開(kāi)放、包容的高質(zhì)量數(shù)據(jù)源,包括建立具有公共或準(zhǔn)公共屬性的高質(zhì)量數(shù)據(jù)集,鼓勵(lì)行業(yè)數(shù)據(jù)的進(jìn)一步共享,放寬對(duì)于訓(xùn)練數(shù)據(jù)的權(quán)屬保護(hù)規(guī)則等。而合成數(shù)據(jù)為模型數(shù)據(jù)供給提供了新的技術(shù)方案,將合成數(shù)據(jù)應(yīng)用于大模型訓(xùn)練數(shù)據(jù)中,可以從以下三個(gè)方面幫助解決高質(zhì)量訓(xùn)練數(shù)據(jù)供給不足的問(wèn)題。其一,合成數(shù)據(jù)解決了部分類型的真實(shí)世界數(shù)據(jù)難以觀測(cè)的問(wèn)題,拓展了訓(xùn)練數(shù)據(jù)的多樣性。傳統(tǒng)上看,通過(guò)生成

“邊緣情況”(如極端天氣、罕見(jiàn)?。┗蛘哒鎸?shí)世界中的

“潛在隱患”(如金融詐騙等安全風(fēng)險(xiǎn)),可以彌補(bǔ)因?yàn)闃颖痉植疾痪鈱?dǎo)致的客觀限制。在輸入端糾正數(shù)據(jù)在采集和處理過(guò)程中引入的偏誤,提高數(shù)據(jù)分布的合理性和客觀性。面向未來(lái),利用合成數(shù)據(jù)技術(shù)生成的仿真數(shù)據(jù)(如游戲引擎生成的視頻),以及對(duì)于大模型難以直接使用數(shù)據(jù)的加工和改造形成的新型數(shù)據(jù)(如領(lǐng)域知識(shí)),可以提升模型對(duì)數(shù)據(jù)利用的可能性,對(duì)于推理、泛化等大模型核心能力的突破將起到更為顯著的作用。其二,合成數(shù)據(jù)和真實(shí)世界的配合使用提高了模型的安全性和可靠性。在

LLM

中,合成數(shù)據(jù)將更為廣泛地應(yīng)14用于模型對(duì)齊階段,可以提升模型對(duì)齊能力,解決基于人類反饋的強(qiáng)化學(xué)習(xí)過(guò)程中人類回答標(biāo)準(zhǔn)不統(tǒng)一,因知識(shí)欠缺造成問(wèn)答準(zhǔn)確性不足,以及人類提供反饋成本較高的問(wèn)題。以高性能模型生成得到的高質(zhì)量合成數(shù)據(jù),以知識(shí)蒸餾的方式幫助輕量級(jí)模型進(jìn)一步的監(jiān)督學(xué)習(xí),并為下游開(kāi)發(fā)提供準(zhǔn)確、高效的對(duì)齊數(shù)據(jù),從整體上提高各種規(guī)模尺寸模型的性能,促進(jìn)模型安全。在圖像領(lǐng)域,合成數(shù)據(jù)可以彌補(bǔ)對(duì)抗樣本稀疏的缺陷,將合成圖像數(shù)據(jù)和普通圖像數(shù)據(jù)按照一定比例進(jìn)行混合,可以提高視覺(jué)模型對(duì)圖片的識(shí)別和判斷能力,即使在普通數(shù)據(jù)樣本完全缺失的情況下,使用合成數(shù)據(jù)進(jìn)行圖像識(shí)別訓(xùn)練,也可以得到接近普通數(shù)據(jù)樣本訓(xùn)練的效果,從而提升圖像識(shí)別的魯棒性。其三,合成數(shù)據(jù)可以替代個(gè)人特征數(shù)據(jù),有助于用戶隱私保護(hù),解決數(shù)據(jù)獲取合規(guī)性的問(wèn)題。例如,當(dāng)合成數(shù)據(jù)用于推薦系統(tǒng),可以降低后者對(duì)個(gè)人信息的依賴。傳統(tǒng)的直接利用個(gè)人行為特征數(shù)據(jù)進(jìn)行推薦,模型并不能從文義角度理解用戶的需求,為了提升

“猜你喜歡”

的準(zhǔn)確度則需要獲取和分析大量的用戶行為特征信息。在推薦系統(tǒng)等涉及個(gè)人隱私信息的判別式模型中,通過(guò)與大模型的結(jié)合可以有效緩解該問(wèn)題。首先,利用生成器自動(dòng)產(chǎn)出個(gè)性化提示詞(即合成數(shù)據(jù))用于模型優(yōu)化;然后,發(fā)揮大模型對(duì)文義的推理能力,可以更好地預(yù)測(cè)用戶的實(shí)際需求。用戶和大模型進(jìn)行簡(jiǎn)單溝通后,由大模型代為執(zhí)行推薦,在提升推薦匹配度的同時(shí)還可以降低推薦模型對(duì)個(gè)人特征數(shù)據(jù)的依賴。推薦模型不再高度依賴個(gè)人特征信息,也為隱私增強(qiáng)技術(shù)的加入提供了操作空間,在合成數(shù)據(jù)的生成過(guò)程可以加入差分隱私等去標(biāo)識(shí)技術(shù),推薦系統(tǒng)在不識(shí)別特定用戶的情況下也能良好判斷用戶的實(shí)際需求,進(jìn)行針對(duì)用戶實(shí)際需求而非臆測(cè)性、推斷性的推薦。15大模型訓(xùn)練數(shù)據(jù)白皮書(shū)4.7?在發(fā)展中治理的合成數(shù)據(jù)其一,相比于對(duì)合成數(shù)據(jù)量的擴(kuò)增,在應(yīng)用中要更重視質(zhì)的提升。首先,在語(yǔ)料中使用占比更高的仍然是來(lái)自真實(shí)世界的數(shù)據(jù)集,合成數(shù)據(jù)未被用于大規(guī)模替代真實(shí)數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。相反,如果此階段過(guò)多引入合成數(shù)據(jù),可能會(huì)影響訓(xùn)練數(shù)據(jù)分布,從而導(dǎo)致模型對(duì)世界知識(shí)的理解產(chǎn)生偏差。其次,合成數(shù)據(jù)的總體規(guī)模也會(huì)受到模型生成能力和生成速度的限制(例如按照當(dāng)前的合成圖像數(shù)據(jù)生成速度,在

A100GPU

上每個(gè)圖像生成時(shí)間大約為

0.8s;啟用

xformer

時(shí),在

V100GPU

上每個(gè)圖像的生成時(shí)間約為

2

秒)。因此,更重要的是關(guān)注生成合成數(shù)據(jù)對(duì)客觀世界模擬的準(zhǔn)確性,更好滿足模型對(duì)訓(xùn)練數(shù)據(jù)差異化的需求,以及拓展模型對(duì)訓(xùn)練數(shù)據(jù)利用的可能性。較為通用的方案是按照一定比例將合成數(shù)據(jù)與真實(shí)世界的數(shù)據(jù)進(jìn)行混合,用于模型優(yōu)化,提升模型準(zhǔn)確性、魯棒性和安全性。其二,合成數(shù)據(jù)本身具備良好的安全性,在后續(xù)使用中較為可靠。用于模型優(yōu)化訓(xùn)練的合成數(shù)據(jù)目的在于替代普通優(yōu)化數(shù)據(jù)提高模型的對(duì)齊能力和垂類應(yīng)用效果,要達(dá)到此目的,合成數(shù)據(jù)安全性和真實(shí)性不低于真實(shí)世界的數(shù)據(jù),否則使用合成數(shù)據(jù)并不能更好地提升模型性能

——如果合成數(shù)據(jù)的質(zhì)量低于真實(shí)數(shù)據(jù)的數(shù)據(jù),則可能造成模型性能不升反降,使用合成數(shù)據(jù)的價(jià)值也將大打折扣?,F(xiàn)實(shí)情況來(lái)看,合成數(shù)據(jù)往往也是通過(guò)高性能模型生成而得來(lái)的,此類模型具有良好的安全防護(hù)機(jī)制,能夠有效控制生成內(nèi)容的安全性,因此產(chǎn)生的合成數(shù)據(jù)在下游利用中可靠性良好,不會(huì)帶來(lái)

“數(shù)據(jù)

-

模型自我循環(huán)”

導(dǎo)致的模型失控問(wèn)題。其三,對(duì)合成數(shù)據(jù)仍需設(shè)置相應(yīng)的安全管控策略,確保模型整體的安全性不會(huì)因?yàn)楹铣蓴?shù)據(jù)的使用而受到影響。一是加強(qiáng)對(duì)合成數(shù)據(jù)質(zhì)量的評(píng)估檢測(cè)。合成數(shù)據(jù)和其他類型的訓(xùn)練數(shù)據(jù)一樣,需要不斷提高準(zhǔn)確性和可靠性,而為了保證合成數(shù)據(jù)具有可用性價(jià)值,其準(zhǔn)確性和可靠性要高于普通的真實(shí)世界數(shù)據(jù)。二是為合成數(shù)據(jù)設(shè)置備用數(shù)據(jù)集。合成數(shù)據(jù)在模型訓(xùn)練中的使用還處于探索階段,需要更為審慎地觀察不同類型、模態(tài)和配比合成數(shù)據(jù)對(duì)模型性能帶來(lái)的影響,并為合成數(shù)據(jù)準(zhǔn)備備用的真實(shí)世界數(shù)據(jù)集,當(dāng)模型能力和安全性評(píng)測(cè)、紅隊(duì)測(cè)試等監(jiān)控指標(biāo)出現(xiàn)異常時(shí),及時(shí)介入并采用備份的數(shù)據(jù)集繼續(xù)模型訓(xùn)練和應(yīng)用,保證模型的穩(wěn)定性。三是建議對(duì)用于模型優(yōu)化、對(duì)齊的合成數(shù)據(jù)在適當(dāng)環(huán)節(jié)引入人類參與。例如,對(duì)用于對(duì)齊階段生成的問(wèn)答對(duì)和其他媒體格式內(nèi)容,在進(jìn)行模型優(yōu)化前進(jìn)行人工抽檢,確保后續(xù)模型調(diào)優(yōu)和對(duì)齊的質(zhì)量。1605對(duì)大模型訓(xùn)練數(shù)據(jù)治理的思考5.1?大模型對(duì)訓(xùn)練數(shù)據(jù)的使用特點(diǎn)首先,在個(gè)人信息方面,模型訓(xùn)練階段不依賴個(gè)人信息,對(duì)公開(kāi)個(gè)信的使用屬于合理使用。人工智能技術(shù)從依賴個(gè)人信息的決策模型轉(zhuǎn)向以大模型為代表的生成式

AI,反映出數(shù)據(jù)需求的深刻變革。具體而言,大模型的技術(shù)核心在于模擬人類思維進(jìn)行內(nèi)容創(chuàng)造,輸入端的訓(xùn)練數(shù)據(jù)側(cè)重全球知識(shí)和高質(zhì)量語(yǔ)料,而非個(gè)人信息,即便在前端降低個(gè)人信息在訓(xùn)練數(shù)據(jù)中的含量和真實(shí)性,均不會(huì)對(duì)模型最后所展現(xiàn)的性能產(chǎn)生較大影響。其次,即便大模型訓(xùn)練語(yǔ)料中涵蓋個(gè)人信息,大模型研發(fā)者已按照相關(guān)安全要求,采取技術(shù)手段進(jìn)行數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化等操作,對(duì)其中所涵蓋的個(gè)人信息進(jìn)行了最大化的去除。而剩余的通過(guò)爬蟲(chóng)等技術(shù)獲取的位于公共領(lǐng)域的個(gè)人數(shù)據(jù),大模型對(duì)于此部分?jǐn)?shù)據(jù)的使用應(yīng)構(gòu)成合理使用的范疇。其次,大模型對(duì)類訓(xùn)練語(yǔ)料的使用是轉(zhuǎn)換性使用,屬于合理使用或法定許可。大模型對(duì)于作品的使用,并不是以欣賞作品原有價(jià)值為目的而進(jìn)行利用,或?qū)υ凶髌穬?nèi)容進(jìn)行復(fù)制和傳播從而替代原有作品,而是為了掌握客觀規(guī)律并培養(yǎng)模型的基礎(chǔ)能力,就如給人類進(jìn)行教育需要對(duì)其進(jìn)行廣泛的知識(shí)授予一般。有鑒于此,用類數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,不應(yīng)被視為

“復(fù)制式拷貝”

的侵權(quán)行為,而應(yīng)屬于轉(zhuǎn)換性使用的范疇,并應(yīng)構(gòu)成作品方面做出突破,如歐盟《單一數(shù)字市場(chǎng)“合理使用”

“法定許可”。目前,已有法律實(shí)踐在模型訓(xùn)練使用指令》為符合條件的

“文本和數(shù)據(jù)挖掘”

設(shè)置了豁免例外,日本對(duì)《著作權(quán)法》的修訂將

“不以欣賞作品原有價(jià)值為目的”

的大模型數(shù)據(jù)訓(xùn)練納入到合理使用的范疇等。17大模型訓(xùn)練數(shù)據(jù)白皮書(shū)此外,模型訓(xùn)練已經(jīng)盡可能地采取了相關(guān)合規(guī)方案,來(lái)減少生成式人工智能造成知識(shí)產(chǎn)權(quán)侵權(quán)的風(fēng)險(xiǎn),具體包括:(1)從真實(shí)權(quán)利人處購(gòu)買具有知識(shí)產(chǎn)權(quán)權(quán)利的數(shù)據(jù)庫(kù);(2)使用有合法授權(quán)的開(kāi)源數(shù)據(jù)集;(3)避免跨越技術(shù)措施的爬取。5.2?大模型訓(xùn)練數(shù)據(jù)合規(guī)的治理之智基于大模型對(duì)訓(xùn)練數(shù)據(jù)的使用特點(diǎn),應(yīng)構(gòu)建順應(yīng)模型發(fā)展的新時(shí)代的數(shù)據(jù)治理制度。一是重視數(shù)據(jù)的可及性,從輸入端的前置使用限制,替換為輸出端的管控和事后救濟(jì)?!渡墒饺斯ぶ悄芊?wù)管理暫行辦法》從

2023

4

月征求意見(jiàn)至

7

月正式公布期間,充分考慮了我國(guó)大模型發(fā)展的實(shí)際需要,在訓(xùn)練數(shù)據(jù)合規(guī)方面也適當(dāng)放寬了要求,如刪去訓(xùn)練數(shù)據(jù)

“不含有侵犯知識(shí)產(chǎn)權(quán)”

的表述,調(diào)整為在訓(xùn)練過(guò)程中

“不得侵害他人依法享有的知識(shí)產(chǎn)權(quán)”。我們看到目前新制度的創(chuàng)新嘗試和舊有制度的延續(xù)使用,仍在大模型訓(xùn)練前端的數(shù)據(jù)獲取和使用方面對(duì)模型研發(fā)者施加了較為嚴(yán)苛的前置性合規(guī)要求,如訓(xùn)練數(shù)據(jù)需記錄所有個(gè)人信息并取得個(gè)人知情同意,以及識(shí)別訓(xùn)練數(shù)據(jù)中的知識(shí)產(chǎn)權(quán)侵權(quán)風(fēng)險(xiǎn)語(yǔ)料并進(jìn)行刪除等。此外,訓(xùn)練數(shù)據(jù)的供給不足一定程度上限制了我國(guó)大模型尤其是基礎(chǔ)模型的趕超式發(fā)展,對(duì)于訓(xùn)練數(shù)據(jù)的使用管住輸出端的事后風(fēng)險(xiǎn)、放寬輸入端的事前限制是務(wù)實(shí)的政策選擇。二是提升模型安全訓(xùn)練數(shù)據(jù)的供給,鼓勵(lì)安全類數(shù)據(jù)集的開(kāi)放共享。大模型的能力和表現(xiàn)非常依賴于前端數(shù)據(jù)的輸入,而安全數(shù)據(jù)集作為高質(zhì)量模型訓(xùn)練數(shù)據(jù)之一,具有正外部性,將有助于大模型的人類價(jià)值對(duì)齊,并對(duì)什么是安全和不安全的內(nèi)容,以及怎樣正向地回答這些問(wèn)題進(jìn)行系統(tǒng)性的了解和學(xué)習(xí)。因此,覆蓋全類別、橫跨多領(lǐng)域的安全數(shù)據(jù)集的開(kāi)放共享,將顯著提升人類價(jià)值觀對(duì)齊在性別、職業(yè)、種族、無(wú)障礙領(lǐng)域,并有助于提升大模型后端內(nèi)容生成和輸出的無(wú)毒性、安全性和可靠性,幫助大模型更加得體和正面地應(yīng)對(duì)更廣泛的問(wèn)題。三是應(yīng)用新技術(shù)以提升訓(xùn)練數(shù)據(jù)的合規(guī)性和安全性,比如合成數(shù)據(jù)的使用可以增強(qiáng)對(duì)個(gè)信的保護(hù)。一方面合成數(shù)據(jù)的應(yīng)用可以減少對(duì)具有可識(shí)別性的個(gè)人特征數(shù)據(jù)的依賴,另一方面合成數(shù)據(jù)通過(guò)差分隱私

“加噪聲”

的技術(shù),可以有效實(shí)現(xiàn)去標(biāo)識(shí)化,從而有助于增強(qiáng)對(duì)個(gè)信的保護(hù),更好解決數(shù)據(jù)獲取合規(guī)性的問(wèn)題。1806政府與社會(huì)力量協(xié)同的訓(xùn)練數(shù)據(jù)生態(tài)本節(jié)從政府和社會(huì)力量?jī)煞矫嬗懻摯竽P陀?xùn)練數(shù)據(jù)的。通過(guò)中美對(duì)比的現(xiàn)狀,分析兩者的差異性,以及對(duì)我國(guó)人工智能領(lǐng)域數(shù)據(jù)要素發(fā)展的借鑒作用。從政府視角看,哪些公共數(shù)據(jù)可以支持大模型訓(xùn)練?我們梳理了以下幾種:一是,經(jīng)過(guò)權(quán)威認(rèn)證或凝聚共識(shí)的知識(shí),如專利文檔、上市公司財(cái)報(bào)、法院判例

/

裁判文書(shū)、醫(yī)療診斷記錄、政策文本等,除了可用于預(yù)訓(xùn)練語(yǔ)料,還可應(yīng)用于行業(yè)大模型監(jiān)督微調(diào)或外掛語(yǔ)料庫(kù)建設(shè)。二是,具有科研屬性的數(shù)據(jù),主要特征有長(zhǎng)周期、大規(guī)模、多模態(tài)、清晰、描述詳細(xì)、可使用,如天氣、醫(yī)療、地球科學(xué)、基礎(chǔ)科學(xué)領(lǐng)域等,用于

AIforScience,讓模型提升從復(fù)雜數(shù)據(jù)中提煉規(guī)律,提升精準(zhǔn)預(yù)測(cè)的能力,同時(shí)拓展

AI

大模型在更多領(lǐng)域中應(yīng)用。三是,科研期刊論文,用于提升模型上下文的理解能力和邏輯推理能力。而社會(huì)力量整合政府開(kāi)放數(shù)據(jù)與網(wǎng)絡(luò)公開(kāi)數(shù)據(jù),在拓展廣度的同時(shí),提升精細(xì)度和專業(yè)性。“廣”

的層面,社會(huì)力量將公共數(shù)據(jù)與網(wǎng)絡(luò)公開(kāi)數(shù)據(jù)融合后做進(jìn)一步清洗和加工,形成具有多樣性、大規(guī)模、高質(zhì)量特點(diǎn)的預(yù)訓(xùn)練數(shù)據(jù)集。此外,社會(huì)力量還可以通過(guò)合成數(shù)據(jù)等技術(shù)手段,拓展模型對(duì)數(shù)據(jù)使用的可能性?!褒R”

的層面,社會(huì)力量通過(guò)大量高質(zhì)量反饋?zhàn)鰯?shù)據(jù)標(biāo)注,將模型產(chǎn)出與人類價(jià)值觀對(duì)齊?!皩!?/p>

的層面,也會(huì)整合領(lǐng)域知識(shí)和經(jīng)驗(yàn),促進(jìn)語(yǔ)料的流通和共享,提供行業(yè)大模型所需的高質(zhì)量、專業(yè)性的數(shù)據(jù)供給。由此可見(jiàn)社會(huì)力量在大模型訓(xùn)練語(yǔ)料中所起到的主導(dǎo)作用。那么,美國(guó)與中國(guó)在獲取大模型數(shù)據(jù)方面的做法有哪些不同呢?6.1?美國(guó)的現(xiàn)狀美國(guó)聯(lián)邦政府在公共數(shù)據(jù)中承擔(dān)了

“應(yīng)開(kāi)盡開(kāi)”

的職責(zé),由社會(huì)力量來(lái)探索數(shù)據(jù)的應(yīng)用。政府開(kāi)發(fā)了專門(mén)針對(duì)AI

訓(xùn)練數(shù)據(jù)的開(kāi)放平臺(tái),并針對(duì)公共數(shù)據(jù)和科研數(shù)據(jù)進(jìn)行質(zhì)量維護(hù)和運(yùn)營(yíng)管理,在保證數(shù)據(jù)可用性的同時(shí)降低公眾使用門(mén)檻。公共數(shù)據(jù)開(kāi)放的范圍限定在政府?dāng)?shù)據(jù),包括各級(jí)政府及政府資助的大學(xué)和研究機(jī)構(gòu)。在開(kāi)放共享階段,聯(lián)邦政府會(huì)對(duì)與

AI

相關(guān)的數(shù)據(jù)做標(biāo)識(shí)、在數(shù)據(jù)量大時(shí)做

“上云”

處理、定期更新、分類、清洗、標(biāo)注、結(jié)構(gòu)化、并確定分級(jí)開(kāi)放權(quán)限。在開(kāi)發(fā)利用階段,政府會(huì)提供便捷的用戶檢索服務(wù)、提供數(shù)據(jù)接口19大模型訓(xùn)練數(shù)據(jù)白皮書(shū)(API)。在科研論文方面,設(shè)立

PubMed論文檢索系統(tǒng),整合國(guó)家醫(yī)學(xué)圖書(shū)館下屬的

3

個(gè)論文數(shù)據(jù)庫(kù)資源,記錄了3600

萬(wàn)

+

條生物醫(yī)學(xué)文獻(xiàn)的引用和摘要,并提供原文鏈接。在科研屬性公共數(shù)據(jù)方面,國(guó)家氣象和海洋局(NOAA)從衛(wèi)星、、船舶等每天新產(chǎn)生數(shù)十

TB數(shù)據(jù),按季度更新

150個(gè)數(shù)據(jù)集,因數(shù)據(jù)量龐大存儲(chǔ)在云端。為方便公眾開(kāi)發(fā)利用,提供了數(shù)據(jù)集

API

接口。在權(quán)威認(rèn)證的知識(shí)方面,如法院的裁判文書(shū)是很好的結(jié)構(gòu)化數(shù)據(jù),對(duì)于訓(xùn)練法律大模型價(jià)值很高。美國(guó)遵循

“公開(kāi)是原則,不公開(kāi)是例外”

的理念,除了隱去涉及國(guó)家秘密和個(gè)人隱私的信息,聯(lián)邦和地方法院都實(shí)現(xiàn)了公開(kāi),并提供了

API

接口供調(diào)用。在醫(yī)療領(lǐng)域,含有醫(yī)

-

-

藥信息的診療記錄、CT

圖片及結(jié)果標(biāo)注構(gòu)成的醫(yī)學(xué)影像數(shù)據(jù)、基因組與疾病篩查數(shù)據(jù)等對(duì)于醫(yī)療大模型訓(xùn)練有較高價(jià)值,以國(guó)立衛(wèi)生研究院(NIH)為主的機(jī)構(gòu)在確保隱私保護(hù)的前提下對(duì)公眾實(shí)現(xiàn)分級(jí)分類開(kāi)放(139

個(gè)醫(yī)療健康數(shù)據(jù)庫(kù),包含

9

個(gè)醫(yī)療影像數(shù)據(jù)庫(kù),擁有超過(guò)

30

萬(wàn)張

CT

圖像及標(biāo)注對(duì)、20

個(gè)基因組數(shù)據(jù)庫(kù)),供社會(huì)力量使用。美國(guó)的社會(huì)力量整合政府的開(kāi)放數(shù)據(jù)與網(wǎng)絡(luò)的公開(kāi)數(shù)據(jù),提升數(shù)據(jù)精細(xì)度和專業(yè)性,形成以開(kāi)源為主的高質(zhì)量訓(xùn)練語(yǔ)料。社會(huì)力量主要有開(kāi)源

/

非盈利組織、互聯(lián)網(wǎng)公司研究部門(mén)、學(xué)界、多類型機(jī)構(gòu)合作組成。數(shù)據(jù)集以開(kāi)源為主,站在前人的肩膀上不斷迭代。以在大模型中被廣泛應(yīng)用的,由開(kāi)源組織

EleutherAI開(kāi)發(fā)的

825GB高質(zhì)量英文語(yǔ)料庫(kù)

ThePile

為例,在

22

個(gè)子數(shù)據(jù)集中,于政府公共數(shù)據(jù)的有

4

個(gè)(PubMed

數(shù)據(jù)庫(kù)、商標(biāo)專利數(shù)據(jù)庫(kù)、衛(wèi)生研究院數(shù)據(jù)等),這也體現(xiàn)了語(yǔ)料中不同類型數(shù)據(jù)有效搭配的重要性。在行業(yè)大模型中,社會(huì)力量對(duì)領(lǐng)域數(shù)據(jù)集的專業(yè)性也起到了重要貢獻(xiàn)。以把大模型當(dāng)做大腦來(lái)輔助運(yùn)行的具身智能機(jī)器人為例,GoogleDeepMind20聯(lián)合

33

家學(xué)術(shù)實(shí)驗(yàn)室,匯集了來(lái)自

22種不同機(jī)器人類型數(shù)據(jù),涵蓋

100

多萬(wàn)條片段,展示機(jī)器人在

15

萬(wàn)項(xiàng)任務(wù)上的表現(xiàn),創(chuàng)建

OpenX-Embodiment開(kāi)源數(shù)據(jù)集?;谠摂?shù)據(jù)集訓(xùn)練的具身智能模型,解決了機(jī)器人在特定任務(wù)專業(yè)而通用能力差的難題,成功率提高

50%,技能表現(xiàn)提高

2

倍。此外,在合成數(shù)據(jù)領(lǐng)域,美國(guó)的發(fā)展也顯示出積極的趨勢(shì)和廣泛的應(yīng)用前景,比如微軟在其投資組合中就包含了諸如

hazy、Unstructured-IO

等合成數(shù)據(jù)公司。在政府與社會(huì)力量協(xié)同的方面,美國(guó)聯(lián)邦政府發(fā)揮了

AI

訓(xùn)練數(shù)據(jù)

“匯聚融合”

的角色。為鞏固美國(guó)在

AI

領(lǐng)域的競(jìng)爭(zhēng)優(yōu)勢(shì),由政府主導(dǎo)推動(dòng)為期

6

年的國(guó)家人工智能研究資源

NAIRR計(jì)劃,讓

AI

研究者獲得更多算力和數(shù)據(jù)資源。計(jì)劃的原則是尊重社會(huì)力量的專業(yè)性,作為經(jīng)營(yíng)主體的指導(dǎo)委員會(huì)中有多位來(lái)自

AI

業(yè)界和學(xué)界的資深人士。NAIRR

在數(shù)據(jù)資源整合中發(fā)揮的作用體現(xiàn)在,聯(lián)邦政府通過(guò)建立數(shù)據(jù)資源服務(wù)平臺(tái),匯聚政府與社會(huì)力量的開(kāi)源數(shù)據(jù)資源。通過(guò)建立統(tǒng)一的數(shù)據(jù)匯聚標(biāo)準(zhǔn),規(guī)范數(shù)據(jù)描述格式,促進(jìn)多方數(shù)據(jù)融合。倡導(dǎo)

AI-Friendly

的數(shù)據(jù)兼容性,將數(shù)據(jù)集整理和格式化成易于

AI

算法處理和學(xué)習(xí)的形式,如文檔的電子化程度、版面編排以及相關(guān)數(shù)據(jù)的完整性。同時(shí)推動(dòng)多方協(xié)作的數(shù)據(jù)資源開(kāi)發(fā)利用,如運(yùn)營(yíng)數(shù)據(jù)集社區(qū)、提供數(shù)據(jù)搜索服務(wù)等。6.2?中國(guó)的現(xiàn)狀我國(guó)的公共數(shù)據(jù)采用主體性質(zhì)界分,包含各級(jí)行政機(jī)關(guān)在履行公共管理職能中獲取的數(shù)據(jù),覆蓋范圍比美國(guó)更廣,但在開(kāi)放共享和開(kāi)發(fā)利用程度上仍有不足。如天氣數(shù)據(jù)的開(kāi)放,在中國(guó)氣象數(shù)據(jù)網(wǎng)查詢地面逐小時(shí)觀測(cè)資料時(shí),個(gè)人用戶需注冊(cè),且可選范圍被限定在

7

天以內(nèi);而對(duì)比

NOAA,無(wú)需注冊(cè)即可下載,且以地表溫度為例,數(shù)據(jù)最早可追溯到

1951

年。在開(kāi)發(fā)利用中,我國(guó)也僅對(duì)個(gè)別數(shù)據(jù)集提供了

API

接口。再如法律領(lǐng)域,最高人民法院設(shè)立了裁判文書(shū)網(wǎng),除例外情況外統(tǒng)一公布各級(jí)人民法院的生效判決書(shū)。但近年公開(kāi)的數(shù)量有明顯下降趨勢(shì),2020

年上網(wǎng)文書(shū)

2300

多萬(wàn),而

2023

年截至

12

月僅公開(kāi)

300

萬(wàn)。另

2024

1

月將啟用

“全國(guó)法院裁判文書(shū)庫(kù)”,僅法院人士在內(nèi)網(wǎng)可查詢。在醫(yī)療領(lǐng)域,對(duì)于模型訓(xùn)練價(jià)值較高的醫(yī)療影像、基因組數(shù)據(jù)開(kāi)放程度非常有限,社會(huì)力量的探索呈現(xiàn)

“散點(diǎn)狀”。我國(guó)的社會(huì)力量主要是結(jié)合海外優(yōu)質(zhì)開(kāi)源數(shù)據(jù)集及中文語(yǔ)料,產(chǎn)出訓(xùn)練數(shù)據(jù)集。以阿里巴巴的

“通義千問(wèn)”

大模型為例,訓(xùn)練數(shù)據(jù)來(lái)自公開(kāi)的混合數(shù)據(jù),以中文和英文為主。而中文語(yǔ)料主要來(lái)自知乎、百度百科、百度知道等公開(kāi)網(wǎng)絡(luò)數(shù)據(jù),

于政府的公共數(shù)據(jù)非常少。從總體看,中文語(yǔ)料庫(kù)的開(kāi)源情況不如英文普遍,據(jù)

AI

應(yīng)用開(kāi)放社區(qū)

HuggingFace

數(shù)據(jù)統(tǒng)計(jì),中文開(kāi)源數(shù)據(jù)集數(shù)量?jī)H占英文開(kāi)源的

11%。在行業(yè)大模型中,社會(huì)力量對(duì)行業(yè)數(shù)據(jù)集專業(yè)性有一定貢獻(xiàn),推動(dòng)了在交通、政務(wù)、醫(yī)療等領(lǐng)域的應(yīng)用。整體看,用領(lǐng)域知識(shí)訓(xùn)練大模型仍面臨困難,第一是領(lǐng)域知識(shí)積累的專業(yè)門(mén)檻高、時(shí)間周期長(zhǎng)。第二是企業(yè)出于商業(yè)利益和知識(shí)產(chǎn)權(quán)考慮,對(duì)領(lǐng)域知識(shí)共享意愿度低。第三是因?yàn)槲覈?guó)公共數(shù)據(jù)開(kāi)放不足,導(dǎo)致部分行業(yè)缺少優(yōu)質(zhì)的數(shù)據(jù)供給。在這種情況下,如果還要試圖縮小已經(jīng)開(kāi)放的公共數(shù)據(jù)范圍,那么高質(zhì)量語(yǔ)料短缺的問(wèn)題將更為突顯。21大模型訓(xùn)練數(shù)據(jù)白皮書(shū)我國(guó)尚未形成對(duì)大模型提供有效供給的數(shù)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論