版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
SECTION目錄C
o
n
t
e
n
t一、GPT-4:多模態(tài)、高認(rèn)知、更安全二、Deep
Speed:更快速、更經(jīng)濟(jì)、更普及三、投資建議四、風(fēng)險(xiǎn)提示1.1 GPT-4:多模態(tài)、高認(rèn)知、更安全深耕AIGC領(lǐng)域,AI滲透全方面、各領(lǐng)域。OPENAI致力于用AI改變工作和創(chuàng)意,除ChatGPT的語言模型外,還通過API平臺(tái)向開發(fā)者提供最新模型和指南,不斷提高應(yīng)用性能和用戶活躍度。GPT-4是大型多模態(tài)模型。相較于只能接受文字/代碼輸入的GPT-3.5,GPT-4接受圖片+文字的多模態(tài)輸入+高認(rèn)知的結(jié)合,并反饋文字輸出。GPT-4是OpenAI新一代自然語言處理模型,繼承了GPT-3.5的優(yōu)點(diǎn)的同時(shí)改進(jìn)了模型結(jié)構(gòu)、訓(xùn)練數(shù)據(jù)量和算法優(yōu)化,應(yīng)用范圍跨越數(shù)學(xué)、編碼、視覺、醫(yī)學(xué)、法律、心理學(xué)等領(lǐng)域,GPT-4模型多領(lǐng)域的廣泛運(yùn)用和超高任務(wù)表現(xiàn)力接近甚至超越人類水平,因此GPT-4是AGI的開創(chuàng)性研究,也是邁向AGI的重要一步。
圖1
ChatGPT3.5與4的主要區(qū)別 資料來源:
信息元公眾號(hào),
上海證券研究所ChatGPT4和3.5的主要區(qū)別ChatGPT-3.5ChatGPT-4.01打字速度慢、高峰期更慢普遍說4.0更慢,但實(shí)際用起來差別不大2掉線頻率基本上每隔幾分鐘不用就會(huì)出現(xiàn)紅框、掉線掉線后需要刷新網(wǎng)頁基本不掉線3分段生成能力文本過長的時(shí)候,生成幾百字就自動(dòng)停止了這時(shí)候回復(fù):“繼續(xù)”,3.5就可以繼續(xù)生成,但3.5的生成往往不夠連貫4.0基本是完美的連貫生成4使用頻率限制1小時(shí)100次提問,基本夠用,但是人多的時(shí)候,你即使用不到100次也會(huì)提示“當(dāng)前提問人數(shù)太多,請(qǐng)一小時(shí)后再試”每3小時(shí)25次提問,不會(huì)受當(dāng)前使用人數(shù)影響5回答質(zhì)量和其他AI相比,chatgpt是公認(rèn)的最強(qiáng)AI,基本能滿足我們的日常工作需要。但是和4.0相比,差距還是有的,目測(cè)能力值相當(dāng)于4.0的70%吧全球最頂尖的AI,沒有之一。能解決的問題種類比3.5多一些,同一個(gè)問題,4.0的回復(fù)會(huì)更好一些。尤其是考試做題能力、邏輯推理能力、角色扮演能力更強(qiáng)66文字限制最多回復(fù)3000字,如果你要求回復(fù)4000字,它會(huì)說“超過限制”,這時(shí)候就得分段提問最多回復(fù)25000字7有害信息如果提問醫(yī)療建議、自我傷害、違反道德的問題,3.5有時(shí)會(huì)如實(shí)作答4.0拒絕回答有害信息的概率更高,不被允許的回答4.0則會(huì)直接拒絕8二次開發(fā)能力對(duì)于想利用ChatGPT來進(jìn)行二次開發(fā)的程序員、運(yùn)營者來說,3.5有很多不支持,以及調(diào)用接口次數(shù)限制支持更多次數(shù)的api調(diào)用,支持更多的調(diào)用場(chǎng)景9圖片能力無支持圖像輸入、分析圖像(例如拍照幫你做題)。支持圖片輸出,但是不是自己生成的是網(wǎng)絡(luò)上有的圖10聯(lián)網(wǎng)能力無,訓(xùn)練數(shù)據(jù)庫到2021年無,訓(xùn)練數(shù)據(jù)庫到2021年9月11防止被誘導(dǎo)一般更難被誘導(dǎo),拒絕被訓(xùn)練成為壞壞的AI12連續(xù)對(duì)話能力能記住大約相當(dāng)于8000個(gè)詞之前的指令,但是再多,它就會(huì)忘記之前的話了能記住相當(dāng)于大約64000個(gè)單詞13理解不同語言水平支持24種語言26種語言,且語言水平普遍比3.5的更高,對(duì)中文的理解更是達(dá)到了和3.5對(duì)英語的理解一樣的水平根據(jù)OpenAI技術(shù)文檔給出的案例,GPT-4,對(duì)于圖片的理解能力極強(qiáng)。同時(shí)識(shí)別多張圖片內(nèi)容。如圖2,將3張圖片拼湊成1張,GPT-4能夠同時(shí)識(shí)別多張圖片的內(nèi)容。根據(jù)圖片進(jìn)行算數(shù)運(yùn)算。如圖3,將題目發(fā)給GPT-4,它能根據(jù)圖片信息進(jìn)行算數(shù)運(yùn)算。1.2
多模態(tài):接受圖片+文字形式輸入圖2
GPT-4可以同時(shí)識(shí)別多張圖片內(nèi)容資料來源:《GPT-4
Technical
Report》,上海證券研究所圖3
GPT-4可以根據(jù)圖片信息進(jìn)行推理運(yùn)算資料來源:
《GPT-4
Technical
Report》,上海證券研究所用戶提問:
這張圖片有什么有趣的地方?分圖片描述。成功識(shí)別出上圖包含3張圖片,并分別描述了圖片內(nèi)容。用戶提問:格魯吉亞和西亞平均每日肉類消費(fèi)量的總和是多少?在回答之前,請(qǐng)?zhí)峁┲鸩酵评?。GPT
-4從圖示3處地名識(shí)別出用戶要求的2處,然后進(jìn)行算數(shù)推演,
并得到正確答案。73)閱讀并總結(jié)論文。如圖4、圖5,將論文中部分頁面截圖給GPT-4,即可閱讀并總結(jié)主要內(nèi)容并回答用戶追加的相關(guān)問題。4)解答高難度物理題目。如圖6,將école
Polytechnique(巴黎綜合理工大學(xué))物理考試題目傳給GPT-4,并指定其解答某一問題,即可順利識(shí)別任務(wù)并正確解答。1.2
多模態(tài):接受圖片+文字形式輸入圖4
GPT-4可以閱讀和總結(jié)論文資料來源:
《GPT-4
Technical
Report》,上海證券研究所資料來源:
《GPT-4
Technical
Report》,上海證券研究所圖5
GPT-4可以根據(jù)論文內(nèi)容回答相關(guān)問題圖6
GPT-4可以根據(jù)圖片信息進(jìn)行推理運(yùn)算資料來源:
《GPT-4
Technical
Report》,上海證券研究所用戶提問:請(qǐng)按步驟解答第1小問正確回答了é
c
o
l
ePolytechnique(巴黎綜合理工大學(xué))物理考試中的題目,該考試主要面向數(shù)學(xué)和物理學(xué)科的頂尖本科和研究生。用戶提問:請(qǐng)總結(jié)以下InstructGPT論文部分的內(nèi)容8GPT-4解釋了論文中某一圖表的推導(dǎo)步驟1.2
多模態(tài):接受圖片+文字形式輸入資料來源:差評(píng)公眾號(hào),上海證券研究所資料來源:
《GPT-4
Technical
Report》,上海證券研究所資料來源:
《GPT-4
Technical
Report》,上海證券研究所代碼成功運(yùn)行后的網(wǎng)頁截圖手寫網(wǎng)頁草稿GPT-
4
反饋相關(guān)代碼5)識(shí)別手寫網(wǎng)頁草圖,并根據(jù)草圖寫出網(wǎng)頁前端代碼。如圖7,將手寫
“My
Joke
Website”網(wǎng)頁樣式傳給GPT-4,GPT-4將反饋相應(yīng)的前端代碼,該代碼不但可以順利運(yùn)行,也完全符合手繪草稿要求的內(nèi)容和樣式,具有極強(qiáng)的OCR(文字識(shí)別)能力。6)理解人類社會(huì)常識(shí),可讀懂“網(wǎng)絡(luò)梗圖”,具有更明顯的“人性化”特征。如圖8,用戶提問“該圖片中有什么特別之處?”GPT-4回答“男人在移動(dòng)的出租車車頂燙衣服”是不符合人類社會(huì)常識(shí)之處,展示出驚人的理解力。如圖9,用戶請(qǐng)GPT-4回答圖中的“梗”,GPT-4能夠?qū)ⅰ半u塊”和“世界地圖”相聯(lián)系,展示出強(qiáng)大的聯(lián)想能力。圖7
GPT-4可以根據(jù)手繪圖片返回網(wǎng)站代碼 圖8
GPT-4可以識(shí)別圖片中不符合常理之處 圖9
GPT-4具有強(qiáng)聯(lián)想能力用戶:圖片中有什么特別之處?這張圖片的不尋常之處在于,男人在移動(dòng)的出租車的車頂上燙衣服,燙衣板也固定在車頂上。用戶提問:請(qǐng)解釋下圖中的“?!?GPT-4解釋了圖中的“
?!?/p>
在于把雞塊擺放成世界地圖的樣子GPT-4具有更強(qiáng)的長文字處理能力。GPT-4的上下文上限約為2.5萬字,是Chat
GPT的近8倍,允許使用長格式內(nèi)容創(chuàng)建、擴(kuò)展對(duì)話及文檔搜索和分析等,能夠閱讀并記憶更多信息。GPT-4有更高的推理判斷能力。如圖11、圖12,向Chat
GPT和GPT-4提出相同問題“給定3個(gè)人物各自的空閑時(shí)間,求3人的共同空閑時(shí)段以安排會(huì)議?!盋hatGPT給出了錯(cuò)誤答案,而GPT-4成功完成這一要求。1.3
高認(rèn)知:長文字處理+推理判斷能力圖10
GPT-4可處理的上下文上限為2.5萬字圖11
Chat
GPT回答錯(cuò)誤圖12
GPT-4給出了正確答案Chat
GPT回答錯(cuò)誤,Andrew下午四點(diǎn)沒有空閑時(shí)間。資料來源:OpenAI官網(wǎng),上海證券研究所資料來源:OpenAI官網(wǎng),上海證券研究所資料來源:
OpenAI官網(wǎng),上海證券研究所10GPT-4給出了合理解答。1.3
高認(rèn)知:長文字處理+推理判斷能力GPT-4具有更高的認(rèn)知水平。根據(jù)OpenAI給出的專業(yè)測(cè)試結(jié)果,GPT-4在高等數(shù)學(xué)、法律、生物、化學(xué)、英語、高級(jí)微觀經(jīng)濟(jì)等學(xué)科的考試成績遠(yuǎn)超GPT-3.5。GPT-4在多領(lǐng)域的專業(yè)認(rèn)知超過平均水準(zhǔn)。在律師資格考試中,GPT-4的分?jǐn)?shù)排名可以達(dá)到所有考生的前10
,而GPT-3.5只能排倒數(shù)10
,是GPT-4優(yōu)化幅度最大的科目。此外,在GRE、SAT、歷史、化學(xué)、生物、微觀經(jīng)濟(jì)、宏觀經(jīng)濟(jì)等科目中均超過至少80以上的考生。編程能力(Codeforces
Rating)反而是GPT-4最弱的科目,排名在倒數(shù)5
。圖13
GPT-4在專業(yè)測(cè)試中的表現(xiàn) 圖14
GPT-4在專業(yè)測(cè)試中的排名50
80
資料來源:
《GPT-4
Technical
Report》,上海證券研究所資料來源:
《GPT-4
Technical
Report》,上海證券研究所11GPT-4在評(píng)估語言模型的傳統(tǒng)基準(zhǔn)上優(yōu)于其他模型。在語言模型基準(zhǔn)測(cè)試中,分別將GPT-4、GPT-3.5與現(xiàn)有最佳性能語言模型(LM
SOTA)和現(xiàn)有最佳模型(SOTA)的性能通過小樣本(few-shot)測(cè)試進(jìn)行比對(duì),除DROP(閱讀理解基準(zhǔn)測(cè)試)外,GPT-4在多語言學(xué)習(xí)、常識(shí)推理、語音識(shí)別、人類評(píng)估測(cè)試均超越現(xiàn)有最佳模型。GPT-4擁有卓越的外語能力,包括英語和其他小語種。如圖16,GPT-4在包括英語在內(nèi)的27種語言測(cè)試中準(zhǔn)確率均達(dá)到62
以上。通過與GPT-3.5、PaLM、Chinchilla模型英語水平進(jìn)行對(duì)比,GPT-4以85.5的準(zhǔn)確性遠(yuǎn)超其他模型。1.3
高認(rèn)知:長文字處理+推理判斷能力圖15
GPT-4顯著優(yōu)于現(xiàn)有模型圖16
GPT-4多語言能力更強(qiáng)除DROP(閱讀理解基準(zhǔn)測(cè)試)外,
GPT-
4
全方位超越現(xiàn)有最佳模型?;谧匀徽Z言的常識(shí)推理測(cè)試資料來源:
《GPT-4
Technical
Report》,上海證券研究所資料來源:
《GPT-4
Technical
Report》,上海證券研究所12多語言學(xué)習(xí)語音識(shí)別人類評(píng)估1.3
高認(rèn)知:長文字處理+推理判斷能力GPT-4的高認(rèn)知特征具體體現(xiàn)在以下方面:高常識(shí)推理能力。分別問Chat
GPT和GPT-4“1+1什么情況等于3”時(shí),Chat
GPT只會(huì)從數(shù)學(xué)計(jì)算的角度思考,但GPT-4可以從常識(shí)推理的角度思考。高可塑性。與Chat
GPT不同,GPT-4能夠以不同的語言風(fēng)格與用戶交流。當(dāng)被設(shè)定為某個(gè)角色時(shí),GPT-4將不會(huì)聽從違背角色特征的指令。高解決問題能力。GPT-4能夠處理復(fù)雜問題,比如運(yùn)用學(xué)習(xí)到的稅務(wù)知識(shí)幫助用戶解決稅務(wù)問題。結(jié)合稅法的高時(shí)效性與GPT-4的長文字處理能力,用戶可以將最新的稅法傳給GPT-4后要求其為自己解決稅務(wù)籌劃問題。圖17
分別問Chat
GPT和GPT-4“1+1什么情況等于3” 圖18
GPT-4具有較強(qiáng)的可塑性 圖19
GPT-4能夠處理復(fù)雜問題設(shè)置角色:假設(shè)GPT-4是蘇格拉底風(fēng)格的導(dǎo)師資料來源:APPSO公眾號(hào),上海證券研究所資料來源:差評(píng)公眾號(hào),上海證券研究所資料來源:知識(shí)分子公眾號(hào),上海證券研究所13設(shè)置角色:假設(shè)GPT-4是TaxGPT,運(yùn)用內(nèi)置的Tax知識(shí)幫助客戶解決稅務(wù)規(guī)劃問題GPT-4的可靠性大幅提升。相較于GPT-3.5(會(huì)隨著持續(xù)迭代而改善),GPT-4顯著減少了“虛構(gòu)”現(xiàn)象。在內(nèi)部設(shè)計(jì)的對(duì)抗性準(zhǔn)確度評(píng)估中,GPT-4各科目平均得分比GPT-3.5高出19%。其中,提升幅度在歷史和數(shù)學(xué)科目上的表現(xiàn)尤為突出。GPT-4的分辨能力有顯著提升,但仍存在改進(jìn)空間。相較于GPT-3.5,GPT-4在公開基準(zhǔn)測(cè)試TruthfulQA(測(cè)試模型真實(shí)性性能好壞的一個(gè)測(cè)試集)中取得了進(jìn)步,體現(xiàn)為較高的分辨事實(shí)能力。如圖21,在零樣本(0-shot)提示、小樣本(few-shot)提示和人類反饋強(qiáng)化學(xué)習(xí)(RLHF)微調(diào)后的表現(xiàn)中,GPT-4均明顯優(yōu)于GPT-3.5和Anthropic-LM,但GPT-4對(duì)TruthfulQA中的某些問題依然給出了錯(cuò)誤的回答。1.4
更安全:分辨能力提高圖20
GPT-4在9個(gè)內(nèi)部設(shè)計(jì)的對(duì)抗性準(zhǔn)確度評(píng)估中的表現(xiàn)資料來源:《GPT-4
Technical
Report》,上海證券研究所圖21
GPT-4在TruthfulQA中的表現(xiàn)資料來源:《GPT-4
Technical
Report》,上海證券研究所141.4
更安全:分辨能力提高GPT-4優(yōu)化了安全性指標(biāo),能夠有效減少有害風(fēng)險(xiǎn)信息的提供。從響應(yīng)率來看,GPT-4對(duì)違規(guī)內(nèi)容(如制作炸彈的方法)請(qǐng)求的響應(yīng)率相較于GPT-3.5降低了82%,對(duì)敏感內(nèi)容請(qǐng)求(如醫(yī)療建議和自我傷害建議等)的響應(yīng)率降低了29%,RLHF后的GPT-4的響應(yīng)率則更低。從反饋“有害信息”的可能性來看,GPT-4在Real
Toxicity
Prompts
數(shù)據(jù)集的測(cè)試中僅有0.73%的概率生成“有害信息”,而GPT-3.5的概率為6.48%。圖22
敏感提示和禁用提示的錯(cuò)誤行為比率資料來源:《GPT-4
Technical
Report》,上海證券研究所15結(jié)合對(duì)現(xiàn)有其他語言模型的研究,GPT-4仍存在信息迭代受限、準(zhǔn)確性不足、反饋違規(guī)內(nèi)容等不足之處。信息迭代受限。GPT-4信息更迭能力受限,且模型本身不具主動(dòng)學(xué)習(xí)能力。根據(jù)GPT-4技術(shù)報(bào)告,由于模型于2021年9月預(yù)訓(xùn)練完畢,GPT-4缺乏對(duì)此后事件的了解,且無法從經(jīng)驗(yàn)中學(xué)習(xí)新內(nèi)容。ChatGPT通過植入插件系統(tǒng)形成了對(duì)世界新事物的“觸覺”。根據(jù)OpenAI官網(wǎng)介紹,Web瀏覽器插件將利用New
Bing的API,通過在互聯(lián)網(wǎng)上搜索相關(guān)信息,給出用戶具體答案。準(zhǔn)確性不足。GPT-4的回答準(zhǔn)確性相較于GPT-3.5有較大提升,但仍存在虛構(gòu)傾向。在TruthfulQA測(cè)試中,GPT-4在某些問題上依然給出了錯(cuò)誤的回答。隨著GPT-4使用范圍的擴(kuò)大,虛構(gòu)傾向不僅會(huì)誤導(dǎo)用戶,更會(huì)降低模型本身的整體可信度。存在道德風(fēng)險(xiǎn)。GPT-4可能根據(jù)用戶發(fā)出的指令產(chǎn)生各種有害內(nèi)容,包括違反OpenAI政策以及對(duì)不利于社會(huì)發(fā)展的內(nèi)容。如歧視性內(nèi)容、誤導(dǎo)性內(nèi)容、策劃襲擊或暴力活動(dòng)內(nèi)容等。其他風(fēng)險(xiǎn)。結(jié)合對(duì)現(xiàn)有其他語言模型的研究,GPT-4還可能存在如侵犯隱私權(quán)、危害網(wǎng)絡(luò)安全、出現(xiàn)不受控的新能力、系統(tǒng)交互等潛在風(fēng)險(xiǎn)。1.5 GPT-4仍存在不足之處16DeepSpeed是PyTorch的開源的兼容庫,在深度學(xué)習(xí)訓(xùn)練和推理方面具有極高的速度和規(guī)模。DeepSpeed通過提高規(guī)模、速度、成本和可用性來改進(jìn)大型模型訓(xùn)練,可訓(xùn)練超100億個(gè)參數(shù)的模型,實(shí)現(xiàn)了自然語言處理(NLP)和多模態(tài)(結(jié)合語言圖像、視頻和語音)等領(lǐng)域的突破。Deep
Speed
Chat基于微軟Deep
Speed深度學(xué)習(xí)優(yōu)化庫開發(fā)而成。Deep
Speed
Chat可在模型訓(xùn)練中加入完整RLHF流程,用于RLHF訓(xùn)練的低成本開源解決方案,使得復(fù)雜的RLHF訓(xùn)練變得快速、經(jīng)濟(jì)、輕松訪問,實(shí)現(xiàn)類似ChatGPT模型的端到端RLHF訓(xùn)練,從而幫助我們生成自己的高質(zhì)量ChatGPT模型。相較于ChatGPT,Deep
Speed
Chat普及RLHF(基于人工反饋機(jī)制的強(qiáng)化學(xué)習(xí))訓(xùn)練到AI社區(qū),削弱了ChatGPT的局限性。2.1
DeepSpeed
更高速度
更大規(guī)模圖23
DeepSpeed三大創(chuàng)新支柱——訓(xùn)練、推理、壓縮資料來源:Deep
Speed,上海證券研究所圖24
DeepSpeed
Chat——便捷快速的類chatgpt模型資料來源:Github,上海證券研究所172021.102022.52022.92022.11182022.12DeepSpeed訓(xùn)練了世界上最強(qiáng)大的語言模型:
威震天-圖靈NLG
530BDeepSpeed支持在AMDGPU上進(jìn)行高效的大型模型訓(xùn)練2022.7DeepSpeed幫助訓(xùn)練了176億個(gè)參數(shù)的BLOOM模型DeepSpeed
Compression用于極端壓縮的可組合庫AzureDeepSpeed支持易于使用的高性能模型訓(xùn)練ZeRO推理:大眾化大規(guī)模模型推理2022.10實(shí)現(xiàn)推理(
MII)深速模型Deep
Speed數(shù)據(jù)效率庫:實(shí)現(xiàn)更少的數(shù)據(jù)、更快的訓(xùn)練和更高的模型質(zhì)量通過DeepSpeed-MII實(shí)現(xiàn)亞秒級(jí)穩(wěn)定的擴(kuò)散圖像生成2.2
不斷強(qiáng)化模型質(zhì)量2.3
Deep
Speed
三大核心功能在微軟開源DeepSpeed
Chat之后,普通用戶可通過簡(jiǎn)單的操作,即可訓(xùn)練類ChatGPT等大語言模型,降低了ChatGPT類模型使用的門檻和成本,主要通過以下三個(gè)核心功能來達(dá)到:簡(jiǎn)化ChatGPT類型模型的訓(xùn)練并強(qiáng)化推理體驗(yàn):DeepSpeed-Chat僅需一個(gè)腳本即可實(shí)現(xiàn)多個(gè)訓(xùn)練步驟,如使用Huggingface預(yù)訓(xùn)練模型、使用DeepSpeed-RLHF系統(tǒng)運(yùn)行InstructGPT訓(xùn)練的所有三個(gè)步驟、生成自己的ChatGPT模型。此外,在模型訓(xùn)練后可以利用推理API進(jìn)行對(duì)話交互測(cè)試。DeepSpeed-RLHF模塊:DeepSpeed-RLHF模塊復(fù)刻InstructGPT論文中的訓(xùn)練模式,并確保監(jiān)督微調(diào)
(SFT)、獎(jiǎng)勵(lì)模型微調(diào)和人類反饋強(qiáng)化學(xué)習(xí)
(RLHF)的三個(gè)步驟與其一一對(duì)應(yīng),提供數(shù)據(jù)抽象和混合功能來支持開發(fā)者使用多個(gè)不同數(shù)據(jù)源進(jìn)行訓(xùn)練。DeepSpeed-RLHF系統(tǒng):DeepSpeed-RLHF系統(tǒng)將DeepSpeed的訓(xùn)練和推理能力整合成統(tǒng)一混合引擎
(DeepSpeed-HE)
中,用于RLHF訓(xùn)練。DeepSpeed
Hybrid
Engine是為RLHF訓(xùn)練提供更高性能和效率的混合引擎,它結(jié)合了DeepSpeed的訓(xùn)練引擎和推理引擎,在訓(xùn)練和推理模式之間自由切換,為RLHF的訓(xùn)練和推理提供了更快的速度,也優(yōu)化了內(nèi)存和緩存數(shù)據(jù)。圖25
用于加速RLHF流程中最耗時(shí)部分的DeepSpeed混合引擎設(shè)計(jì)資料來源:Github,上海證券研究所192.4
DeepSpeed
Hybrid
Engine優(yōu)勢(shì)高效性和經(jīng)濟(jì)性:DeepSpeed-HE提供高效的RLHF訓(xùn)練模式,訓(xùn)練速度較現(xiàn)有系統(tǒng)快15倍以上,使RLHF訓(xùn)練快速且經(jīng)濟(jì)實(shí)惠。卓越的擴(kuò)展性:DeepSpeed-HE能支持訓(xùn)練擁有數(shù)千億參數(shù)的模型,并在多節(jié)點(diǎn)多GPU系統(tǒng)上展現(xiàn)出其卓越的擴(kuò)展性。因此,即使是擁有130億參數(shù)的模型,也僅需1.25小時(shí)即可完成訓(xùn)練。對(duì)擁有1750億參數(shù)的龐大模型,使用DeepSpeed-HE進(jìn)行訓(xùn)練也只需不到一天的時(shí)間。普及RLHF訓(xùn)練:DeepSpeed-HE憑借單個(gè)GPU即可支持訓(xùn)練超1300億參數(shù)的模型,使無法多GPU系統(tǒng)的數(shù)據(jù)科學(xué)家既可以輕松創(chuàng)建輕量級(jí)的RLHF模型,又可以創(chuàng)建功能強(qiáng)大、能用于不同場(chǎng)景的的大型模型。圖26
單節(jié)點(diǎn)在Azure云上使用DeepSpeed-HE訓(xùn)練不同模型的時(shí)長和相應(yīng)花費(fèi)資料來源:Github,上海證券研究所圖27
多節(jié)點(diǎn)在Azure云上使用DeepSpeed-HE訓(xùn)練不同模型的時(shí)長和相應(yīng)花費(fèi)資料來源:Github,上海證券研究所圖28
DeepSpeed-HE支持單GPU大型模型資料來源:Github,上海證券研究所202.5
訓(xùn)練步驟DeepSpeed
的訓(xùn)練生成流程分為三個(gè)步驟:監(jiān)督微調(diào)(SFT)。預(yù)訓(xùn)練語言模型通過監(jiān)督微調(diào)(SFT)進(jìn)行微調(diào),使用精選的人類回答來調(diào)整訓(xùn)練的語言模型。獎(jiǎng)勵(lì)微調(diào)模型。使用人類對(duì)同一查詢的多個(gè)答案打分的數(shù)據(jù)集,去訓(xùn)練一個(gè)不同的(通常小于SFT)獎(jiǎng)勵(lì)模型(RW)。RLHF訓(xùn)練。使用近端策略優(yōu)化(Proximal
Policy
Optimization,PPO)算法,利用獎(jiǎng)勵(lì)模型的獎(jiǎng)勵(lì)反饋,進(jìn)一步調(diào)整SFT模型。圖29
完整的RLHF訓(xùn)練概述圖資料來源:Github,上海證券研究所212.6
訓(xùn)練性能評(píng)估(1/2)與現(xiàn)有RLHF系統(tǒng)(如Colossal-AI或HuggingFace)相比,DeepSpeed-RLHF在系統(tǒng)性能和模型可擴(kuò)展性表現(xiàn)出色,DeepSpeed-HE的吞吐量提高了一個(gè)數(shù)量級(jí)以上,能夠在相同的延遲預(yù)算下訓(xùn)練更大的模型。圖30DeepSpeedChat與Colossal-AI和HuggingFace的RLHF吞吐量比較資料來源:Github,上海證券研究所1)吞吐量方面:?jiǎn)蜧PU上,DeepSpeed使RLHF訓(xùn)練的吞吐量提升超10倍圖31
訓(xùn)練第三步:最耗時(shí)的端到端訓(xùn)練吞吐量比較資料來源:Github,上海證券研究所多GPU上比Colossal-AI
提速6
–
19倍,比HuggingFaceDDP提速1.4–
10.5
倍222.6
訓(xùn)練性能評(píng)估(2/2)2)擴(kuò)展性方面:Colossal-AI在單GPU和單A100
40G(服務(wù)器)節(jié)點(diǎn)上最大可分別運(yùn)行1.3B和6.7B的模型;DeepSpeed-HE在同樣的硬件上可分別運(yùn)行6.5B和50B模型,最大可達(dá)Colossal-AI的7.5倍。DeepSpeed-Chat的高效率主要是DeepSpeed-HE在RLFH生產(chǎn)階段的優(yōu)化加速。利用DeepSpeed的高性能推理內(nèi)核,DeepSpeed-HE在生產(chǎn)階段實(shí)現(xiàn)比HuggingFace高9倍的吞吐量,比Colossal-AI高15倍的吞吐量。圖32
1.3B參數(shù)模型在RLHF訓(xùn)練的時(shí)間分解資料來源:Github,上海證券研究所232.7
Deep
Speed
Chat開源意義24開源Deep
Speed
Chat,降低垂類場(chǎng)景大模型訓(xùn)練門檻。ChatGPT只用了幾個(gè)月便席卷全球,成為史上用戶增長速度最快的消費(fèi)級(jí)應(yīng)用,推動(dòng)世界的經(jīng)濟(jì)發(fā)展和科技研發(fā)。但龐大的資金資源投入限制了很多企業(yè)和個(gè)人用戶的使用,微軟為解決這一限制,開源DeepSpeed
Chat模型。解決訓(xùn)練類ChatGPT模型的局限性,做更快速、更經(jīng)濟(jì)、更易于推廣的大模型。ChatGPT模型訓(xùn)練基于InstructGPT論文中的RLHF方式,解決了現(xiàn)有深度學(xué)習(xí)系統(tǒng)在訓(xùn)練類ChatGPT模型時(shí)存在的種種局限。Deep
Speed
Chat只需一個(gè)腳本即可實(shí)現(xiàn)預(yù)訓(xùn)練模型、監(jiān)督微調(diào)、獎(jiǎng)勵(lì)模型微調(diào)和RLHF的多個(gè)步驟訓(xùn)練,簡(jiǎn)化了ChatGPT類模型的訓(xùn)練和強(qiáng)化推理,并將DeepSpeed的訓(xùn)練能力和推理能力整合到一個(gè)混合引
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 生物質(zhì)能源購銷協(xié)議
- 網(wǎng)絡(luò)安全技術(shù)建設(shè)
- 我對(duì)煤礦安全負(fù)責(zé)
- 快速響應(yīng)筆譯服務(wù)
- 挖掘機(jī)訂購合同文本
- 地域特色產(chǎn)品購銷合同
- 新車購銷合同簡(jiǎn)單版
- 熱力管道施工招標(biāo)時(shí)間表
- 混凝土路面勞務(wù)分包合同模板
- 消防工程勞務(wù)分包招標(biāo)
- 《地質(zhì)災(zāi)害監(jiān)測(cè)技術(shù)規(guī)范》
- 2024-2030年中國云母制品制造市場(chǎng)發(fā)展?fàn)顩r及投資前景規(guī)劃研究報(bào)告
- 2025年上半年內(nèi)蒙古鄂爾多斯伊金霍洛監(jiān)獄招聘17名(第三批)易考易錯(cuò)模擬試題(共500題)試卷后附參考答案
- QC080000培訓(xùn)講義課件
- 24秋國家開放大學(xué)《農(nóng)產(chǎn)品質(zhì)量管理》形考任務(wù)1-2+形考實(shí)習(xí)1-3參考答案
- 科技興國未來有我主題班會(huì)教學(xué)設(shè)計(jì)
- 房子管護(hù)合同范例
- 光伏施工安全措施
- 2024-2025華為ICT大賽(網(wǎng)絡(luò)賽道)高頻備考試題庫500題(含詳解)
- 汽車智能制造技術(shù)課件
- 江蘇省揚(yáng)州市邗江中學(xué)2025屆物理高一第一學(xué)期期末學(xué)業(yè)質(zhì)量監(jiān)測(cè)試題含解析
評(píng)論
0/150
提交評(píng)論