GPT4引領(lǐng)認(rèn)知革命Deep Speed加速行業(yè)發(fā)展

上傳人：b*** IP屬地：北京上傳時(shí)間：2023-05-13 格式：PPTX 頁數(shù)：22 大?。?.39MB 積分：18 舉報(bào) 版權(quán)申訴

GPT4引領(lǐng)認(rèn)知革命Deep Speed加速行業(yè)發(fā)展_第2頁

GPT4引領(lǐng)認(rèn)知革命Deep Speed加速行業(yè)發(fā)展_第3頁

GPT4引領(lǐng)認(rèn)知革命Deep Speed加速行業(yè)發(fā)展_第4頁

GPT4引領(lǐng)認(rèn)知革命Deep Speed加速行業(yè)發(fā)展_第5頁

已閱讀5頁，還剩17頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

SECTION目錄C

t一、GPT-4：多模態(tài)、高認(rèn)知、更安全二、Deep

Speed：更快速、更經(jīng)濟(jì)、更普及三、投資建議四、風(fēng)險(xiǎn)提示1.1 GPT-4：多模態(tài)、高認(rèn)知、更安全深耕AIGC領(lǐng)域，AI滲透全方面、各領(lǐng)域。OPENAI致力于用AI改變工作和創(chuàng)意，除ChatGPT的語言模型外，還通過API平臺(tái)向開發(fā)者提供最新模型和指南，不斷提高應(yīng)用性能和用戶活躍度。GPT-4是大型多模態(tài)模型。相較于只能接受文字/代碼輸入的GPT-3.5，GPT-4接受圖片+文字的多模態(tài)輸入+高認(rèn)知的結(jié)合，并反饋文字輸出。GPT-4是OpenAI新一代自然語言處理模型，繼承了GPT-3.5的優(yōu)點(diǎn)的同時(shí)改進(jìn)了模型結(jié)構(gòu)、訓(xùn)練數(shù)據(jù)量和算法優(yōu)化，應(yīng)用范圍跨越數(shù)學(xué)、編碼、視覺、醫(yī)學(xué)、法律、心理學(xué)等領(lǐng)域，GPT-4模型多領(lǐng)域的廣泛運(yùn)用和超高任務(wù)表現(xiàn)力接近甚至超越人類水平，因此GPT-4是AGI的開創(chuàng)性研究，也是邁向AGI的重要一步。

圖1

ChatGPT3.5與4的主要區(qū)別資料來源：

信息元公眾號(hào),

上海證券研究所ChatGPT4和3.5的主要區(qū)別ChatGPT-3.5ChatGPT-4.01打字速度慢、高峰期更慢普遍說4.0更慢，但實(shí)際用起來差別不大2掉線頻率基本上每隔幾分鐘不用就會(huì)出現(xiàn)紅框、掉線掉線后需要刷新網(wǎng)頁基本不掉線3分段生成能力文本過長的時(shí)候，生成幾百字就自動(dòng)停止了這時(shí)候回復(fù)：“繼續(xù)”，3.5就可以繼續(xù)生成，但3.5的生成往往不夠連貫4.0基本是完美的連貫生成4使用頻率限制1小時(shí)100次提問，基本夠用，但是人多的時(shí)候，你即使用不到100次也會(huì)提示“當(dāng)前提問人數(shù)太多，請(qǐng)一小時(shí)后再試”每3小時(shí)25次提問，不會(huì)受當(dāng)前使用人數(shù)影響5回答質(zhì)量和其他AI相比，chatgpt是公認(rèn)的最強(qiáng)AI，基本能滿足我們的日常工作需要。但是和4.0相比，差距還是有的，目測(cè)能力值相當(dāng)于4.0的70%吧全球最頂尖的AI,沒有之一。能解決的問題種類比3.5多一些，同一個(gè)問題，4.0的回復(fù)會(huì)更好一些。尤其是考試做題能力、邏輯推理能力、角色扮演能力更強(qiáng)66文字限制最多回復(fù)3000字，如果你要求回復(fù)4000字，它會(huì)說“超過限制”，這時(shí)候就得分段提問最多回復(fù)25000字7有害信息如果提問醫(yī)療建議、自我傷害、違反道德的問題，3.5有時(shí)會(huì)如實(shí)作答4.0拒絕回答有害信息的概率更高，不被允許的回答4.0則會(huì)直接拒絕8二次開發(fā)能力對(duì)于想利用ChatGPT來進(jìn)行二次開發(fā)的程序員、運(yùn)營者來說，3.5有很多不支持，以及調(diào)用接口次數(shù)限制支持更多次數(shù)的api調(diào)用，支持更多的調(diào)用場(chǎng)景9圖片能力無支持圖像輸入、分析圖像（例如拍照幫你做題）。支持圖片輸出，但是不是自己生成的是網(wǎng)絡(luò)上有的圖10聯(lián)網(wǎng)能力無，訓(xùn)練數(shù)據(jù)庫到2021年無，訓(xùn)練數(shù)據(jù)庫到2021年9月11防止被誘導(dǎo)一般更難被誘導(dǎo)，拒絕被訓(xùn)練成為壞壞的AI12連續(xù)對(duì)話能力能記住大約相當(dāng)于8000個(gè)詞之前的指令，但是再多，它就會(huì)忘記之前的話了能記住相當(dāng)于大約64000個(gè)單詞13理解不同語言水平支持24種語言26種語言，且語言水平普遍比3.5的更高，對(duì)中文的理解更是達(dá)到了和3.5對(duì)英語的理解一樣的水平根據(jù)OpenAI技術(shù)文檔給出的案例，GPT-4，對(duì)于圖片的理解能力極強(qiáng)。同時(shí)識(shí)別多張圖片內(nèi)容。如圖2，將3張圖片拼湊成1張，GPT-4能夠同時(shí)識(shí)別多張圖片的內(nèi)容。根據(jù)圖片進(jìn)行算數(shù)運(yùn)算。如圖3，將題目發(fā)給GPT-4，它能根據(jù)圖片信息進(jìn)行算數(shù)運(yùn)算。1.2

多模態(tài)：接受圖片+文字形式輸入圖2

GPT-4可以同時(shí)識(shí)別多張圖片內(nèi)容資料來源：《GPT-4

Technical

Report》，上海證券研究所圖3

GPT-4可以根據(jù)圖片信息進(jìn)行推理運(yùn)算資料來源：

《GPT-4

Technical

Report》，上海證券研究所用戶提問：

這張圖片有什么有趣的地方？分圖片描述。成功識(shí)別出上圖包含3張圖片，并分別描述了圖片內(nèi)容。用戶提問：格魯吉亞和西亞平均每日肉類消費(fèi)量的總和是多少？在回答之前，請(qǐng)?zhí)峁┲鸩酵评?。GPT

-4從圖示3處地名識(shí)別出用戶要求的2處，然后進(jìn)行算數(shù)推演，

并得到正確答案。73）閱讀并總結(jié)論文。如圖4、圖5，將論文中部分頁面截圖給GPT-4，即可閱讀并總結(jié)主要內(nèi)容并回答用戶追加的相關(guān)問題。4）解答高難度物理題目。如圖6，將école

Polytechnique（巴黎綜合理工大學(xué)）物理考試題目傳給GPT-4，并指定其解答某一問題，即可順利識(shí)別任務(wù)并正確解答。1.2

多模態(tài)：接受圖片+文字形式輸入圖4

GPT-4可以閱讀和總結(jié)論文資料來源：

《GPT-4

Technical

Report》，上海證券研究所資料來源：

《GPT-4

Technical

Report》，上海證券研究所圖5

GPT-4可以根據(jù)論文內(nèi)容回答相關(guān)問題圖6

GPT-4可以根據(jù)圖片信息進(jìn)行推理運(yùn)算資料來源：

《GPT-4

Technical

Report》，上海證券研究所用戶提問：請(qǐng)按步驟解答第1小問正確回答了é

ePolytechnique（巴黎綜合理工大學(xué)）物理考試中的題目，該考試主要面向數(shù)學(xué)和物理學(xué)科的頂尖本科和研究生。用戶提問：請(qǐng)總結(jié)以下InstructGPT論文部分的內(nèi)容8GPT-4解釋了論文中某一圖表的推導(dǎo)步驟1.2

多模態(tài)：接受圖片+文字形式輸入資料來源：差評(píng)公眾號(hào)，上海證券研究所資料來源：

《GPT-4

Technical

Report》，上海證券研究所資料來源：

《GPT-4

Technical

Report》，上海證券研究所代碼成功運(yùn)行后的網(wǎng)頁截圖手寫網(wǎng)頁草稿GPT-

反饋相關(guān)代碼5）識(shí)別手寫網(wǎng)頁草圖，并根據(jù)草圖寫出網(wǎng)頁前端代碼。如圖7，將手寫

“My

Joke

Website”網(wǎng)頁樣式傳給GPT-4，GPT-4將反饋相應(yīng)的前端代碼，該代碼不但可以順利運(yùn)行，也完全符合手繪草稿要求的內(nèi)容和樣式，具有極強(qiáng)的OCR(文字識(shí)別）能力。6）理解人類社會(huì)常識(shí)，可讀懂“網(wǎng)絡(luò)梗圖”，具有更明顯的“人性化”特征。如圖8，用戶提問“該圖片中有什么特別之處？”GPT-4回答“男人在移動(dòng)的出租車車頂燙衣服”是不符合人類社會(huì)常識(shí)之處，展示出驚人的理解力。如圖9，用戶請(qǐng)GPT-4回答圖中的“梗”，GPT-4能夠?qū)ⅰ半u塊”和“世界地圖”相聯(lián)系，展示出強(qiáng)大的聯(lián)想能力。圖7

GPT-4可以根據(jù)手繪圖片返回網(wǎng)站代碼圖8

GPT-4可以識(shí)別圖片中不符合常理之處圖9

GPT-4具有強(qiáng)聯(lián)想能力用戶：圖片中有什么特別之處？這張圖片的不尋常之處在于，男人在移動(dòng)的出租車的車頂上燙衣服，燙衣板也固定在車頂上。用戶提問：請(qǐng)解釋下圖中的“?！?GPT-4解釋了圖中的“

?！?/p>

在于把雞塊擺放成世界地圖的樣子GPT-4具有更強(qiáng)的長文字處理能力。GPT-4的上下文上限約為2.5萬字，是Chat

GPT的近8倍，允許使用長格式內(nèi)容創(chuàng)建、擴(kuò)展對(duì)話及文檔搜索和分析等，能夠閱讀并記憶更多信息。GPT-4有更高的推理判斷能力。如圖11、圖12，向Chat

GPT和GPT-4提出相同問題“給定3個(gè)人物各自的空閑時(shí)間，求3人的共同空閑時(shí)段以安排會(huì)議?！盋hatGPT給出了錯(cuò)誤答案，而GPT-4成功完成這一要求。1.3

高認(rèn)知：長文字處理+推理判斷能力圖10

GPT-4可處理的上下文上限為2.5萬字圖11

Chat

GPT回答錯(cuò)誤圖12

GPT-4給出了正確答案Chat

GPT回答錯(cuò)誤，Andrew下午四點(diǎn)沒有空閑時(shí)間。資料來源：OpenAI官網(wǎng)，上海證券研究所資料來源：OpenAI官網(wǎng)，上海證券研究所資料來源：

OpenAI官網(wǎng)，上海證券研究所10GPT-4給出了合理解答。1.3

高認(rèn)知：長文字處理+推理判斷能力GPT-4具有更高的認(rèn)知水平。根據(jù)OpenAI給出的專業(yè)測(cè)試結(jié)果，GPT-4在高等數(shù)學(xué)、法律、生物、化學(xué)、英語、高級(jí)微觀經(jīng)濟(jì)等學(xué)科的考試成績遠(yuǎn)超GPT-3.5。GPT-4在多領(lǐng)域的專業(yè)認(rèn)知超過平均水準(zhǔn)。在律師資格考試中，GPT-4的分?jǐn)?shù)排名可以達(dá)到所有考生的前10

，而GPT-3.5只能排倒數(shù)10

，是GPT-4優(yōu)化幅度最大的科目。此外，在GRE、SAT、歷史、化學(xué)、生物、微觀經(jīng)濟(jì)、宏觀經(jīng)濟(jì)等科目中均超過至少80以上的考生。編程能力（Codeforces

Rating）反而是GPT-4最弱的科目，排名在倒數(shù)5

。圖13

GPT-4在專業(yè)測(cè)試中的表現(xiàn) 圖14

GPT-4在專業(yè)測(cè)試中的排名50

資料來源：

《GPT-4

Technical

Report》，上海證券研究所資料來源：

《GPT-4

Technical

Report》，上海證券研究所11GPT-4在評(píng)估語言模型的傳統(tǒng)基準(zhǔn)上優(yōu)于其他模型。在語言模型基準(zhǔn)測(cè)試中，分別將GPT-4、GPT-3.5與現(xiàn)有最佳性能語言模型（LM

SOTA）和現(xiàn)有最佳模型（SOTA）的性能通過小樣本（few-shot）測(cè)試進(jìn)行比對(duì)，除DROP（閱讀理解基準(zhǔn)測(cè)試）外，GPT-4在多語言學(xué)習(xí)、常識(shí)推理、語音識(shí)別、人類評(píng)估測(cè)試均超越現(xiàn)有最佳模型。GPT-4擁有卓越的外語能力，包括英語和其他小語種。如圖16，GPT-4在包括英語在內(nèi)的27種語言測(cè)試中準(zhǔn)確率均達(dá)到62

以上。通過與GPT-3.5、PaLM、Chinchilla模型英語水平進(jìn)行對(duì)比，GPT-4以85.5的準(zhǔn)確性遠(yuǎn)超其他模型。1.3

高認(rèn)知：長文字處理+推理判斷能力圖15

GPT-4顯著優(yōu)于現(xiàn)有模型圖16

GPT-4多語言能力更強(qiáng)除DROP（閱讀理解基準(zhǔn)測(cè)試）外，

GPT-

全方位超越現(xiàn)有最佳模型?；谧匀徽Z言的常識(shí)推理測(cè)試資料來源：

《GPT-4

Technical

Report》，上海證券研究所資料來源：

《GPT-4

Technical

Report》，上海證券研究所12多語言學(xué)習(xí)語音識(shí)別人類評(píng)估1.3

高認(rèn)知：長文字處理+推理判斷能力GPT-4的高認(rèn)知特征具體體現(xiàn)在以下方面：高常識(shí)推理能力。分別問Chat

GPT和GPT-4“1+1什么情況等于3”時(shí)，Chat

GPT只會(huì)從數(shù)學(xué)計(jì)算的角度思考，但GPT-4可以從常識(shí)推理的角度思考。高可塑性。與Chat

GPT不同，GPT-4能夠以不同的語言風(fēng)格與用戶交流。當(dāng)被設(shè)定為某個(gè)角色時(shí)，GPT-4將不會(huì)聽從違背角色特征的指令。高解決問題能力。GPT-4能夠處理復(fù)雜問題，比如運(yùn)用學(xué)習(xí)到的稅務(wù)知識(shí)幫助用戶解決稅務(wù)問題。結(jié)合稅法的高時(shí)效性與GPT-4的長文字處理能力，用戶可以將最新的稅法傳給GPT-4后要求其為自己解決稅務(wù)籌劃問題。圖17

分別問Chat

GPT和GPT-4“1+1什么情況等于3” 圖18

GPT-4具有較強(qiáng)的可塑性圖19

GPT-4能夠處理復(fù)雜問題設(shè)置角色：假設(shè)GPT-4是蘇格拉底風(fēng)格的導(dǎo)師資料來源：APPSO公眾號(hào)，上海證券研究所資料來源：差評(píng)公眾號(hào)，上海證券研究所資料來源：知識(shí)分子公眾號(hào)，上海證券研究所13設(shè)置角色：假設(shè)GPT-4是TaxGPT，運(yùn)用內(nèi)置的Tax知識(shí)幫助客戶解決稅務(wù)規(guī)劃問題GPT-4的可靠性大幅提升。相較于GPT-3.5（會(huì)隨著持續(xù)迭代而改善），GPT-4顯著減少了“虛構(gòu)”現(xiàn)象。在內(nèi)部設(shè)計(jì)的對(duì)抗性準(zhǔn)確度評(píng)估中，GPT-4各科目平均得分比GPT-3.5高出19%。其中，提升幅度在歷史和數(shù)學(xué)科目上的表現(xiàn)尤為突出。GPT-4的分辨能力有顯著提升，但仍存在改進(jìn)空間。相較于GPT-3.5，GPT-4在公開基準(zhǔn)測(cè)試TruthfulQA（測(cè)試模型真實(shí)性性能好壞的一個(gè)測(cè)試集）中取得了進(jìn)步，體現(xiàn)為較高的分辨事實(shí)能力。如圖21，在零樣本（0-shot）提示、小樣本（few-shot）提示和人類反饋強(qiáng)化學(xué)習(xí)（RLHF）微調(diào)后的表現(xiàn)中，GPT-4均明顯優(yōu)于GPT-3.5和Anthropic-LM，但GPT-4對(duì)TruthfulQA中的某些問題依然給出了錯(cuò)誤的回答。1.4

更安全：分辨能力提高圖20

GPT-4在9個(gè)內(nèi)部設(shè)計(jì)的對(duì)抗性準(zhǔn)確度評(píng)估中的表現(xiàn)資料來源：《GPT-4

Technical

Report》，上海證券研究所圖21

GPT-4在TruthfulQA中的表現(xiàn)資料來源：《GPT-4

Technical

Report》，上海證券研究所141.4

更安全：分辨能力提高GPT-4優(yōu)化了安全性指標(biāo)，能夠有效減少有害風(fēng)險(xiǎn)信息的提供。從響應(yīng)率來看，GPT-4對(duì)違規(guī)內(nèi)容（如制作炸彈的方法）請(qǐng)求的響應(yīng)率相較于GPT-3.5降低了82%，對(duì)敏感內(nèi)容請(qǐng)求（如醫(yī)療建議和自我傷害建議等）的響應(yīng)率降低了29%，RLHF后的GPT-4的響應(yīng)率則更低。從反饋“有害信息”的可能性來看，GPT-4在Real

Toxicity

Prompts

數(shù)據(jù)集的測(cè)試中僅有0.73%的概率生成“有害信息”，而GPT-3.5的概率為6.48%。圖22

敏感提示和禁用提示的錯(cuò)誤行為比率資料來源：《GPT-4

Technical

Report》，上海證券研究所15結(jié)合對(duì)現(xiàn)有其他語言模型的研究，GPT-4仍存在信息迭代受限、準(zhǔn)確性不足、反饋違規(guī)內(nèi)容等不足之處。信息迭代受限。GPT-4信息更迭能力受限，且模型本身不具主動(dòng)學(xué)習(xí)能力。根據(jù)GPT-4技術(shù)報(bào)告，由于模型于2021年9月預(yù)訓(xùn)練完畢，GPT-4缺乏對(duì)此后事件的了解，且無法從經(jīng)驗(yàn)中學(xué)習(xí)新內(nèi)容。ChatGPT通過植入插件系統(tǒng)形成了對(duì)世界新事物的“觸覺”。根據(jù)OpenAI官網(wǎng)介紹，Web瀏覽器插件將利用New

Bing的API，通過在互聯(lián)網(wǎng)上搜索相關(guān)信息，給出用戶具體答案。準(zhǔn)確性不足。GPT-4的回答準(zhǔn)確性相較于GPT-3.5有較大提升，但仍存在虛構(gòu)傾向。在TruthfulQA測(cè)試中，GPT-4在某些問題上依然給出了錯(cuò)誤的回答。隨著GPT-4使用范圍的擴(kuò)大，虛構(gòu)傾向不僅會(huì)誤導(dǎo)用戶，更會(huì)降低模型本身的整體可信度。存在道德風(fēng)險(xiǎn)。GPT-4可能根據(jù)用戶發(fā)出的指令產(chǎn)生各種有害內(nèi)容，包括違反OpenAI政策以及對(duì)不利于社會(huì)發(fā)展的內(nèi)容。如歧視性內(nèi)容、誤導(dǎo)性內(nèi)容、策劃襲擊或暴力活動(dòng)內(nèi)容等。其他風(fēng)險(xiǎn)。結(jié)合對(duì)現(xiàn)有其他語言模型的研究，GPT-4還可能存在如侵犯隱私權(quán)、危害網(wǎng)絡(luò)安全、出現(xiàn)不受控的新能力、系統(tǒng)交互等潛在風(fēng)險(xiǎn)。1.5 GPT-4仍存在不足之處16DeepSpeed是PyTorch的開源的兼容庫，在深度學(xué)習(xí)訓(xùn)練和推理方面具有極高的速度和規(guī)模。DeepSpeed通過提高規(guī)模、速度、成本和可用性來改進(jìn)大型模型訓(xùn)練，可訓(xùn)練超100億個(gè)參數(shù)的模型，實(shí)現(xiàn)了自然語言處理（NLP）和多模態(tài)（結(jié)合語言圖像、視頻和語音）等領(lǐng)域的突破。Deep

Speed

Chat基于微軟Deep

Speed深度學(xué)習(xí)優(yōu)化庫開發(fā)而成。Deep

Speed

Chat可在模型訓(xùn)練中加入完整RLHF流程，用于RLHF訓(xùn)練的低成本開源解決方案，使得復(fù)雜的RLHF訓(xùn)練變得快速、經(jīng)濟(jì)、輕松訪問，實(shí)現(xiàn)類似ChatGPT模型的端到端RLHF訓(xùn)練，從而幫助我們生成自己的高質(zhì)量ChatGPT模型。相較于ChatGPT，Deep

Speed

Chat普及RLHF（基于人工反饋機(jī)制的強(qiáng)化學(xué)習(xí)）訓(xùn)練到AI社區(qū)，削弱了ChatGPT的局限性。2.1

DeepSpeed

更高速度

更大規(guī)模圖23

DeepSpeed三大創(chuàng)新支柱——訓(xùn)練、推理、壓縮資料來源：Deep

Speed，上海證券研究所圖24

DeepSpeed

Chat——便捷快速的類chatgpt模型資料來源：Github，上海證券研究所172021.102022.52022.92022.11182022.12DeepSpeed訓(xùn)練了世界上最強(qiáng)大的語言模型：

威震天-圖靈NLG

530BDeepSpeed支持在AMDGPU上進(jìn)行高效的大型模型訓(xùn)練2022.7DeepSpeed幫助訓(xùn)練了176億個(gè)參數(shù)的BLOOM模型DeepSpeed

Compression用于極端壓縮的可組合庫AzureDeepSpeed支持易于使用的高性能模型訓(xùn)練ZeRO推理：大眾化大規(guī)模模型推理2022.10實(shí)現(xiàn)推理（

MII）深速模型Deep

Speed數(shù)據(jù)效率庫：實(shí)現(xiàn)更少的數(shù)據(jù)、更快的訓(xùn)練和更高的模型質(zhì)量通過DeepSpeed-MII實(shí)現(xiàn)亞秒級(jí)穩(wěn)定的擴(kuò)散圖像生成2.2

不斷強(qiáng)化模型質(zhì)量2.3

Deep

Speed

三大核心功能在微軟開源DeepSpeed

Chat之后，普通用戶可通過簡(jiǎn)單的操作，即可訓(xùn)練類ChatGPT等大語言模型，降低了ChatGPT類模型使用的門檻和成本，主要通過以下三個(gè)核心功能來達(dá)到：簡(jiǎn)化ChatGPT類型模型的訓(xùn)練并強(qiáng)化推理體驗(yàn)：DeepSpeed-Chat僅需一個(gè)腳本即可實(shí)現(xiàn)多個(gè)訓(xùn)練步驟，如使用Huggingface預(yù)訓(xùn)練模型、使用DeepSpeed-RLHF系統(tǒng)運(yùn)行InstructGPT訓(xùn)練的所有三個(gè)步驟、生成自己的ChatGPT模型。此外，在模型訓(xùn)練后可以利用推理API進(jìn)行對(duì)話交互測(cè)試。DeepSpeed-RLHF模塊：DeepSpeed-RLHF模塊復(fù)刻InstructGPT論文中的訓(xùn)練模式，并確保監(jiān)督微調(diào)

(SFT)、獎(jiǎng)勵(lì)模型微調(diào)和人類反饋強(qiáng)化學(xué)習(xí)

(RLHF)的三個(gè)步驟與其一一對(duì)應(yīng)，提供數(shù)據(jù)抽象和混合功能來支持開發(fā)者使用多個(gè)不同數(shù)據(jù)源進(jìn)行訓(xùn)練。DeepSpeed-RLHF系統(tǒng)：DeepSpeed-RLHF系統(tǒng)將DeepSpeed的訓(xùn)練和推理能力整合成統(tǒng)一混合引擎

(DeepSpeed-HE)

中，用于RLHF訓(xùn)練。DeepSpeed

Hybrid

Engine是為RLHF訓(xùn)練提供更高性能和效率的混合引擎，它結(jié)合了DeepSpeed的訓(xùn)練引擎和推理引擎，在訓(xùn)練和推理模式之間自由切換，為RLHF的訓(xùn)練和推理提供了更快的速度，也優(yōu)化了內(nèi)存和緩存數(shù)據(jù)。圖25

用于加速RLHF流程中最耗時(shí)部分的DeepSpeed混合引擎設(shè)計(jì)資料來源：Github，上海證券研究所192.4

DeepSpeed

Hybrid

Engine優(yōu)勢(shì)高效性和經(jīng)濟(jì)性：DeepSpeed-HE提供高效的RLHF訓(xùn)練模式，訓(xùn)練速度較現(xiàn)有系統(tǒng)快15倍以上，使RLHF訓(xùn)練快速且經(jīng)濟(jì)實(shí)惠。卓越的擴(kuò)展性：DeepSpeed-HE能支持訓(xùn)練擁有數(shù)千億參數(shù)的模型，并在多節(jié)點(diǎn)多GPU系統(tǒng)上展現(xiàn)出其卓越的擴(kuò)展性。因此，即使是擁有130億參數(shù)的模型，也僅需1.25小時(shí)即可完成訓(xùn)練。對(duì)擁有1750億參數(shù)的龐大模型，使用DeepSpeed-HE進(jìn)行訓(xùn)練也只需不到一天的時(shí)間。普及RLHF訓(xùn)練：DeepSpeed-HE憑借單個(gè)GPU即可支持訓(xùn)練超1300億參數(shù)的模型，使無法多GPU系統(tǒng)的數(shù)據(jù)科學(xué)家既可以輕松創(chuàng)建輕量級(jí)的RLHF模型，又可以創(chuàng)建功能強(qiáng)大、能用于不同場(chǎng)景的的大型模型。圖26

單節(jié)點(diǎn)在Azure云上使用DeepSpeed-HE訓(xùn)練不同模型的時(shí)長和相應(yīng)花費(fèi)資料來源：Github，上海證券研究所圖27

多節(jié)點(diǎn)在Azure云上使用DeepSpeed-HE訓(xùn)練不同模型的時(shí)長和相應(yīng)花費(fèi)資料來源：Github，上海證券研究所圖28

DeepSpeed-HE支持單GPU大型模型資料來源：Github，上海證券研究所202.5

訓(xùn)練步驟DeepSpeed

的訓(xùn)練生成流程分為三個(gè)步驟：監(jiān)督微調(diào)（SFT）。預(yù)訓(xùn)練語言模型通過監(jiān)督微調(diào)（SFT）進(jìn)行微調(diào)，使用精選的人類回答來調(diào)整訓(xùn)練的語言模型。獎(jiǎng)勵(lì)微調(diào)模型。使用人類對(duì)同一查詢的多個(gè)答案打分的數(shù)據(jù)集，去訓(xùn)練一個(gè)不同的（通常小于SFT）獎(jiǎng)勵(lì)模型（RW）。RLHF訓(xùn)練。使用近端策略優(yōu)化（Proximal

Policy

Optimization,PPO）算法，利用獎(jiǎng)勵(lì)模型的獎(jiǎng)勵(lì)反饋，進(jìn)一步調(diào)整SFT模型。圖29

完整的RLHF訓(xùn)練概述圖資料來源：Github，上海證券研究所212.6

訓(xùn)練性能評(píng)估（1/2）與現(xiàn)有RLHF系統(tǒng)（如Colossal-AI或HuggingFace）相比，DeepSpeed-RLHF在系統(tǒng)性能和模型可擴(kuò)展性表現(xiàn)出色，DeepSpeed-HE的吞吐量提高了一個(gè)數(shù)量級(jí)以上，能夠在相同的延遲預(yù)算下訓(xùn)練更大的模型。圖30DeepSpeedChat與Colossal-AI和HuggingFace的RLHF吞吐量比較資料來源：Github，上海證券研究所1）吞吐量方面：?jiǎn)蜧PU上，DeepSpeed使RLHF訓(xùn)練的吞吐量提升超10倍圖31

訓(xùn)練第三步：最耗時(shí)的端到端訓(xùn)練吞吐量比較資料來源：Github，上海證券研究所多GPU上比Colossal-AI

提速6

–

19倍，比HuggingFaceDDP提速1.4–

10.5

倍222.6

訓(xùn)練性能評(píng)估（2/2）2）擴(kuò)展性方面：Colossal-AI在單GPU和單A100

40G（服務(wù)器）節(jié)點(diǎn)上最大可分別運(yùn)行1.3B和6.7B的模型；DeepSpeed-HE在同樣的硬件上可分別運(yùn)行6.5B和50B模型，最大可達(dá)Colossal-AI的7.5倍。DeepSpeed-Chat的高效率主要是DeepSpeed-HE在RLFH生產(chǎn)階段的優(yōu)化加速。利用DeepSpeed的高性能推理內(nèi)核，DeepSpeed-HE在生產(chǎn)階段實(shí)現(xiàn)比HuggingFace高9倍的吞吐量，比Colossal-AI高15倍的吞吐量。圖32

1.3B參數(shù)模型在RLHF訓(xùn)練的時(shí)間分解資料來源：Github，上海證券研究所232.7

Deep

Speed

Chat開源意義24開源Deep

Speed

Chat，降低垂類場(chǎng)景大模型訓(xùn)練門檻。ChatGPT只用了幾個(gè)月便席卷全球，成為史上用戶增長速度最快的消費(fèi)級(jí)應(yīng)用，推動(dòng)世界的經(jīng)濟(jì)發(fā)展和科技研發(fā)。但龐大的資金資源投入限制了很多企業(yè)和個(gè)人用戶的使用，微軟為解決這一限制，開源DeepSpeed

Chat模型。解決訓(xùn)練類ChatGPT模型的局限性，做更快速、更經(jīng)濟(jì)、更易于推廣的大模型。ChatGPT模型訓(xùn)練基于InstructGPT論文中的RLHF方式，解決了現(xiàn)有深度學(xué)習(xí)系統(tǒng)在訓(xùn)練類ChatGPT模型時(shí)存在的種種局限。Deep

Speed

Chat只需一個(gè)腳本即可實(shí)現(xiàn)預(yù)訓(xùn)練模型、監(jiān)督微調(diào)、獎(jiǎng)勵(lì)模型微調(diào)和RLHF的多個(gè)步驟訓(xùn)練，簡(jiǎn)化了ChatGPT類模型的訓(xùn)練和強(qiáng)化推理，并將DeepSpeed的訓(xùn)練能力和推理能力整合到一個(gè)混合引

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

GPT4引領(lǐng)認(rèn)知革命Deep Speed加速行業(yè)發(fā)展

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

GPT4引領(lǐng)認(rèn)知革命Deep Speed加速行業(yè)發(fā)展

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔