ChatGPT專題報(bào)告:GPT大模型多模態(tài)應(yīng)用展望_第1頁
ChatGPT專題報(bào)告:GPT大模型多模態(tài)應(yīng)用展望_第2頁
ChatGPT專題報(bào)告:GPT大模型多模態(tài)應(yīng)用展望_第3頁
ChatGPT專題報(bào)告:GPT大模型多模態(tài)應(yīng)用展望_第4頁
ChatGPT專題報(bào)告:GPT大模型多模態(tài)應(yīng)用展望_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

多模態(tài)應(yīng)用展望1.ChatGPT通過大模型突破AI瓶頸,GPT-4多模態(tài)應(yīng)用帶動(dòng)商業(yè)化加概述:ChatGPT為NLP下的AI大模型,性能和使用體驗(yàn)超預(yù)期ChatGPT是自然語言處理(NLP)下的AI大模型,通過大算力、大規(guī)模訓(xùn)練數(shù)據(jù)突破AI瓶頸。2022年11月,OpenAI推出ChatGPT,ChatGPT基于GPT-3.5,使用人類反饋強(qiáng)化學(xué)習(xí)技術(shù),將人類偏好作為獎(jiǎng)勵(lì)信號(hào)并微調(diào)模型,實(shí)現(xiàn)有邏輯的對話能力。ChatGPT本質(zhì)上是通過超大的統(tǒng)計(jì)語言模型,對詞語序列的概率分布進(jìn)行建模,利用上下文信息預(yù)測后續(xù)詞語出現(xiàn)的概率分布,其表現(xiàn)的超預(yù)期反映了在算力水平提升的情況下大語言模型技術(shù)路線的成功,通過對大規(guī)模的未標(biāo)注的文本數(shù)據(jù)進(jìn)行訓(xùn)練,突破了AI發(fā)展的技術(shù)瓶頸。根據(jù)《瞭望》新聞周刊報(bào)道,OpenAI為了讓ChatGPT的語言合成結(jié)果更自然流暢,使用了45TB的數(shù)據(jù)、近1萬億個(gè)單詞來訓(xùn)練模型,訓(xùn)練一次的成本高達(dá)千萬美元,一個(gè)月的運(yùn)營成本需要數(shù)百萬美元。概述:OpenAI傾力打造ChatGPT,獲得微軟有力加持ChatGPT出自美國AI創(chuàng)業(yè)公司OpenAI,是AI大模型領(lǐng)域的領(lǐng)軍者。OpenAI在2015年由SamAltman、PeterThiel、ReidHoffman、ElonMusk等人創(chuàng)辦。公司成立之初,即確定了包括制造“通用”機(jī)器人和使用自然語言的聊天機(jī)器人的發(fā)展目標(biāo)。2019年,OpenAI獲得來自微軟的10億美元投資,為Azure云端平臺(tái)服務(wù)開發(fā)AI技術(shù)。2018年起,OpenAI開始發(fā)布GPT(GenerativePre-trainedTransformer)模型,人工智能競賽的里程碑事件,并直至ChatGPT的推出引起AI的熱潮。除了NLP領(lǐng)域,OpenAI還在多模態(tài)領(lǐng)域取得成就,包括發(fā)布了AI圖像生成器DALL-E2,對音頻轉(zhuǎn)錄編輯器Descript、AI筆記應(yīng)用Mem等進(jìn)行投資。演變:GPT-1—無監(jiān)督預(yù)訓(xùn)練+有監(jiān)督微調(diào)GPT-1發(fā)布于2018年6月,參數(shù)量達(dá)1.17億,預(yù)訓(xùn)練數(shù)據(jù)量約5GB。GPT-1包含預(yù)訓(xùn)練和微調(diào)兩個(gè)階段,考慮到自然語言處理任務(wù)中有標(biāo)簽的語料少,GPT-1先在大量的無標(biāo)簽數(shù)據(jù)上訓(xùn)練語言模型,然后在下游具體任務(wù)(如分類、常識(shí)推理、自然語言推理等)的有標(biāo)簽數(shù)據(jù)集上進(jìn)行微調(diào)。1)在無監(jiān)督訓(xùn)練中,GPT-1采用Transformer的架構(gòu),即標(biāo)準(zhǔn)的語言模型的目標(biāo)函數(shù),通過前面的詞預(yù)測后面的詞;2)在有監(jiān)督訓(xùn)練中,采用標(biāo)準(zhǔn)的分類目標(biāo)函數(shù),僅需對第一階段預(yù)訓(xùn)練的語言模型做出很小的結(jié)構(gòu)改變,即可應(yīng)用于各種下游任務(wù)。GPT-1使用了BooksCorpus數(shù)據(jù)集來訓(xùn)練語言模型,其中有7000余本未出版的書籍。具體表現(xiàn)上,在有監(jiān)督學(xué)習(xí)的12項(xiàng)任務(wù)中,GPT-1在其中9項(xiàng)上的表現(xiàn)優(yōu)于專門訓(xùn)練的受監(jiān)督模型。演變:GPT-2—無監(jiān)督預(yù)訓(xùn)練+多任務(wù)學(xué)習(xí)GPT-2發(fā)布于2019年2月,參數(shù)量達(dá)15億,預(yù)訓(xùn)練數(shù)據(jù)量約40GB。GPT-1使用的概率條件模型為p(output|input),GPT-2使用相同的無監(jiān)督模型學(xué)習(xí)多個(gè)任務(wù),將概率條件模型修改為p(output|input,task),期望模型對不同任務(wù)的相同輸入產(chǎn)生不同的輸出。此外,GPT-2采取Zero-shot設(shè)定,不需要下游任務(wù)的標(biāo)注信息,而是根據(jù)給定的指令理解任務(wù)。因此GPT-2的核心思想在于多任務(wù)學(xué)習(xí)。GPT-2訓(xùn)練的數(shù)據(jù)集來自社交新聞平臺(tái)Reddit,共有約800萬篇文章,學(xué)習(xí),GPT-2在其中7個(gè)上領(lǐng)先。GPT-2表明,隨著模型容量和數(shù)據(jù)量增大,GPT模型的潛力仍有望進(jìn)一步顯現(xiàn)。展望:GPT-4—此前外界預(yù)期參數(shù)量變化不大、使用門檻有望降低GPT-4備受業(yè)界期待,訓(xùn)練成本控制有望帶動(dòng)商業(yè)潛力的極大增強(qiáng)。ChatGPT的突出表現(xiàn)使得外界對GPT-4十分期待,自2021年以來便有報(bào)道稱GPT-4“即將推出”,OpenAI公司CEOSamAltman今年受StrictlyVC采訪時(shí)表示GPT-4將在“有信心可以安全且負(fù)責(zé)任地運(yùn)行時(shí)”推出。外界此前也曾預(yù)期,GPT-4的推出或分階也是先開放給合作伙伴、付費(fèi)用戶和學(xué)術(shù)機(jī)構(gòu),才在2022年底開放給公眾。在參數(shù)量上,針對有傳言稱GPT-4參數(shù)量將達(dá)到百萬億,OpenAI公司的重點(diǎn)在數(shù)據(jù)處理優(yōu)化上,因此其使用門檻有望降低,我們預(yù)計(jì)訓(xùn)練成本的控制將帶動(dòng)其商業(yè)潛力的增強(qiáng)。展望:GPT-4—最新消息稱推出在即、支持多模態(tài)最新消息稱GPT-4將于下周推出,支持多模態(tài)應(yīng)用,開啟通往人工通微軟德國公司首席技術(shù)官AndreasBraun在名為“AIinFocus-DigitalKickoff”的活動(dòng)中透露稱“將在下周推出GPT-4,它將是一個(gè)多模態(tài)模型,會(huì)提供完全不同的可能性——例如視頻”。這意味著GPT-4可以管理不同語言數(shù)據(jù)的輸入和輸出,也能夠做到輸出圖像甚至視頻。在活動(dòng)上,微軟AI技術(shù)專家對多模態(tài)AI的應(yīng)用案例進(jìn)行了介紹,例如能夠?qū)㈦娫捄艚械恼Z音直接記錄成文本,這為微軟位于荷蘭的一家大型客戶節(jié)省500個(gè)工作小時(shí)/天。GPT-4對多模態(tài)的支持使得外界對模型潛力的預(yù)期進(jìn)一步強(qiáng)化,原因在于多模態(tài)感知是建立人工通用智能(AGI)的重要一步,基于此能夠執(zhí)行人類水平的一般任務(wù)。商業(yè)模式:C端推出訂閱制會(huì)員,B端提供調(diào)用API接口ChatGPT迅速走紅,以訂閱制服務(wù)B端、C端客戶,成本控制下將有效加速商業(yè)化落地。ChatGPT自年初以來,持續(xù)出圈,截至2023年1月末月活突破1億,成為史上增長最快的消費(fèi)者應(yīng)用??紤]到計(jì)算資源所牽涉的龐大訓(xùn)練成本、運(yùn)行成本,ChatGPT的商業(yè)化路徑已正在探索、明確中。商業(yè)模式—1)C端:OpenAI發(fā)布ChatGPTPlus訂閱計(jì)劃,每月收費(fèi)20美元,相較于免費(fèi)版本,即便在高峰時(shí)段用戶也能正常訪問ChatGPT,響應(yīng)時(shí)間更快,可以優(yōu)先使用新功能,有望引領(lǐng)AI技術(shù)變集成到產(chǎn)品中,價(jià)格為$0.002/1ktoken,相較于GPT-3.5降低90%,我們預(yù)計(jì)成本控制后有望快速帶動(dòng)GPT相關(guān)應(yīng)用爆發(fā)。根據(jù)微信公眾號(hào)“智東西”,生鮮電商Instacart、跨境電商Shopify、照片分享應(yīng)用Snap、單詞背誦應(yīng)用Quizlet等已率先接入ChatGPTAPI。2.Transformer架構(gòu)支撐GPT走向多模態(tài),構(gòu)筑AIGC領(lǐng)域核心基石GPT采用的Transformer架構(gòu)在NLP領(lǐng)域已躋身主流GPT沿用主流Transformer模型,該模型采用自注意力機(jī)制,在NLP上表現(xiàn)優(yōu)于RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))。2017年,谷歌在《AttentionisAllYouNeed》中提出Transformer模型,可用于文本摘要、機(jī)器翻譯等NLP任務(wù)。在NLP方面,Transformer模型的自注意力(self-attention)機(jī)制可以為輸入序列中的任意位置提供上下文,進(jìn)而模型能夠一次性處理所有輸入數(shù)據(jù),而非RNN一次只處理一個(gè)單詞的情況,由此模型可以減少訓(xùn)練時(shí)間,能夠在更大的數(shù)據(jù)集上進(jìn)行訓(xùn)練。目前,基于Transformer的預(yù)訓(xùn)練語言模型已成為NLP領(lǐng)域的主流。Transformer也可用于CV領(lǐng)域,相較于CNN實(shí)現(xiàn)性能巨大提升Transformer也可用于CV(計(jì)算機(jī)視覺)領(lǐng)域,表現(xiàn)出巨大的性能提升。CV領(lǐng)域此前更多由CNN(卷積神經(jīng)網(wǎng)絡(luò))主導(dǎo),而Transformer憑借著自注意力機(jī)制,表現(xiàn)出了巨大的性能提升。根據(jù)微軟亞洲研究院,Transformer在圖像分類、物體檢測等任務(wù)中刷新了測評(píng)記錄,例如2020年Transformer被首次應(yīng)用于圖像分類任務(wù),結(jié)合海量的預(yù)訓(xùn)練數(shù)據(jù),ViT在ImageNet-1K的validation評(píng)測集上取得88.55%的準(zhǔn)確率。Transformer也在視頻動(dòng)作識(shí)別、視覺自監(jiān)督學(xué)習(xí)、圖像復(fù)原、圖像分割等視覺任務(wù)中取得優(yōu)異成績。谷歌提出的ViT-MoE模型目前在參數(shù)量上領(lǐng)先,達(dá)到了150億。Transformer支撐下GPT有望走向多模態(tài),構(gòu)筑AIGC領(lǐng)域核心基石GPT有望基于Transformer延伸至多模態(tài),構(gòu)筑AIGC核心基石,GPT-4或?qū)崿F(xiàn)領(lǐng)跑。當(dāng)前,基于Transformer的多模態(tài)學(xué)習(xí)成為AI領(lǐng)域的研究熱點(diǎn),研究者們提出了大量的Transformer變體。鑒于Transformer具有較少的特定于模態(tài)的架構(gòu)假設(shè),以及生成式預(yù)訓(xùn)練、大模型&大數(shù)據(jù)路線的成功,Transformer能夠聯(lián)動(dòng)CV與NLP,通過聯(lián)合建模完成,打破CV與NLP領(lǐng)域之間的壁壘。微軟亞洲研究院2022年推出BEiT-3預(yù)訓(xùn)練模型,在目標(biāo)檢測、實(shí)例分割、語義分割、視覺推理、圖片描述生成等任務(wù)上取得了SOTA的遷移性能。我們認(rèn)為,基于Transformer架構(gòu),GPT未來有望延伸至多模態(tài),助力內(nèi)容創(chuàng)作由UGC、PGC全面走向AIGC,賦能通用領(lǐng)域以及金融、教育、醫(yī)療、傳媒等垂直行業(yè)。3.通用與垂直場景多點(diǎn)開花,GPT變革內(nèi)容生成與交互方式通用場景:搜索引擎—GPT+文本&圖像&視頻重塑搜索結(jié)果呈現(xiàn)方式搜索引擎接入GPT后結(jié)果呈現(xiàn)方式大為變化,或影響行業(yè)盈利模式與競爭格局。用戶使用傳統(tǒng)的搜索引擎時(shí),需要手動(dòng)翻閱搜索結(jié)果,判斷是否為所需要的信息;而當(dāng)搜索引擎接入GPT后,用戶可直接獲得答案集合。盡管受制于訓(xùn)練語料、成本等因素,答案準(zhǔn)確性有待商榷,但在結(jié)果呈現(xiàn)方式上實(shí)現(xiàn)了變革,未來或與傳統(tǒng)的搜索引擎相結(jié)合。如進(jìn)一步實(shí)現(xiàn)多模態(tài),搜索結(jié)果將更加豐富。微軟在Bing中上線ChatGPT能力并開啟測試,以聊天方式展示搜索結(jié)果,并可在對話中推薦廣告。微軟必應(yīng)官方博客宣布,目前Bing日活突破1億,集成搜索+聊天功能的Bing預(yù)覽版自推出以來總聊天次數(shù)已超過4500萬次。鑒于微軟可能掀起搜索行業(yè)的第二次變革并顛覆此前的盈利模式,谷歌在2月初展示由大型語言模型LaMDA驅(qū)動(dòng)的類ChatGPT應(yīng)用——Bard,并計(jì)劃大范圍推廣。通用場景:辦公軟件—GPT+文本&圖像打造效率型生產(chǎn)力工具GPT有望融入辦公流程,率先推動(dòng)辦公軟件轉(zhuǎn)型為智能辦公平臺(tái)。微軟將于3月16日召開名為“FutureofWorkwithAI”的發(fā)布會(huì),預(yù)計(jì)將展示ChatGPT類技術(shù)在Teams、Word、Outlook等生產(chǎn)力套件中的應(yīng)用。我們認(rèn)為,在GPT的賦能之下,辦公軟件作為效率型生產(chǎn)力工具的屬性將更加突出,功能上將更加智能化,用戶有望享受到智能辦公平臺(tái)所帶來的便利性與效率大幅提升。例如,在Word中,GPT將能夠幫助用戶生成文本,或?qū)⑽臋n集匯總為關(guān)鍵點(diǎn),使得用戶快速理解和分析信息;在Outlook中,GPT可以處理收件箱文本,幫助用戶更快捷地撰寫或回復(fù)電子郵件;在Excel中,能夠根據(jù)提示提取數(shù)據(jù),如要求“按照利潤列出世界前五大公司”后,生成Excel公式或制作可視化圖垂直場景:教育—GPT+文本&對話&翻譯催化啟發(fā)式、個(gè)性化教學(xué)GPT有望催化“啟發(fā)式”教學(xué)模式,加快教育領(lǐng)域的個(gè)性化、多樣化變革探索。ChatGPT可以理解為一名“全能教師”,即便是小眾、冷門的領(lǐng)域,也能夠給出相對有邏輯的回答。我們認(rèn)為,GPT技術(shù)將催化“啟發(fā)式”教學(xué)模式,引導(dǎo)學(xué)生更加積極主動(dòng)地進(jìn)行思考、發(fā)問,并與“全能教師”進(jìn)行對話探討,這有別于傳統(tǒng)的應(yīng)試教學(xué)模式。垂直場景:金融—GPT+文本&對話賦能客戶服務(wù)、投研支持GPT有望對金融行業(yè)的經(jīng)營、管理、產(chǎn)品營銷及客戶服務(wù)等方面產(chǎn)生巨大影響。近年來,金融機(jī)構(gòu)在合規(guī)趨嚴(yán)、人力成本上升等因素的影響下,對于數(shù)字化建設(shè)的意愿強(qiáng)烈??紤]到ChatGPT在內(nèi)容生成等方面的突出表現(xiàn),我們認(rèn)為,GPT有望率先落地對外的客戶服務(wù)與對內(nèi)的投研支持。以銀行業(yè)為例,電子客服仍處于AB判斷階段,引入GPT將更好地服務(wù)于客戶需求;在證券、基金業(yè),個(gè)人投資者存在的大量疑惑將可通過GPT解決,機(jī)構(gòu)投資者在投研中也將獲得來自GPT的協(xié)作。GPT有望重構(gòu)金融行業(yè)客戶服務(wù)端,也有望進(jìn)一步增強(qiáng)機(jī)構(gòu)內(nèi)部的投研能力,助力經(jīng)營效率提升與成本優(yōu)化。垂直場景:醫(yī)療—醫(yī)療信息化廠商卡位核心系統(tǒng),助力構(gòu)建GPT能力醫(yī)療信息化公司作為醫(yī)療機(jī)構(gòu)信息化底座提供者,有望助力構(gòu)建GPT能力。根據(jù)復(fù)旦大學(xué)附屬華山醫(yī)院信息中心主任黃虹在接受第一財(cái)經(jīng)采訪時(shí)透露的情況,醫(yī)院內(nèi)部落地GPT的場景包括:就醫(yī)導(dǎo)診,以提升醫(yī)療效率;構(gòu)建內(nèi)部知識(shí)庫,以提升臨床研究效率;匯集歷史病歷,輔助醫(yī)生提升電子病歷書寫效率??紤]到醫(yī)院本身在信息化能力上的相對薄弱,我們認(rèn)為以創(chuàng)業(yè)慧康、衛(wèi)寧健康、醫(yī)渡等為代表的醫(yī)療信息化公司作為醫(yī)院內(nèi)部系統(tǒng)的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論