ChatGPT專題報(bào)告：GPT大模型多模態(tài)應(yīng)用展望

上傳人：海*** IP屬地：江蘇上傳時(shí)間：2025-01-13 格式：DOCX 頁數(shù)：29 大?。?.48MB 積分：9.6 舉報(bào) 版權(quán)申訴

ChatGPT專題報(bào)告：GPT大模型多模態(tài)應(yīng)用展望_第2頁

ChatGPT專題報(bào)告：GPT大模型多模態(tài)應(yīng)用展望_第3頁

ChatGPT專題報(bào)告：GPT大模型多模態(tài)應(yīng)用展望_第4頁

ChatGPT專題報(bào)告：GPT大模型多模態(tài)應(yīng)用展望_第5頁

已閱讀5頁，還剩24頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

多模態(tài)應(yīng)用展望1.ChatGPT通過大模型突破AI瓶頸，GPT-4多模態(tài)應(yīng)用帶動(dòng)商業(yè)化加概述：ChatGPT為NLP下的AI大模型，性能和使用體驗(yàn)超預(yù)期ChatGPT是自然語言處理（NLP）下的AI大模型，通過大算力、大規(guī)模訓(xùn)練數(shù)據(jù)突破AI瓶頸。2022年11月，OpenAI推出ChatGPT，ChatGPT基于GPT-3.5，使用人類反饋強(qiáng)化學(xué)習(xí)技術(shù)，將人類偏好作為獎(jiǎng)勵(lì)信號(hào)并微調(diào)模型，實(shí)現(xiàn)有邏輯的對話能力。ChatGPT本質(zhì)上是通過超大的統(tǒng)計(jì)語言模型，對詞語序列的概率分布進(jìn)行建模，利用上下文信息預(yù)測后續(xù)詞語出現(xiàn)的概率分布，其表現(xiàn)的超預(yù)期反映了在算力水平提升的情況下大語言模型技術(shù)路線的成功，通過對大規(guī)模的未標(biāo)注的文本數(shù)據(jù)進(jìn)行訓(xùn)練，突破了AI發(fā)展的技術(shù)瓶頸。根據(jù)《瞭望》新聞周刊報(bào)道，OpenAI為了讓ChatGPT的語言合成結(jié)果更自然流暢，使用了45TB的數(shù)據(jù)、近1萬億個(gè)單詞來訓(xùn)練模型，訓(xùn)練一次的成本高達(dá)千萬美元，一個(gè)月的運(yùn)營成本需要數(shù)百萬美元。概述：OpenAI傾力打造ChatGPT，獲得微軟有力加持ChatGPT出自美國AI創(chuàng)業(yè)公司OpenAI，是AI大模型領(lǐng)域的領(lǐng)軍者。OpenAI在2015年由SamAltman、PeterThiel、ReidHoffman、ElonMusk等人創(chuàng)辦。公司成立之初，即確定了包括制造“通用”機(jī)器人和使用自然語言的聊天機(jī)器人的發(fā)展目標(biāo)。2019年，OpenAI獲得來自微軟的10億美元投資，為Azure云端平臺(tái)服務(wù)開發(fā)AI技術(shù)。2018年起，OpenAI開始發(fā)布GPT（GenerativePre-trainedTransformer）模型，人工智能競賽的里程碑事件，并直至ChatGPT的推出引起AI的熱潮。除了NLP領(lǐng)域，OpenAI還在多模態(tài)領(lǐng)域取得成就，包括發(fā)布了AI圖像生成器DALL-E2，對音頻轉(zhuǎn)錄編輯器Descript、AI筆記應(yīng)用Mem等進(jìn)行投資。演變：GPT-1—無監(jiān)督預(yù)訓(xùn)練+有監(jiān)督微調(diào)GPT-1發(fā)布于2018年6月，參數(shù)量達(dá)1.17億，預(yù)訓(xùn)練數(shù)據(jù)量約5GB。GPT-1包含預(yù)訓(xùn)練和微調(diào)兩個(gè)階段，考慮到自然語言處理任務(wù)中有標(biāo)簽的語料少，GPT-1先在大量的無標(biāo)簽數(shù)據(jù)上訓(xùn)練語言模型，然后在下游具體任務(wù)（如分類、常識(shí)推理、自然語言推理等）的有標(biāo)簽數(shù)據(jù)集上進(jìn)行微調(diào)。1）在無監(jiān)督訓(xùn)練中，GPT-1采用Transformer的架構(gòu)，即標(biāo)準(zhǔn)的語言模型的目標(biāo)函數(shù)，通過前面的詞預(yù)測后面的詞；2）在有監(jiān)督訓(xùn)練中，采用標(biāo)準(zhǔn)的分類目標(biāo)函數(shù)，僅需對第一階段預(yù)訓(xùn)練的語言模型做出很小的結(jié)構(gòu)改變，即可應(yīng)用于各種下游任務(wù)。GPT-1使用了BooksCorpus數(shù)據(jù)集來訓(xùn)練語言模型，其中有7000余本未出版的書籍。具體表現(xiàn)上，在有監(jiān)督學(xué)習(xí)的12項(xiàng)任務(wù)中，GPT-1在其中9項(xiàng)上的表現(xiàn)優(yōu)于專門訓(xùn)練的受監(jiān)督模型。演變：GPT-2—無監(jiān)督預(yù)訓(xùn)練+多任務(wù)學(xué)習(xí)GPT-2發(fā)布于2019年2月，參數(shù)量達(dá)15億，預(yù)訓(xùn)練數(shù)據(jù)量約40GB。GPT-1使用的概率條件模型為p(output|input)，GPT-2使用相同的無監(jiān)督模型學(xué)習(xí)多個(gè)任務(wù)，將概率條件模型修改為p(output|input,task)，期望模型對不同任務(wù)的相同輸入產(chǎn)生不同的輸出。此外，GPT-2采取Zero-shot設(shè)定，不需要下游任務(wù)的標(biāo)注信息，而是根據(jù)給定的指令理解任務(wù)。因此GPT-2的核心思想在于多任務(wù)學(xué)習(xí)。GPT-2訓(xùn)練的數(shù)據(jù)集來自社交新聞平臺(tái)Reddit，共有約800萬篇文章，學(xué)習(xí)，GPT-2在其中7個(gè)上領(lǐng)先。GPT-2表明，隨著模型容量和數(shù)據(jù)量增大，GPT模型的潛力仍有望進(jìn)一步顯現(xiàn)。展望：GPT-4—此前外界預(yù)期參數(shù)量變化不大、使用門檻有望降低GPT-4備受業(yè)界期待，訓(xùn)練成本控制有望帶動(dòng)商業(yè)潛力的極大增強(qiáng)。ChatGPT的突出表現(xiàn)使得外界對GPT-4十分期待，自2021年以來便有報(bào)道稱GPT-4“即將推出”，OpenAI公司CEOSamAltman今年受StrictlyVC采訪時(shí)表示GPT-4將在“有信心可以安全且負(fù)責(zé)任地運(yùn)行時(shí)”推出。外界此前也曾預(yù)期，GPT-4的推出或分階也是先開放給合作伙伴、付費(fèi)用戶和學(xué)術(shù)機(jī)構(gòu)，才在2022年底開放給公眾。在參數(shù)量上，針對有傳言稱GPT-4參數(shù)量將達(dá)到百萬億，OpenAI公司的重點(diǎn)在數(shù)據(jù)處理優(yōu)化上，因此其使用門檻有望降低，我們預(yù)計(jì)訓(xùn)練成本的控制將帶動(dòng)其商業(yè)潛力的增強(qiáng)。展望：GPT-4—最新消息稱推出在即、支持多模態(tài)最新消息稱GPT-4將于下周推出，支持多模態(tài)應(yīng)用，開啟通往人工通微軟德國公司首席技術(shù)官AndreasBraun在名為“AIinFocus-DigitalKickoff”的活動(dòng)中透露稱“將在下周推出GPT-4，它將是一個(gè)多模態(tài)模型，會(huì)提供完全不同的可能性——例如視頻”。這意味著GPT-4可以管理不同語言數(shù)據(jù)的輸入和輸出，也能夠做到輸出圖像甚至視頻。在活動(dòng)上，微軟AI技術(shù)專家對多模態(tài)AI的應(yīng)用案例進(jìn)行了介紹，例如能夠?qū)㈦娫捄艚械恼Z音直接記錄成文本，這為微軟位于荷蘭的一家大型客戶節(jié)省500個(gè)工作小時(shí)/天。GPT-4對多模態(tài)的支持使得外界對模型潛力的預(yù)期進(jìn)一步強(qiáng)化，原因在于多模態(tài)感知是建立人工通用智能（AGI）的重要一步，基于此能夠執(zhí)行人類水平的一般任務(wù)。商業(yè)模式：C端推出訂閱制會(huì)員，B端提供調(diào)用API接口ChatGPT迅速走紅，以訂閱制服務(wù)B端、C端客戶，成本控制下將有效加速商業(yè)化落地。ChatGPT自年初以來，持續(xù)出圈，截至2023年1月末月活突破1億，成為史上增長最快的消費(fèi)者應(yīng)用?？紤]到計(jì)算資源所牽涉的龐大訓(xùn)練成本、運(yùn)行成本，ChatGPT的商業(yè)化路徑已正在探索、明確中。商業(yè)模式—1）C端：OpenAI發(fā)布ChatGPTPlus訂閱計(jì)劃，每月收費(fèi)20美元，相較于免費(fèi)版本，即便在高峰時(shí)段用戶也能正常訪問ChatGPT，響應(yīng)時(shí)間更快，可以優(yōu)先使用新功能，有望引領(lǐng)AI技術(shù)變集成到產(chǎn)品中，價(jià)格為$0.002/1ktoken，相較于GPT-3.5降低90%，我們預(yù)計(jì)成本控制后有望快速帶動(dòng)GPT相關(guān)應(yīng)用爆發(fā)。根據(jù)微信公眾號(hào)“智東西”，生鮮電商Instacart、跨境電商Shopify、照片分享應(yīng)用Snap、單詞背誦應(yīng)用Quizlet等已率先接入ChatGPTAPI。2.Transformer架構(gòu)支撐GPT走向多模態(tài)，構(gòu)筑AIGC領(lǐng)域核心基石GPT采用的Transformer架構(gòu)在NLP領(lǐng)域已躋身主流GPT沿用主流Transformer模型，該模型采用自注意力機(jī)制，在NLP上表現(xiàn)優(yōu)于RNN（循環(huán)神經(jīng)網(wǎng)絡(luò)）。2017年，谷歌在《AttentionisAllYouNeed》中提出Transformer模型，可用于文本摘要、機(jī)器翻譯等NLP任務(wù)。在NLP方面，Transformer模型的自注意力（self-attention）機(jī)制可以為輸入序列中的任意位置提供上下文，進(jìn)而模型能夠一次性處理所有輸入數(shù)據(jù)，而非RNN一次只處理一個(gè)單詞的情況，由此模型可以減少訓(xùn)練時(shí)間，能夠在更大的數(shù)據(jù)集上進(jìn)行訓(xùn)練。目前，基于Transformer的預(yù)訓(xùn)練語言模型已成為NLP領(lǐng)域的主流。Transformer也可用于CV領(lǐng)域，相較于CNN實(shí)現(xiàn)性能巨大提升Transformer也可用于CV（計(jì)算機(jī)視覺）領(lǐng)域，表現(xiàn)出巨大的性能提升。CV領(lǐng)域此前更多由CNN（卷積神經(jīng)網(wǎng)絡(luò)）主導(dǎo)，而Transformer憑借著自注意力機(jī)制，表現(xiàn)出了巨大的性能提升。根據(jù)微軟亞洲研究院，Transformer在圖像分類、物體檢測等任務(wù)中刷新了測評(píng)記錄，例如2020年Transformer被首次應(yīng)用于圖像分類任務(wù)，結(jié)合海量的預(yù)訓(xùn)練數(shù)據(jù)，ViT在ImageNet-1K的validation評(píng)測集上取得88.55%的準(zhǔn)確率。Transformer也在視頻動(dòng)作識(shí)別、視覺自監(jiān)督學(xué)習(xí)、圖像復(fù)原、圖像分割等視覺任務(wù)中取得優(yōu)異成績。谷歌提出的ViT-MoE模型目前在參數(shù)量上領(lǐng)先，達(dá)到了150億。Transformer支撐下GPT有望走向多模態(tài)，構(gòu)筑AIGC領(lǐng)域核心基石GPT有望基于Transformer延伸至多模態(tài)，構(gòu)筑AIGC核心基石，GPT-4或?qū)崿F(xiàn)領(lǐng)跑。當(dāng)前，基于Transformer的多模態(tài)學(xué)習(xí)成為AI領(lǐng)域的研究熱點(diǎn)，研究者們提出了大量的Transformer變體。鑒于Transformer具有較少的特定于模態(tài)的架構(gòu)假設(shè)，以及生成式預(yù)訓(xùn)練、大模型&大數(shù)據(jù)路線的成功，Transformer能夠聯(lián)動(dòng)CV與NLP，通過聯(lián)合建模完成，打破CV與NLP領(lǐng)域之間的壁壘。微軟亞洲研究院2022年推出BEiT-3預(yù)訓(xùn)練模型，在目標(biāo)檢測、實(shí)例分割、語義分割、視覺推理、圖片描述生成等任務(wù)上取得了SOTA的遷移性能。我們認(rèn)為，基于Transformer架構(gòu)，GPT未來有望延伸至多模態(tài)，助力內(nèi)容創(chuàng)作由UGC、PGC全面走向AIGC，賦能通用領(lǐng)域以及金融、教育、醫(yī)療、傳媒等垂直行業(yè)。3.通用與垂直場景多點(diǎn)開花，GPT變革內(nèi)容生成與交互方式通用場景：搜索引擎—GPT+文本&圖像&視頻重塑搜索結(jié)果呈現(xiàn)方式搜索引擎接入GPT后結(jié)果呈現(xiàn)方式大為變化，或影響行業(yè)盈利模式與競爭格局。用戶使用傳統(tǒng)的搜索引擎時(shí)，需要手動(dòng)翻閱搜索結(jié)果，判斷是否為所需要的信息；而當(dāng)搜索引擎接入GPT后，用戶可直接獲得答案集合。盡管受制于訓(xùn)練語料、成本等因素，答案準(zhǔn)確性有待商榷，但在結(jié)果呈現(xiàn)方式上實(shí)現(xiàn)了變革，未來或與傳統(tǒng)的搜索引擎相結(jié)合。如進(jìn)一步實(shí)現(xiàn)多模態(tài)，搜索結(jié)果將更加豐富。微軟在Bing中上線ChatGPT能力并開啟測試，以聊天方式展示搜索結(jié)果，并可在對話中推薦廣告。微軟必應(yīng)官方博客宣布，目前Bing日活突破1億，集成搜索+聊天功能的Bing預(yù)覽版自推出以來總聊天次數(shù)已超過4500萬次。鑒于微軟可能掀起搜索行業(yè)的第二次變革并顛覆此前的盈利模式，谷歌在2月初展示由大型語言模型LaMDA驅(qū)動(dòng)的類ChatGPT應(yīng)用——Bard，并計(jì)劃大范圍推廣。通用場景：辦公軟件—GPT+文本&圖像打造效率型生產(chǎn)力工具GPT有望融入辦公流程，率先推動(dòng)辦公軟件轉(zhuǎn)型為智能辦公平臺(tái)。微軟將于3月16日召開名為“FutureofWorkwithAI”的發(fā)布會(huì)，預(yù)計(jì)將展示ChatGPT類技術(shù)在Teams、Word、Outlook等生產(chǎn)力套件中的應(yīng)用。我們認(rèn)為，在GPT的賦能之下，辦公軟件作為效率型生產(chǎn)力工具的屬性將更加突出，功能上將更加智能化，用戶有望享受到智能辦公平臺(tái)所帶來的便利性與效率大幅提升。例如，在Word中，GPT將能夠幫助用戶生成文本，或?qū)⑽臋n集匯總為關(guān)鍵點(diǎn)，使得用戶快速理解和分析信息；在Outlook中，GPT可以處理收件箱文本，幫助用戶更快捷地撰寫或回復(fù)電子郵件；在Excel中，能夠根據(jù)提示提取數(shù)據(jù)，如要求“按照利潤列出世界前五大公司”后，生成Excel公式或制作可視化圖垂直場景：教育—GPT+文本&對話&翻譯催化啟發(fā)式、個(gè)性化教學(xué)GPT有望催化“啟發(fā)式”教學(xué)模式，加快教育領(lǐng)域的個(gè)性化、多樣化變革探索。ChatGPT可以理解為一名“全能教師”，即便是小眾、冷門的領(lǐng)域，也能夠給出相對有邏輯的回答。我們認(rèn)為，GPT技術(shù)將催化“啟發(fā)式”教學(xué)模式，引導(dǎo)學(xué)生更加積極主動(dòng)地進(jìn)行思考、發(fā)問，并與“全能教師”進(jìn)行對話探討，這有別于傳統(tǒng)的應(yīng)試教學(xué)模式。垂直場景：金融—GPT+文本&對話賦能客戶服務(wù)、投研支持GPT有望對金融行業(yè)的經(jīng)營、管理、產(chǎn)品營銷及客戶服務(wù)等方面產(chǎn)生巨大影響。近年來，金融機(jī)構(gòu)在合規(guī)趨嚴(yán)、人力成本上升等因素的影響下，對于數(shù)字化建設(shè)的意愿強(qiáng)烈?？紤]到ChatGPT在內(nèi)容生成等方面的突出表現(xiàn)，我們認(rèn)為，GPT有望率先落地對外的客戶服務(wù)與對內(nèi)的投研支持。以銀行業(yè)為例，電子客服仍處于AB判斷階段，引入GPT將更好地服務(wù)于客戶需求；在證券、基金業(yè)，個(gè)人投資者存在的大量疑惑將可通過GPT解決，機(jī)構(gòu)投資者在投研中也將獲得來自GPT的協(xié)作。GPT有望重構(gòu)金融行業(yè)客戶服務(wù)端，也有望進(jìn)一步增強(qiáng)機(jī)構(gòu)內(nèi)部的投研能力，助力經(jīng)營效率提升與成本優(yōu)化。垂直場景：醫(yī)療—醫(yī)療信息化廠商卡位核心系統(tǒng)，助力構(gòu)建GPT能力醫(yī)療信息化公司作為醫(yī)療機(jī)構(gòu)信息化底座提供者，有望助力構(gòu)建GPT能力。根據(jù)復(fù)旦大學(xué)附屬華山醫(yī)院信息中心主任黃虹在接受第一財(cái)經(jīng)采訪時(shí)透露的情況，醫(yī)院內(nèi)部落地GPT的場景包括：就醫(yī)導(dǎo)診，以提升醫(yī)療效率；構(gòu)建內(nèi)部知識(shí)庫，以提升臨床研究效率；匯集歷史病歷，輔助醫(yī)生提升電子病歷書寫效率?？紤]到醫(yī)院本身在信息化能力上的相對薄弱，我們認(rèn)為以創(chuàng)業(yè)慧康、衛(wèi)寧健康、醫(yī)渡等為代表的醫(yī)療信息化公司作為醫(yī)院內(nèi)部系統(tǒng)的

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

ChatGPT專題報(bào)告：GPT大模型多模態(tài)應(yīng)用展望

文檔簡介

溫馨提示

最新文檔

評(píng)論

ChatGPT專題報(bào)告：GPT大模型多模態(tài)應(yīng)用展望

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔