2023從算力算法數(shù)據(jù)及應(yīng)用看AIGC

上傳人：1*** IP屬地：山東上傳時間：2024-07-04 格式：DOCX 頁數(shù)：38 大?。?.60MB 積分：10.8 舉報 版權(quán)申訴

已閱讀5頁，還剩33頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

從算力、算法、數(shù)據(jù)和應(yīng)用看AIGC2023年目錄生成式AI：ChatGPTAIGC突破1生成式AI：自然語言處理演變十余年，迎來變現(xiàn)階段AIGC(AIGeneratedContent)即生成式AI，多領(lǐng)域應(yīng)用逐漸成熟。AIGC涉及無監(jiān)督和半監(jiān)督學習算法，截至目前其發(fā)展歷程主要分為三個階段：統(tǒng)計機器學習方法階段（2010年前）：首先對數(shù)據(jù)進行手工標注，然后構(gòu)建其重要特征，最后構(gòu)建概率基于深度學習的神經(jīng)網(wǎng)絡(luò)模型（2010年-2017年）：深度學習算法被引入，本質(zhì)上是通過大量數(shù)據(jù)訓練神經(jīng)網(wǎng)絡(luò)，主要表現(xiàn)形式為：CNN（卷積神經(jīng)網(wǎng)絡(luò)）、RNN(循環(huán)神經(jīng)網(wǎng)絡(luò)）等。相比統(tǒng)計學習方法，省去了復(fù)雜且手工的特征構(gòu)建；基于結(jié)構(gòu)的預(yù)訓練模型（2017年至今）：利用大量無標注數(shù)據(jù)進行自監(jiān)督學習，然后再使（）。在應(yīng)用方面，按場景分類AIGC已經(jīng)較為成熟地應(yīng)用于文本和代碼撰寫、圖像識別和生成，以GPT為首的AIGC模型也正在探索消費級AIAIGC逐步拓展到視頻和游戲領(lǐng)域，AIGC將會在更多的領(lǐng)域得到廣泛應(yīng)用，為各個行業(yè)和領(lǐng)域的發(fā)展和進步提供更多可能性。表1：AI應(yīng)用發(fā)展進程預(yù)測2020前20202022預(yù)計2025預(yù)計2030預(yù)計2050文本垃圾郵件檢測翻譯基礎(chǔ)問答基礎(chǔ)文案撰寫生成草案撰寫更長文章完善文稿對科學論文等進行垂直微調(diào)文章終稿超過人類平均水平文章終稿超過專業(yè)作者水平代碼單行自動完成多行代碼生產(chǎn)更長代碼更高準確度更多語言深度提高文本到產(chǎn)品（草稿）文本到產(chǎn)品（終稿），開發(fā)者圖像藝術(shù)Logo攝影產(chǎn)品設(shè)計、建筑等模型產(chǎn)品設(shè)計、建筑等終稿終稿超過大部分專業(yè)藝術(shù)家、設(shè)計師、攝影師水平視頻/3D/游戲視頻和3D制作的初稿完善版本AI創(chuàng)作平臺游戲和電影實現(xiàn)個性化定制開始嘗試基本完成黃金時期生成式AI：GPT模型迭代四大版本，進化速度不斷提升OpenAI創(chuàng)立于2015年12月，發(fā)布ChatGPT引燃AI行業(yè)熱度。GPT系列是OpenAI打造的自然語言處結(jié)構(gòu)為核心的模型，其最大特點是使用了大量的未標注的語料進行無監(jiān)督的OpenAI于2022年11月先后推出了GPT-3.5和ChatGPT，GPT-3.5ChatGPT是基于GPT-3.5ChatGPT發(fā)布后爆火，僅用5天時間用戶量便破百萬，推出2個月后用戶量破億，成為史上用戶增長速度最快的消費級應(yīng)用程序。3月14日，OpenAI進一步推出GPT-4.0，相比當前ChatGPT使用的GPT-3.5，增加了輸入圖像的功能；擴寫能力增強，能處理超過25000個單詞的文本；更具創(chuàng)造力，并且能夠處理更細微的指令。GPT模型迭代的參數(shù)量及訓練量均呈指數(shù)級增長，使得AI從實驗技術(shù)成長為穩(wěn)定生產(chǎn)力。圖1：ChatGPT僅發(fā)布5天便達到百萬用戶ChatGPTInstagramSpotifyFacebookFoursquareTwitterAirbnbNetflix0

200

400

800

1000

1400用戶量達到100萬時間（天）生成式AI：AI產(chǎn)品全面開花，生產(chǎn)力將達新高度GPT模型穩(wěn)定進步，AI已是成熟生產(chǎn)工具。從GPT-1到最新發(fā)布的GPT-4模型，其應(yīng)用已經(jīng)不僅局限于問答、閱讀理解等文本處理，雖然目前GPT-4在現(xiàn)實場景中的能力可能不如人類，但在各種專業(yè)和學術(shù)考試上表現(xiàn)出明顯超越人類水平的能力，GPT-4在模擬律師考試中，分數(shù)排在前10%；相比之下，GPT-3.5的得分則在倒數(shù)10%附近。隨著算力、算法、數(shù)據(jù)量的演進，行業(yè)內(nèi)不斷出現(xiàn)高質(zhì)量的AI產(chǎn)品，微軟NewBing、AI繪畫、智能駕駛等等，體現(xiàn)出AI未來在多個領(lǐng)域的應(yīng)用潛力。ChatGPT版Office、百度“文心一言”兩大產(chǎn)品正式推或?qū)I圖2：GPT4.0數(shù)學能力大幅提升生成式AI：AI進化加速，數(shù)字經(jīng)濟未來已至AI行業(yè)星辰大海，數(shù)字經(jīng)濟未來已至。從2018到2023年，四代GPT模型高速進步，從簡單的問答、閱讀理解、文本總結(jié)，到在眾多測試中獲得“人類級別表現(xiàn)”評級，此外近期AI衍生產(chǎn)品的層出不窮，顯現(xiàn)出背后AI行業(yè)的星辰大海。2020年，馬斯克預(yù)言五年內(nèi)人工智能將比人類更聰明，當前AI迭代進化的速度越來越快，雖然GPT還未通過圖靈測試，距離真正的“智能”還有距離，但我們認為，AI達到人類水平、乃至超越人類的時代即將到來。表2：歷代GPT學習目標及表現(xiàn)情況模型發(fā)布時間參數(shù)量預(yù)訓練數(shù)據(jù)量學習目標模型表現(xiàn)GPT-12018年6月1.17億約5GB無監(jiān)督語言模型有監(jiān)督fine-tune在9/12任務(wù)中獲得“先進”表現(xiàn)：問答、閱讀理解、文本總結(jié)GPT-22019年2月15億40GB多任務(wù)零次學習Short在7/8任務(wù)中超過“先進”表現(xiàn)隨著模型參數(shù)變多，模型的表現(xiàn)呈現(xiàn)log-linear上升，沒有到達瓶頸GPT-32020年5月1,750億45TB語境學習小樣本學習在小樣本學習、單樣本學習、零樣本學習中表現(xiàn)突出GPT-42023年3月待公布基于規(guī)則的獎勵模型(RBRM)在GLUESuperGLUESQuAD擁有圖像處理能力生成式AI：算力、算法、數(shù)據(jù)三位一體數(shù)據(jù)，通過算力，最后產(chǎn)生了算法或者應(yīng)用。AIGC是人工智能、大數(shù)據(jù)、云計算、5G等多個技術(shù)領(lǐng)域的整合，是一種跨領(lǐng)域的合作發(fā)展模式。在AIGC行業(yè)中，算力、算法、數(shù)據(jù)是三個核心概念，它們共同構(gòu)成了這個領(lǐng)域的基礎(chǔ)設(shè)施。未來隨著技術(shù)的進步和應(yīng)用場景的不斷拓展，這三個概念將繼續(xù)發(fā)揮重要作用，推動整個行業(yè)的創(chuàng)新和發(fā)展。算力（ComputingPower）：算力是指計算設(shè)備執(zhí)行算法、處理數(shù)據(jù)的能力，包括CPU、GPU、FPGA、ASIC等。云計算技術(shù)和5G通信技術(shù)的發(fā)展使得算力的分布和調(diào)度更加靈活，有助于滿足各種場景下對高性能計算的需求。算法（Algorithm）：算法是一系列解決問題、實現(xiàn)特定功能的有序指令和步驟。在AIGC行業(yè)中，算數(shù)據(jù)（Data）：在AIGC行業(yè)中，數(shù)據(jù)是支撐決策和優(yōu)化的基礎(chǔ)，是算法發(fā)揮作用的前提。大數(shù)據(jù)技術(shù)表3：AIGC行業(yè)三大核心概念核心概念描述應(yīng)用及關(guān)聯(lián)技術(shù)算力（ComputingPower）衡量計算設(shè)備執(zhí)行算法、處理數(shù)據(jù)的能力，關(guān)系到系統(tǒng)的運行效率和任務(wù)完成速度。數(shù)據(jù)中心、分布式計算、云計算、邊緣計算、高性能計算（HPC）算法（Algorithm）解決問題、實現(xiàn)特定功能的有序指令和步驟，是計算機程序的基礎(chǔ)，用于實現(xiàn)各種功能。機器學習（ML）、深度學習（DL）、自然語言處理（NLP）、計算機視覺（CV）、推薦系統(tǒng)等數(shù)據(jù)（Data）對現(xiàn)實世界的描述和反映，以數(shù)字、文字、圖像等形式表現(xiàn)，是支撐決策和優(yōu)化的基礎(chǔ)。數(shù)據(jù)挖掘、數(shù)據(jù)分析、數(shù)據(jù)倉庫、數(shù)據(jù)可視化、數(shù)據(jù)安全、隱私保護等目錄生成式AI：ChatGPTAIGC突破10數(shù)據(jù)：大模型訓練的基礎(chǔ)資源，需求不斷擴大數(shù)據(jù)是訓練大模型的基礎(chǔ)資源，以GPT系列模型為例，對比三代模型間使用的數(shù)據(jù)集，訓練所需的數(shù)據(jù)集在質(zhì)量和數(shù)量方面均不斷提升。隨著人工智能模型迭代發(fā)展，高質(zhì)量數(shù)據(jù)集的需求將進一步增長。模型數(shù)據(jù)集概要GPT-1BooksCorpus（7000不同的未發(fā)表的書籍，包括冒險、幻想、浪漫等題材，數(shù)據(jù)集模型數(shù)據(jù)集概要GPT-1BooksCorpus（7000不同的未發(fā)表的書籍，包括冒險、幻想、浪漫等題材，數(shù)據(jù)集中包含大量連續(xù)文本）GPT-2在4500GPT-3使用CommonCrawl數(shù)據(jù)集(幾乎包含整個互聯(lián)網(wǎng)的數(shù)據(jù))，進行了3步過濾操作，增加了一些高質(zhì)量數(shù)據(jù)集，最終采用混合數(shù)據(jù)集輸入。數(shù)據(jù)集大小合計將近5千億tokens數(shù)據(jù)：大模型訓練的基礎(chǔ)資源，需求不斷擴大從自然數(shù)據(jù)源簡單收集取得的原料數(shù)據(jù)并不能直接用于有監(jiān)督的深度學習算法訓練，必須經(jīng)過專業(yè)化的采集、加工，形成相應(yīng)的工程化訓練數(shù)據(jù)集后才能供深度學習算法等訓練使用。目前，帶有監(jiān)督學習的算法對于訓練數(shù)據(jù)的需求遠大于現(xiàn)有的標注效率和投入預(yù)算，基礎(chǔ)數(shù)據(jù)服務(wù)將持續(xù)釋放其對于算法模型的基礎(chǔ)支撐價值。表5：數(shù)據(jù)服務(wù)商部分公司概況公司主營業(yè)務(wù)公司優(yōu)勢海天瑞聲AI訓練數(shù)據(jù)的研發(fā)設(shè)計、生產(chǎn)及銷售業(yè)務(wù)擁有的成品訓練數(shù)據(jù)集數(shù)量大，在產(chǎn)品領(lǐng)域覆蓋方面比較完善已取得專利授權(quán)28項，計算機軟件著作權(quán)159儲備方面具備一定優(yōu)勢公司的產(chǎn)品和服務(wù)已獲得字節(jié)跳動、阿里巴巴、騰訊、百度、科大訊飛、海市場認可度較高澳鵬（Appen）數(shù)據(jù)采集和標注解決方案1.覆蓋超過235個語種/方言，語言覆蓋面具有優(yōu)勢2、成立于1996年，經(jīng)營歷史較長，規(guī)模較大，擁有人工智能輔助數(shù)據(jù)注釋平臺，在全球170多個國家與100多萬名專業(yè)承包合作3.客戶包括亞馬遜、微軟、谷歌等全球大型科技公司，產(chǎn)品質(zhì)量得到認可標貝科技智能語音交互和AI數(shù)據(jù)服務(wù)擁有語音合成模型和算法，可覆蓋音樂類訓練數(shù)據(jù)。擁有標注體系，通過自主研發(fā)的TTS評測系統(tǒng)，提供高質(zhì)量的數(shù)據(jù)服務(wù)?？蛻艚⒑献?，服務(wù)項目累計超過1000項目錄生成式AI：ChatGPTAIGC突破13算力：算力需求不斷攀升，GPU行業(yè)市場巨大AIGC模型硬件以GPGPU為主，GPU市場規(guī)模有望在2030年超過4000億美元。GPU在并行計算方面具有性能優(yōu)勢，在AI領(lǐng)域分化成兩條分支：一條是傳統(tǒng)意義的GPU，專門用于圖形圖像處理用途；另一條是GPGPU，作為運算協(xié)處理器，增加了專用指令來滿足不同領(lǐng)域的計算需求。使用GPGPU在云端進行型訓練算法能夠顯著縮短海量訓練數(shù)據(jù)的訓練時長，減少能源消耗，從而降低人工智能的應(yīng)用成本，目GPGPU為主。根據(jù)VerifiedMarketResearch報告，2021年全球GPU芯片市場規(guī)模已經(jīng)達到了334.7億美元，并預(yù)計到2030年將達到4,773.7億美元，CAGR高達33.3%。GPU市場保持著高速增長態(tài)勢，其在人工智能領(lǐng)域中仍然是不可或缺的計算資源之一。圖4：全球GPU市場規(guī)模預(yù)測CAGR：33.3%4,773.7CAGR：33.3%4,773.7334.75,0004,0003,0002,0001,0000

2021

全球GPU市場規(guī)模（億美元

2030E算力：英偉達芯片龍頭市場地位穩(wěn)固英偉達：高算力芯片龍頭，AI芯片市場地位領(lǐng)先。人工智能平臺需要巨大的數(shù)據(jù)處理能力，英偉達的A100顯卡適合于支持ChatGPT、Bard等工具的機器學習模型，這款芯片能夠同時執(zhí)行眾多簡單的計算，而A100AI芯片。長期展望，AI芯片市場快速增長將帶動英偉達營收快速增長，根據(jù)中商產(chǎn)業(yè)研究院數(shù)據(jù)顯示，預(yù)計全球AI芯片市場規(guī)模有望從2020年的約175億美元提升到2025年的726億美元，年復(fù)合增長率32.9%。根據(jù)花團預(yù)估，ChatGPT1230110圖5：A100等顯卡大模型訓練速度圖6：A100等顯卡機器學習性能算力：AMD封裝理念Chiplet領(lǐng)先，推出高性能APUAMD：高算力芯片代表企業(yè)，即將推出世界首款集成數(shù)據(jù)中心CPU和GPU的APU產(chǎn)品。在2023年的CES上，AMD預(yù)覽了AI推理加速器AMDAlveoV70，主打高能效，峰值A(chǔ)I算力可達到400TOPS，TDP僅75W。AMD稱這是最強AI算力的75WTDP級產(chǎn)品。AMD還預(yù)覽了其首款集成數(shù)據(jù)中心CPU和GPU的APU產(chǎn)品AMDInstinctMI300。該款產(chǎn)品采用了Chiplet封裝理念。Chiplet策略是一項重要的硬件創(chuàng)新，擺脫了單芯片微縮的限制，同時能夠優(yōu)化設(shè)備的性能、功耗和性價比。MI300加速器專為領(lǐng)先的高性能計算（HPC）和AI性能而設(shè)計，借助3D封裝技術(shù)將CPU和加速計算單元集成在一起，總共有1460億個晶體管。圖7：AMD在CES上介紹V70 圖8：AMD在CES上介紹MI300算力：英偉達、AMD壟斷全球，國產(chǎn)芯片奮起直追全球GPU市場中英偉達和AMD占據(jù)96%份額，國內(nèi)GPU主要研發(fā)企業(yè)為海光信息、寒武紀等。根據(jù)Wccftech，2022Q3獨立GPU市場中英偉達和AMD分別占據(jù)88%、8%市場份額。根據(jù)海光信息招股書公布技術(shù)指標數(shù)據(jù)，當前國內(nèi)高端GPU相比國際巨頭在顯存頻率、帶寬等參數(shù)上還有一定差距，但在典型應(yīng)用場景下，深算一號已基本能夠達到國際上同類型高端產(chǎn)品的水平。在國際市場上，英偉達和AMD在高性能計算和人工智能領(lǐng)域具有豐富的產(chǎn)品線和完善的生態(tài)系統(tǒng)，疊加長期積累的技術(shù)優(yōu)勢和市場地位，預(yù)計仍將長期維持AI算力芯片領(lǐng)域的龍頭地位。表6：深算一號與NVIDIA、AMD高端產(chǎn)品技術(shù)規(guī)格對比核心概念海光NVIDIAAMD品牌深算一號Ampere100MI100生產(chǎn)工藝7nmFinFET7nmFinFET7nmFinFET核心數(shù)量4096(64Cus)2560CUDAprocessors640processors120CUs內(nèi)核頻率Upto1.5GHz(FP64)Upto1.7GHz(FP32)Upto1.53GHzUpto1.5GHz(FP64)Upto1.7GHz(FP32)顯存容量32GBHBM280GBHBM2e32GBHBM2顯存位寬4096bit5120bit4096bit顯存頻率2.0GHz3.2GHz2.4GHz顯存帶寬1024GB/s2039GB/s1228GB/sTDP350W400W300WCPUtoGPU互聯(lián)PCIeGen4x16PCIeGen4x16PCIeGen4x16GPUtoCPU互聯(lián)xGMIx2Upto184GB/sNVLinkUpto600GB/sInfinityFabricx3Upto276GB/s算力：國產(chǎn)芯片發(fā)展迅速，填補AI市場空缺高端芯片進口受限，國產(chǎn)芯片需求加速擴大。在NVIDIA、AMD國產(chǎn)大模型算力需求將快速推動國產(chǎn)芯片市場增長，當前國產(chǎn)GPGPU芯片的研發(fā)和生產(chǎn)已經(jīng)取得了一定的進展，海光、炬芯、寒武紀等企業(yè)均擁有具備自主知識產(chǎn)權(quán)的GPU芯片，為國內(nèi)高性能計算和人工智能領(lǐng)域的發(fā)展提供了重要支持。根據(jù)前瞻產(chǎn)業(yè)研究院，國產(chǎn)人工智能芯片自2020年來呈爆發(fā)式增長，2023年市場空間預(yù)計將超過1,300億元，2020-2023年CAGR為95.86%?？傮w而言，在國際關(guān)系緊張、芯片進口受限的前提下國產(chǎn)人工智能芯片市場未來的發(fā)展前景廣闊，隨著國內(nèi)廠商加大研發(fā)投入和技術(shù)創(chuàng)新力度，進一步提升產(chǎn)品性能，看好其在國內(nèi)乃至國際市場中獲得更多的份額和競爭優(yōu)勢。圖9：中國人工智能芯片行業(yè)規(guī)模（億元）1,4001,200

1,331.22

160%142.63%843.71142.63%843.7196.26%89.86%56.98%429.907.78%177.18112.8759.4551,000800600400200

120%100%80%60%40%20%0 0%2018 2019 2020 2021E 2022E 2023E目錄生成式AI：ChatGPT算法：大模型算法助力AIGC突破19算法：OpenAI領(lǐng)跑通用型AI，各大廠商各有千秋在算法領(lǐng)域，目前通用型AI的領(lǐng)軍者是OpenAI，其發(fā)布的GPT-4模型是一種多模態(tài)語言模型，能接受圖像和文本輸入，再輸出正確的文本回復(fù)。相較于ChatGPT基于的GPT-3.5模型，它擁有強大的識圖能力，文字輸入限制提升，準確性顯著提高，風格上也有了變化，例如能夠生成歌詞和創(chuàng)意文本。在細分領(lǐng)域中，行業(yè)內(nèi)的主要參與者包括以下公司：谷歌的PaLM-E模型執(zhí)行命令，深耕將AI大模型應(yīng)用到機器人領(lǐng)域。Meta的，其ClaudeConstitutionalAI（CAI）技術(shù)有望在未來對所有AI實施有效性安全監(jiān)督。Hugging致力于構(gòu)建開源模型庫，和Pytorch上做ChatGPT算法：微軟Azure超算為GPT提供保障Azure算力支持，數(shù)億投入始現(xiàn)回報。GPT系列是OpenAI打造的自然語言處理模型，基于文本預(yù)訓練的GPT-1，GPT-2，GPT-3三代模型都采用以Transformer結(jié)構(gòu)為核心的模型。微軟在2019年向OpenAI投資10OpenAIA100GPU組成的大型AIGPT，OpenAI試圖訓AIGPT-3的參數(shù)量達到了1,750在ChatGPTNDmA100v4PublicAI超級計算機，并在21世紀超級計算大會的著GPT的強大算力支GPT

圖10：微軟發(fā)布NDmA100v4PublicAI超級計算機算法：ChatGPT引入最新模型GPT-4具備識圖能力OpenAI正式發(fā)布多模態(tài)預(yù)訓練大模型GPT-4，識圖能力強大，實現(xiàn)多模態(tài)能力。相較前一代GPT-3.5，其主要在兩方面實現(xiàn)飛躍式提升：（1）具備了強大的識圖能力，可以接受圖像和文本輸入；（2）回OpenAIChatGPT，ChatGPTPlusGPT-4訪問GPT-4的APIGPT-4可以接受文本和圖像形式的prompt，新能力與純文本設(shè)置并行，允許用戶指定任何視覺或語言任務(wù)。具體來說，它能在用戶給定由散布的文本和圖像組成的輸入的情況下生成相應(yīng)的文本輸出（自然語言、代碼等）。圖11：GPT-4識圖能力實例

圖12：GPT-4識別論文圖片生成概要算法：GPT-4模型回答準確性顯著提高相較GPT-3.5，回答準確性顯著提高。根據(jù)OpenAI公布數(shù)據(jù)顯示，GPT-4在專業(yè)和學術(shù)方面表現(xiàn)優(yōu)10%左右，相比之下，GPT-3.5的得分在倒數(shù)10%左右。GPT-4在GRE（GraduateExamination）數(shù)學考試中取得應(yīng)試者前20GPT-3.525%。GPT-4在大部分語言上的準確性均超過了GPT-3.5在英語上的表現(xiàn)。OpenAI使用AzureTranslate將MMLU基準——一套涵蓋57個主題的14000個多項選擇題——翻譯成多種語言。在測試的26種語言的24種中，GPT-4優(yōu)于GPT-3.5和其他大語言模型（Chinchilla、PaLM）的英語語言性能。圖圖13：GPT-4標準化考試成績圖14：GPT-4在不同語言上的準確性算法：最大視覺語言模型PaLM-E，可操控機器人谷歌：發(fā)布目前最大視覺語言模型PaLM-E，有望率先落地智能機器人相關(guān)產(chǎn)品。PaLM-E是一種多模態(tài)視覺語言模型（VLM），具有5620億個參數(shù)，是全球已知的最大視覺語言模型。根據(jù)谷歌公布的演示視頻顯示，只需要給PalM-E下達一條高級命令，比如“把抽屜里的薯片拿給我”，它就可以給一個帶機械臂的移動機器人平臺（由谷歌機器人開發(fā)）生成行動計劃，然后自行執(zhí)行。PaLM-E通過分析來自機器人攝像頭的數(shù)據(jù)來實現(xiàn)這一點，整個過程不需要對場景表示進行預(yù)處理。并且，PaLM-E表現(xiàn)出了“正遷移”，又稱助長式遷移，它能把一項任務(wù)中學到的知識和技能遷移至另一項任務(wù)，而且與單任務(wù)機器人模型相比具有“明顯更高的性能水平”圖15：PaLM-E具備能力一覽算法：針對研究群體的模型“LLaMA”，目標明確Meta：“LLaMA”致力于輔助學術(shù)研究人員完成研究工作。LLaMA（LargeLanguageModelMetaAI）模型參數(shù)相對少，意味著運行模型算力要求較低，但基準測試表現(xiàn)優(yōu)秀。同ChatGPT、NewBing不同，LLaMA是一個開源的“研究工具”，旨在完成在文本生成、問題回答、書面材料總結(jié)，以及自根據(jù)Meta發(fā)布的信息，LLaMA包含4個基礎(chǔ)模型，參數(shù)分別為70億、130億、330億和650億。其中，LLaMA65B和LLaMA33B1.4LLaMA7B1的訓練。在大多數(shù)基準測試中，參數(shù)小的多的LLaMA-13B的性能優(yōu)于GPT3.5的前身GPT3-175B，而LLaMA-65BChinchilla-70B和競爭。圖16：LLaMA的訓練損失函數(shù)圖圖17：LLaMA在基礎(chǔ)問題解決中的表現(xiàn)算法：對人工智能的安全性監(jiān)督日益重要Anthropic：聚焦“安全”的人工智能，或?qū)⒊蔀锳I安全領(lǐng)域?qū)＜?。隨著大語言模型的發(fā)展，AI在很多任務(wù)上的能力將會超過人類，這將讓人類無法監(jiān)督模型。為了確保AI在超過人類能力后仍保持安全性，需要開發(fā)一種可擴展的模型監(jiān)督技術(shù)。CAI（ConstitutionalAI）技術(shù)即是這種模型監(jiān)督技術(shù)，原理是人類可以指定一套行為規(guī)范或原則，而不需要手工為每個有害輸出打標簽，模型根據(jù)這套行為規(guī)范和準則選擇最佳結(jié)果。Anthropic所開發(fā)的天機器人Claude，在對話安全領(lǐng)域上做得更為突出，更擅長拒絕有害詞或有害的引導，與人類價值觀更加相符。并且CAI圖18：ConstitutionalAI（CAI）技術(shù)流程示意圖算法：構(gòu)建AI開發(fā)平臺，加速AI模型迭代更新Hugging擴大合作，將在上構(gòu)建下一個版本語言模型。近日，AWS宣布與美國明星AI創(chuàng)企HuggingFace擴大合作，以加速構(gòu)建生成式AI應(yīng)用的大型語言模型和大型視覺模型的訓練、微調(diào)和部署。Hugging是OpenAI的主要競爭對手之一，其主要業(yè)務(wù)包括生產(chǎn)AIAI據(jù)SwamiSivasubramanianHugging將在上構(gòu)建其語言模型的下一個版本。該開源AI模型在規(guī)模和范圍上將與OpenAI用于研發(fā)ChatGPT的大自研AI圖19：BLOOM模型結(jié)構(gòu)算法：國產(chǎn)大模型奮力追趕，行業(yè)布局廣泛GPT升模型能力。由于國內(nèi)無法使用ChatGPT的API接口，且出于數(shù)據(jù)安全等角度考慮，勢必需要國產(chǎn)大模型，百度“文心一言”作為國產(chǎn)大模型的先行者，在國內(nèi)政策扶持和產(chǎn)業(yè)鏈協(xié)同發(fā)展的背景下，將進一步加速國內(nèi)AI模型訓練調(diào)整，快速提升模型性能。圖20：百度文心大模型布局全景算法：相比ChatGPT，“文心一言”在中文理解領(lǐng)域上具備優(yōu)勢盡管當前版本“文心一言”仍具備提升空間，但在中文理解能力上，相較ChatGPT等國外模型，其具備一定的“主場優(yōu)勢”，有望在國內(nèi)中文環(huán)境下實現(xiàn)較好的應(yīng)用效果。在關(guān)于東北燒烤店取名的提問中，ChatGPT的回答中夾雜了“周家烤鴨店”、“炸醬三絕串串香”等看似具有相似性，但實際不符合問題要求的答案；而文心一言則回答答案均符合要求，且呈現(xiàn)出了不同答案的取名邏輯。在創(chuàng)作藏頭詩的任務(wù)中，ChatGPT沒有能夠正確理解“藏頭詩”的含義，而文心一言的創(chuàng)作明顯更勝一籌。由此可見，文心一言在中文理解領(lǐng)域上確實相較更有優(yōu)勢，或更加適合中國市場。圖21：ChatGPT關(guān)于燒烤店取名回答圖22：“文心一言”關(guān)于燒烤店取名回答圖24：“文心一言”關(guān)于藏頭詩創(chuàng)作目錄生成式AI：ChatGPTAIGC突破30產(chǎn)業(yè)應(yīng)用：AIGC市場潛力巨大，落地領(lǐng)域迎來生產(chǎn)力解放AIGC市場潛力巨大，即將實現(xiàn)多領(lǐng)域應(yīng)用。根據(jù)Tractica的預(yù)測數(shù)據(jù)顯示，全球AI軟件市場規(guī)模將在2025年達到1260億美元，2021年到2025年年復(fù)合增長率為41.02%。在大模型的快速迭代推動下，AIGC市場預(yù)計將保持高速增長，市場潛力巨大。生成式AI領(lǐng)域在一級市場同樣受到青睞，全球早期資金調(diào)研機構(gòu)CBInsights最新報告顯示，2022年有110筆創(chuàng)投交易和ChatGPT概念有關(guān)，投資資金超過26億美元。我們預(yù)計搜索引擎、辦公軟件、汽車、媒體、AI繪畫設(shè)計、AI廣告營銷等應(yīng)用率先落地的行業(yè)將具備較強商業(yè)化機會，AI服務(wù)將極大解放生產(chǎn)力，帶來行業(yè)新模式。圖25：全球AI軟件市場規(guī)模18,00038.48%38.40%38.48%38.40%38.18%38.10%38.00%37.85%1 1037.70%37.73%1 8000958051,198701,652,273,134,335,998,291,45,914,00012,00010,0008,0006,0004,0002,000

38.59%

38.8%38.6%38.4%38.2%38.0%37.8%37.6%37.4%-2021 2022E 2023E 2024E 2025E 2026E 2027E 2028E 2029E

37.2%AI產(chǎn)業(yè)全球市場規(guī)模（億美元） YOY【搜索引擎】微軟（MSFT.O）：高質(zhì)量廣告更加符合用戶需求搜索引擎的主要代表為微軟Bing。根據(jù)用戶搜索內(nèi)容，必應(yīng)將生成相應(yīng)問題答案的方案，比如當用戶輸入“計劃一次為期五天的墨西哥之旅”的命令時，除了返回一些網(wǎng)址鏈接供你參考之外，跟使用ChatGPT一樣，必應(yīng)對話框會直接給你寫出一個方案，用戶可以直接復(fù)制這個答案，不滿意的話也可以要求它再生成一個另外的方案，而必應(yīng)可能會在回復(fù)中給出與搜索內(nèi)容相關(guān)的廣告。由于生成式搜索下回復(fù)將例如，當用戶搜索《精靈寶可夢：朱/紫》時，聊天機器人在對其進行介紹后，詢問用戶“是否有興趣購買朱與紫？”并附帶了相應(yīng)廣告鏈接。在另一個關(guān)于羅尼-科爾曼的搜索中，Bing提供了關(guān)于這位退休的職業(yè)健美運動員的詳細信息，并生成了帶有圖片、鏈接和價格的健美產(chǎn)品。圖26：Bing搜索寶可夢朱/紫結(jié)果圖27：Bing搜索羅尼-科爾曼結(jié)果【辦公軟件】微軟助手解生產(chǎn)，辦公模式迎來變革微軟于3月6日表示，其PowerPlatform平臺上的一系列商業(yè)智能和應(yīng)用程序開發(fā)工具，包括Power虛擬代理（PowerVirtualAgent）和AIBuilder，均已更新ChatGPT功能。Power虛擬代理是一款供企業(yè)構(gòu)建聊天機器人的工具，如今可以連接到公司內(nèi)部資源，生成周報和客戶查詢的摘要。而用AIBuilder，則可以很容易地使用GPT模型創(chuàng)建文本。比如，研究人員可以從每周發(fā)布的報告中總結(jié)文本，發(fā)到自己的郵箱里，一遍快速提供信息，識別當前趨勢。3月17日，微軟宣布GPT-4全面接入Office，以插件助手Microsoft365Copilot形式輔助辦公。PPT、、Excel均可使用該AI功能：Word，可以直接給一句簡短的描述讓它幫你生成文檔初稿；Excel，根據(jù)輸入需求自動分析、整理數(shù)據(jù)；PPT，可以通過其他文件內(nèi)容生成精美PPT，并可以根據(jù)要求快速修改（簡化內(nèi)容、替換圖片等）。Copilot圖28：PowerVirtualAgent使用界面圖29：Copilot通過一句話分析數(shù)據(jù)趨勢【汽車】Mobileye（MBLY.O）：自動駕駛或達新高度自動駕駛：Mobileye自動駕駛技術(shù)領(lǐng)先，若能加入AIGC大模型將如虎添翼。根據(jù)GuidehouseInsights的報告，以技術(shù)成熟度、產(chǎn)品能力等因素評價，自動駕駛領(lǐng)域由Mobileye、Waymo、百度和Cruise領(lǐng)先?；诩軜?gòu)設(shè)計的模型思路對自動駕駛領(lǐng)域有很強的借鑒作用，比如ViT（Vision模型，它是一種基于CNN卷積神經(jīng)網(wǎng)絡(luò)的情況下進行圖像分類，在自動駕駛圖像識別中應(yīng)用；生成式AI技術(shù)有望進一步推動自動駕駛技術(shù)的快速發(fā)展，為未來的圖30：全球自動駕駛系統(tǒng)排名

圖31：VIT模型結(jié)構(gòu)與OpenAI達合作提升載助手智能程度智能語音助手：大模型下的語言訓練，可以通過微調(diào)進入汽車領(lǐng)域用于汽車語音識別系統(tǒng)，幫助駕駛員實現(xiàn)語音控制，如語音導航，電話，音樂等。之后從汽車客戶服務(wù)上來講，幫助提供快速，準確和個性化的客戶服務(wù)，從而提高客戶滿意度。通用汽車幾乎是國外第一家正式宣布引入ChatGPT的車企，其正在與OpenAI合作開發(fā)一個基于支持ChatGPT的相同機器學習模型的車內(nèi)數(shù)字助理，以幫助客戶幫助車主獲取車輛使用的相關(guān)信息，比如車主可以使用自然語言詢問如何處理某種情況，例如如果用戶輪胎被刺破了如何更換輪胎；儀表盤跳出某個指示燈建議駕駛員采取什么行動等等。圖32：通用汽車或?qū)崿F(xiàn)車載GPT數(shù)字助理【媒體】Buzzfeed（BZFD.O）：率先落地AI，互動更加個性化根據(jù)CBS消息，美國知名媒體BuzzFeed宣布與OpenAI合作，將從“Quizzes”欄目入手，引入生成式AI進行內(nèi)容創(chuàng)作。該欄目

人人文庫> 全部分類> 應(yīng)用文書 > 辦公表格

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

2023從算力算法數(shù)據(jù)及應(yīng)用看AIGC

文檔簡介

溫馨提示

最新文檔

評論

2023從算力算法數(shù)據(jù)及應(yīng)用看AIGC

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔