




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
2023GlobalGenerativeAI參編單位:天津市人工智能學(xué)會(huì)2023年5月生成式AI作為當(dāng)前人工智能的前沿領(lǐng)域,成為全球最熱的科技話題。2022年OpenAI生成式AI作為當(dāng)前人工智能的前沿領(lǐng)域,成為全球最熱的科技話題。2022年OpenAI發(fā)布ChatGPT,生成式AI在模型應(yīng)用層面實(shí)現(xiàn)重要突破,僅兩個(gè)月突破1億月度活躍用戶數(shù),成為史上用戶增長(zhǎng)速度最快的消費(fèi)級(jí)應(yīng)用。全球多家科技企業(yè)加大在生成式AI領(lǐng)域的研發(fā)投入力度,不斷在技術(shù)、產(chǎn)品及應(yīng)用等方面推出重要成果,持續(xù)推動(dòng)人工智能的創(chuàng)新與商業(yè)化落地進(jìn)在此背景下,在中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)、中國(guó)軟件行業(yè)協(xié)會(huì)指導(dǎo)下,天津市人工智能學(xué)會(huì)、至頂科技、至頂智庫聯(lián)合發(fā)布《2023年全球生成式AI產(chǎn)業(yè)研究報(bào)告》,該報(bào)告從全球視角出發(fā),對(duì)生成式AI的產(chǎn)業(yè)概況、基礎(chǔ)設(shè)施、算法模型、場(chǎng)景應(yīng)用、機(jī)遇挑戰(zhàn)等方面進(jìn)行梳理,全面展現(xiàn)生成式AI的產(chǎn)業(yè)發(fā)展情況,為政府?2023.5ZDInsights2王蘊(yùn)韜王蘊(yùn)韜楊巨成?2023.5ZDInsights作為近兩年人工智能領(lǐng)域的發(fā)展熱點(diǎn),生成式AI引發(fā)社會(huì)廣泛關(guān)注。未來,AIGC有關(guān)的內(nèi)容生產(chǎn)工具將極大改變?nèi)藗兊墓ぷ魃罘绞剑矊砩鐣?huì)生產(chǎn)力的全面提升。在新技術(shù)新應(yīng)用快速發(fā)展的同時(shí),也需關(guān)注由此帶來的就業(yè)、知識(shí)產(chǎn)權(quán)等問題,促進(jìn)產(chǎn)業(yè)健康持續(xù)發(fā)展。人工智能的發(fā)展正在進(jìn)入新的歷史時(shí)期,生成式AI的未來充滿著無限的可能性。ChatGPT的問世無疑是近年來人工智能領(lǐng)域最重要的技術(shù)突破之一。因此,我們必要全面了解人工智能技術(shù)的現(xiàn)狀與趨勢(shì),探討生成式AI的機(jī)遇和挑戰(zhàn),更好地迎接智能時(shí)代的到來。生成式AI作為全新的內(nèi)容生產(chǎn)工具,必將改變?nèi)祟惖纳罘绞?。隨著技術(shù)不斷進(jìn)步和算法不斷優(yōu)化,未來生成式AI有望在辦公、消費(fèi)、文娛等各場(chǎng)景得到廣泛應(yīng)用,并在不同場(chǎng)景中降低創(chuàng)作者門檻,大幅提升內(nèi)容生產(chǎn)效率。伴隨人工智能大模型的不斷發(fā)展,生成式AI成為一個(gè)備受關(guān)注的前沿領(lǐng)域,將大概率改變?nèi)祟惻c世界的互動(dòng)方式。從程序設(shè)計(jì)到藝術(shù)創(chuàng)作,該技術(shù)正在為各行各業(yè)帶來可能,有望持續(xù)推動(dòng)社會(huì)的發(fā)展和人類文明的進(jìn)步。3語言作為人類溝通交流的主要方式,其發(fā)展歷程分為三大階段。語言1.0時(shí)代:從人類語言誕生到公元前16世紀(jì)殷商時(shí)期甲骨文的出現(xiàn),文字成為人類交流的重要方式;語言2.0時(shí)代:從公元105年蔡倫發(fā)明造紙術(shù)到1946年世界第一臺(tái)電子計(jì)算機(jī)誕生,語言開始通過各類機(jī)器實(shí)現(xiàn)傳播;語言3.0時(shí)代:伴隨互聯(lián)網(wǎng)出現(xiàn),人工智能NLP及生成式AI等技術(shù)的快速發(fā)展與相關(guān)應(yīng)用落地,使得機(jī)器生成和創(chuàng)造語言的方式成為了可能。語言1.0時(shí)代語言1.0時(shí)代公元前16世紀(jì):殷商時(shí)期中國(guó)人創(chuàng)造甲骨文。公元前2900年:古埃及人開始使用象形文字進(jìn)行書寫。公元前3200-2600年:楔形文字經(jīng)歷誕生到持續(xù)使用。新石器時(shí)代中期以后:中國(guó)出現(xiàn)象形文字。語言2.0時(shí)代語言2.0時(shí)代第一臺(tái)電子計(jì)算機(jī)在美國(guó)誕生。貝爾發(fā)明第一部電話。美國(guó)人摩爾斯和兩個(gè)英國(guó)工程師庫克、懷斯頓同時(shí)發(fā)明電報(bào)。公元1041-1048年間:畢昇發(fā)明活字印刷術(shù),為現(xiàn)代印刷術(shù)和印刷機(jī)的發(fā)展奠定基本原理。語言3.0時(shí)代語言3.0時(shí)代OpenAI發(fā)布ChatGPTOpenAI發(fā)布ChatGPT,成為生成式AI的里程碑事件。僅用2個(gè)月時(shí)間月活用戶已突破1億,成為史上增長(zhǎng)最快消費(fèi)者應(yīng)用。Transformer架構(gòu)提出,其在簡(jiǎn)單語言問答和語言建模任務(wù)上有較好表現(xiàn)。統(tǒng),該系統(tǒng)能夠理解自然語言中的問題,然后使用人工智能根據(jù)維基百科提供的信息給出答案。公元前10萬年:人類原始語言誕生,正式語言約產(chǎn)生于公元前4萬年。公元105年:漢朝蔡倫發(fā)明造紙術(shù)。艾倫·圖靈提出圖靈測(cè)試,標(biāo)志著人工智能領(lǐng)域的開端?;ヂ?lián)網(wǎng)出現(xiàn),隨著互聯(lián)網(wǎng)商業(yè)化和全球普及,為更大規(guī)模語言語料數(shù)據(jù)獲取及傳輸提供網(wǎng)絡(luò)支撐。第一個(gè)神經(jīng)語言模型,前饋神經(jīng)網(wǎng)絡(luò)由Bengio等人提出。5 資料來源:至頂智庫結(jié)合公開資料整理繪制。5?2023.5ZDI生成式人工智能(GenerativeAI)是在專業(yè)生成內(nèi)容(PGC)、用戶生成內(nèi)容(UGC)之后,利用人工智能技術(shù)自動(dòng)生成內(nèi)容的新型生產(chǎn)方式。生成發(fā)生成式AI熱潮,諸多科技類企業(yè)紛紛推出生成式AI模型、產(chǎn)品和相關(guān)底層基礎(chǔ)設(shè)施及服務(wù)。PGCPGC:專家創(chuàng)作時(shí)代UGC:用戶創(chuàng)作時(shí)代AIGC:生成式人工智能時(shí)代20世紀(jì)90年代,基于“信息經(jīng)濟(jì)”的商業(yè)模式出現(xiàn),互聯(lián)網(wǎng)技術(shù)提供商提供技術(shù)服務(wù),且從生產(chǎn)與組織21世紀(jì)初,伴隨微信、微博、抖音、快手等眾多社交媒體的出現(xiàn),用戶也可以真正參與到內(nèi)容的創(chuàng)作之中,用戶利用圖文、短視頻等多種2017年,Transformer架構(gòu)提出,其在簡(jiǎn)單語言問答和語言建模任務(wù)上有較好表現(xiàn)。2022年8月,美國(guó)科羅拉多州博覽會(huì),數(shù)字藝術(shù)類冠軍頒發(fā)給由AI自動(dòng)生成的畫作《太空歌劇院》。ChatGPT,成為生成式AI的里ChatGPT月活用戶已突破1億,成為史上增長(zhǎng)最快的消費(fèi)者應(yīng)用。動(dòng)國(guó)內(nèi)生成式AI產(chǎn)品快將生成式AI與辦公軟件緊密結(jié)用于定制大語言模型和生成速發(fā)展與落地。合,成為新的生產(chǎn)力工具。式AI。7 資料來源:至頂智庫結(jié)合公開資料整理繪制。7?2023.5ZDIGoogleGoogle提出Transformer架構(gòu),其在簡(jiǎn)單語言問答和語言建模任務(wù)上有較好表現(xiàn)。GoogleGoogleGoogle提出Transformer架構(gòu),其在簡(jiǎn)單語言問答和語言建模任務(wù)上有較好表現(xiàn)。GoogleGoogle提出LaMDA模型,作為語言處理領(lǐng)域一項(xiàng)新的研究突破。LaMDA是一個(gè)面向?qū)υ挼纳窠?jīng)網(wǎng)絡(luò)架構(gòu),可以就無休止的主題進(jìn)行自由對(duì)話,克服了傳統(tǒng)聊天機(jī)器人的局限性。OGoogleOpenAI推出GPT-4,其具備圖像理解多模態(tài)能力。Google推出PaLM-E,作為一種多模態(tài)VLM(視覺語言模型),不僅可以理解圖像,還能理解、生成語言,執(zhí)行各種復(fù)雜的機(jī)器人指令。近年全球數(shù)據(jù)規(guī)模持續(xù)增長(zhǎng),IDC預(yù)計(jì)到2025年全球數(shù)據(jù)規(guī)模將達(dá)到175ZB,為人工智能模型訓(xùn)練提供海量數(shù)據(jù)資源;高性能AI芯片的推出為大規(guī)模預(yù)訓(xùn)練模型提供重要算力支撐;伴隨技術(shù)的不斷發(fā)展,Transformer、BERT、LaMDA、ChatGPT等模型實(shí)現(xiàn)快速迭代優(yōu)化。在數(shù)據(jù)、算力和模型的共同推動(dòng)下,全球生成式AI產(chǎn)業(yè)得以迅速發(fā)展,相關(guān)場(chǎng)景應(yīng)用也不斷豐富。Google基于Transformer架構(gòu)推出大規(guī)模預(yù)訓(xùn)練模型BERT,其包含預(yù)訓(xùn)練和模型微調(diào)部分,查詢準(zhǔn)確率進(jìn)一步提升。Google基于Transformer架構(gòu)推出大規(guī)模預(yù)訓(xùn)練模型BERT,其包含預(yù)訓(xùn)練和模型微調(diào)部分,查詢準(zhǔn)確率進(jìn)一步提升。數(shù)據(jù)來源:IDC數(shù)據(jù)來源:IDC,至頂智庫OpenAI推出ChatGPT,通過理解和學(xué)習(xí)人類的語言來進(jìn)行對(duì)話,還能根據(jù)聊天的上下文進(jìn)行互動(dòng),真正像人類一樣來聊天交流。OpenAI推出DALL·E2,不僅能通過文字描述創(chuàng)建特定風(fēng)格的圖像與藝術(shù),還可以根據(jù)語言對(duì)現(xiàn)有的圖像進(jìn)行編輯,使之更加逼真。信息來源:ComputeTrendsAcrossThreeErasofMachine資料來源:至頂智庫結(jié)合公開資料整理繪制。8Learning,至頂智庫結(jié)合公開資料整理繪制資料來源:至頂智庫結(jié)合公開資料整理繪制。8?2023.5ZDI在中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)、中國(guó)軟件行業(yè)協(xié)會(huì)指導(dǎo)下,天津市人工智能學(xué)會(huì)、至頂科技、至頂智庫聯(lián)合發(fā)布2023年全球生成式AI產(chǎn)業(yè)圖譜。圖譜主要分為基礎(chǔ)設(shè)施層(AI芯片、AI計(jì)算集群、AI云服務(wù));算法模型層(生成式AI大模型);場(chǎng)景應(yīng)用層(文本生成、圖像生成、音頻生成、視頻生成、數(shù)字人)。圖譜中涉及各領(lǐng)域全球代表性企業(yè)和相關(guān)機(jī)構(gòu),同時(shí)將其代表性產(chǎn)品或解決方案作相應(yīng)展示,為讀者提供更為詳實(shí)的參考信息。高清大圖請(qǐng)掃描下方二維碼獲取。?2023.5ZDI9目前,生成式AI尚未建立成熟的變現(xiàn)方式,大部分產(chǎn)品仍處于免費(fèi)試用“流量吸引+平臺(tái)改良”階段。從全球情況來看,生成式AI的主流營(yíng)收模式有如下幾類:作為底層平臺(tái)收費(fèi)、按產(chǎn)出內(nèi)容收費(fèi)、軟件訂閱服務(wù)收費(fèi)、模型訓(xùn)練收費(fèi)、具體屬性收費(fèi)。其中最具長(zhǎng)期增長(zhǎng)潛力,并將軟件訂閱服務(wù)收費(fèi)向用戶提供軟件使用權(quán),用戶需要按月或其他頻次支付費(fèi)用。按產(chǎn)出內(nèi)容收費(fèi)按產(chǎn)出內(nèi)容量收費(fèi)如圖片張數(shù)、請(qǐng)求計(jì)算量等,適用于應(yīng)用層作為底層平臺(tái)收費(fèi)作為底層平臺(tái)接入其他產(chǎn)品對(duì)外開放,按照數(shù)據(jù)請(qǐng)求量和實(shí)際算量計(jì)算。模型訓(xùn)練收費(fèi)包括模型定制開發(fā),適用于NPC訓(xùn)練等個(gè)性化定制需求較強(qiáng)的具體屬性收費(fèi)例如版權(quán)授予、是否支持商業(yè)用途(個(gè)人、企業(yè)、品牌使用等)、透明框架和分辨率等。資料來源:至頂智庫結(jié)合公開資料整理繪制。?2023.5ZD?2023.5ZDInsights2019年以來,全球知名投資機(jī)構(gòu)如2019年以來,全球知名投資機(jī)構(gòu)如SequoiaCapital紅杉資本、InsightPartners、CoatueManagement、創(chuàng)新工場(chǎng)、高瓴投資、啟明創(chuàng)投等在生成式AI領(lǐng)域皆有所布局。從相關(guān)被投企業(yè)來看,美英生成式AI企業(yè)側(cè)重在場(chǎng)景應(yīng)用領(lǐng)域,中國(guó)生成式AI企業(yè)側(cè)重在大模型領(lǐng)域,被投企業(yè)如OpenAI、StabilityAI、Jasper.ai、小冰公司、智譜AI、瀾舟科技、毫末智行等。投資機(jī)構(gòu)被投企業(yè)被投企業(yè)所在地被投企業(yè)所屬細(xì)分領(lǐng)域“博文”大模型 資料來源:IT桔子,至頂智庫結(jié)合公開資料整理繪制。11?2023.5ZDI訓(xùn)練算力(FLOPs)1111111111111111111111111..人工智能的發(fā)展從深度學(xué)習(xí)時(shí)代進(jìn)入到大模型時(shí)代,大規(guī)模預(yù)訓(xùn)練模型的參數(shù)量呈現(xiàn)指數(shù)級(jí)上升,需要高性能算力的支撐。目前,大規(guī)模預(yù)訓(xùn)練模型訓(xùn)練算力是以往的10到100倍,當(dāng)前主流生成式AI模型的訓(xùn)練廣泛使用到英偉達(dá)TensorCoreGPU芯片,如微軟斥資數(shù)億美元購買數(shù)萬顆英偉達(dá)A100芯片以幫助OpenAI打造ChatGPT。...............................A10040A10040GBA10080GB..對(duì)于AI.對(duì)于AI超大模型訓(xùn)練,英偉達(dá)A10080GB為每個(gè)節(jié)點(diǎn)提供高達(dá)1.3TB統(tǒng)一顯存,吞吐量比A10040GB多高達(dá)3倍。微軟斥資數(shù)億美元購買數(shù)萬顆英偉達(dá)A100芯片,以幫助OpenAI打造ChatGPT。結(jié)合OpenAI訓(xùn)練集群情況,GPT-3模型需要英偉達(dá)A100GPU數(shù)量約3000-5000張,算力需求巨大。...... 信息來源:ComputeTrendsAcrossThreeErasofMachineLearning,NVIDIA,至頂智庫結(jié)合公開資料整理繪制。13?2023.5ZDI AI計(jì)算集群能夠提供大規(guī)模算力、持續(xù)提高算力資源利用率、提升數(shù)據(jù)存儲(chǔ)和處理能力,加速AI大模型訓(xùn)練和推理效率。當(dāng)前較為典型的AI計(jì)算集群如英偉達(dá)DGXSuperPOD、百度智能云高性能計(jì)算集群EHC、騰訊新一代高性能計(jì)算集群HCC等,相關(guān)算力基礎(chǔ)設(shè)施持續(xù)為生成式AI訓(xùn)練場(chǎng)景提供強(qiáng)大算力資源,進(jìn)一步降低模型訓(xùn)練門檻和成本,推動(dòng)生成式AI模型的落地進(jìn)程。DGXSuperPOD高性能計(jì)算集群EHC新一代高性能計(jì)算集群HCC 高性能計(jì)算集群EHC基于高性能RDMA網(wǎng)絡(luò),將多個(gè)裸金屬服務(wù)器進(jìn)行互聯(lián),提供高帶寬、低時(shí)延的通信能力,極大提升計(jì)算任務(wù)加速比的計(jì)算集群,適用于超大模型訓(xùn)練、科學(xué)計(jì)算等大規(guī)模計(jì)算場(chǎng)景。DGXSuperPOD采用模塊化設(shè)計(jì),支持不同規(guī)模大小的設(shè)計(jì)。一個(gè)標(biāo)準(zhǔn)SuperPOD由140臺(tái)DGXA100GPU服務(wù)器、HDRInfiniBand200G網(wǎng)卡和NVIDIAQuantumQM8790交換機(jī)構(gòu)建而成,針對(duì)超大語言模型預(yù)訓(xùn)練這一復(fù)雜場(chǎng)景,高性能計(jì)算集群EHC基于高性能RDMA網(wǎng)絡(luò),將多個(gè)裸金屬服務(wù)器進(jìn)行互聯(lián),提供高帶寬、低時(shí)延的通信能力,極大提升計(jì)算任務(wù)加速比的計(jì)算集群,適用于超大模型訓(xùn)練、科學(xué)計(jì)算等大規(guī)模計(jì)算場(chǎng)景。DGXSuperPOD采用模塊化設(shè)計(jì),支持不同規(guī)模大小的設(shè)計(jì)。一個(gè)標(biāo)準(zhǔn)SuperPOD由140臺(tái)DGXA100GPU服務(wù)器、HDRInfiniBand200G網(wǎng)卡和NVIDIAQuantumQM8790交換機(jī)構(gòu)建而成,針對(duì)超大語言模型預(yù)訓(xùn)練這一復(fù)雜場(chǎng)景,幫助AI研究人員快速搭建一套強(qiáng)大、靈活、高效的系統(tǒng)。 信息來源:NVIDIA,百度智能云、騰訊官方資料,至頂智庫結(jié)合公開資料整理繪制。14?2023.5ZDI人工智能預(yù)訓(xùn)練模型的開發(fā)對(duì)于云服務(wù)有較大需求,AI云服務(wù)可以提供人工智能開發(fā)模塊,通過多元化的服務(wù)模式,降低開發(fā)者的開發(fā)成本和產(chǎn)品開發(fā)周期,為模型開發(fā)提供AI賦能。典型案例如亞馬遜SageMaker,其可提供圖片/圖像分析、語音處理、自然語言理解等相關(guān)服務(wù),使用者無需了解參數(shù)和算法即可實(shí)現(xiàn)功能的應(yīng)用。百度飛槳EasyDL零門檻AI開發(fā)平臺(tái)提供圖像分類、物體檢測(cè)、文本分類、聲音分類和視頻分類等功能,實(shí)現(xiàn)一站式自動(dòng)化訓(xùn)練,降低AI定制開發(fā)門檻。亞馬遜SageMaker機(jī)器學(xué)習(xí)流程訓(xùn)練調(diào)整機(jī)訓(xùn)練調(diào)整機(jī)器學(xué)習(xí)模型構(gòu)建機(jī)器學(xué)習(xí)模型對(duì)于150+流行的開源模型和框架進(jìn)行優(yōu)化訪問數(shù)據(jù)準(zhǔn)備數(shù)據(jù)部署監(jiān)控結(jié)果創(chuàng)建端到端的機(jī)器學(xué)習(xí)工作流以提高模型連接眾多數(shù)據(jù)源,傳輸數(shù)據(jù),探索元數(shù)據(jù)、模式并使用流行語言編 數(shù)據(jù)管理模型構(gòu)建 數(shù)據(jù)管理模型構(gòu)建模型部署與應(yīng)用信息來源:AWS,飛槳(PaddlePaddle)官網(wǎng),至頂智庫結(jié)合公開資料整理繪制。?2023.5ZDI文心一言GoogleTransformer日日新SenseNova大模型體系紫東太初混元AI大模型備注:本頁僅列舉典型生成式AI模型。信息來源:至頂智庫結(jié)合公開資料整理繪制。MOSS文心一言GoogleTransformer日日新SenseNova大模型體系紫東太初混元AI大模型備注:本頁僅列舉典型生成式AI模型。信息來源:至頂智庫結(jié)合公開資料整理繪制。MOSS2023年2020年LaMDAPaLM-ELLaMAERNIE3.0TitanERNIE3.0ZeusERNIE-ViLG2.0ChatGPTDALL·E2Google2017年2019年2018年GoogleOMetaERNIE3.02021年GoogleBERTERNIE1.0ERNIE2.0?2023.5ZDI2018年2023年2019年2020年ChatGPTGPT-1GPT-4上與GPT-1基本相同,但取消GPT-1模型中有監(jiān)督微2018年2023年2019年2020年ChatGPTGPT-1GPT-4上與GPT-1基本相同,但取消GPT-1模型中有監(jiān)督微調(diào)階段,將歸一化層移到輸入位置,在自注意力之后增加一層歸GPT-2增加prompt文本提示,采用更大的參數(shù)和多任務(wù)學(xué)習(xí)進(jìn)行預(yù)訓(xùn)練,并使用更大的訓(xùn)練集嘗試zero-shot學(xué)習(xí)。提高模型面對(duì)未知任務(wù)的推理能力和泛化能力。采用RLHF(人類反饋強(qiáng)化學(xué)習(xí))技術(shù)對(duì)ChatGPT進(jìn)行訓(xùn)練,加入更多人工監(jiān)督進(jìn)行微調(diào)。ChatGPT模型訓(xùn)練分GPT-4作為多模態(tài)模型,支持圖文信息作為輸入并生成說明、分類和分析,在視覺及視覺-文字語義融合方面涌現(xiàn)更多能力。其在多個(gè)基準(zhǔn)任務(wù)上取得優(yōu)異成績(jī),包括圖像字信息來源:至頂智庫結(jié)合文獻(xiàn)及公開資料整理繪制。2018年以來,OpenAI先后發(fā)布GPT-1、GPT-2、GPT-3、ChatGPT、GPT-4等一系列生成式預(yù)訓(xùn)練模型。GPT-1模型基于Transformer架構(gòu),僅保留架構(gòu)中解碼器部分;GPT-2模型取消GPT-1中的有監(jiān)督微調(diào)階段;GPT-3模型舍棄GPT-2的zero-shot,采用few-shot對(duì)于特定任務(wù)給予少量樣例;ChatGPT通過采用RLHF(人類反饋強(qiáng)化學(xué)習(xí))技術(shù),增強(qiáng)對(duì)模型輸出結(jié)果的調(diào)節(jié)能力;2023年發(fā)布的GPT-4模型擁有更為強(qiáng)大的多模態(tài)能力,其支持圖文多模態(tài)輸入并生成應(yīng)答文字,可實(shí)現(xiàn)對(duì)視覺元素的分類、分析和隱含語義提取,表現(xiàn)出優(yōu)秀的應(yīng)答能力。GPT-2GPT-2GPTGPT-1模型訓(xùn)練包含“預(yù)訓(xùn)練+微調(diào)”兩個(gè)階量無標(biāo)注的語料預(yù)訓(xùn)練語言模型;2)對(duì)預(yù)訓(xùn)練好的語言模型進(jìn)行微調(diào),將其遷移到各種有監(jiān)督的NLP任務(wù)。GPT-1通過無監(jiān)督訓(xùn)練解決需要大量高質(zhì)量標(biāo)注數(shù)據(jù)和通過大量語料訓(xùn)練解決訓(xùn)練任務(wù)的泛化問題。?2023.5ZDI2017年,Google發(fā)布具有標(biāo)志性意義的Transformer模型,該模型的解碼模塊成為GPT模型的核心要素,通過引入注意力機(jī)制,可實(shí)現(xiàn)更大規(guī)模的并行計(jì)算,明顯減少模型的訓(xùn)練時(shí)間,使得大規(guī)模AI模型得以應(yīng)用。BERT模型、LaMDA模型在信息提取能力以及安全性等方面不斷提升。最新推出的PaLM-E模型具有很強(qiáng)的泛化和遷移能力,在完成視覺語言和通用語言任務(wù)的同時(shí),可處理多模態(tài)數(shù)據(jù)(語言、視覺、觸覺等),實(shí)現(xiàn)指導(dǎo)機(jī)器人完成相應(yīng)任務(wù)的功能。TransformerTransformerTransformer模型最早在2017年由Google提出,特點(diǎn)是引入注意力機(jī)制,可實(shí)現(xiàn)更大規(guī)模的并行計(jì)算,明顯減少模型的訓(xùn)練時(shí)間,使得大規(guī)模AI模型得以應(yīng)用。BERTBERTBERT模型是一個(gè)面向自然語言處理任務(wù)的無監(jiān)督預(yù)訓(xùn)練語言模型,通過大量無標(biāo)記數(shù)據(jù)集中訓(xùn)練,顯著提高各項(xiàng)自然語言處理任務(wù)的準(zhǔn)確率。在對(duì)輸入文本的編碼過程中,利用每個(gè)詞的所有上下文信息,語義信息提取能力增強(qiáng)。LaMDALaMDALaMDA模型使用多達(dá)137B個(gè)參數(shù)以及用1.56T單詞數(shù)據(jù)集進(jìn)行訓(xùn)練,LaMDA使用單一模型實(shí)現(xiàn)多任務(wù)處理,展示接近人類水平的對(duì)話質(zhì)量,在安全性和事實(shí)基礎(chǔ)方面具有顯著改進(jìn)。2023年,Google推出PaLM-E模型,通過將多模態(tài)信息編碼轉(zhuǎn)換為語言相似的形式嵌入模型,實(shí)現(xiàn)多模態(tài)聯(lián)合訓(xùn)練。PaLM-E具有很強(qiáng)的泛化和遷移能力,能完成機(jī)器人具身推理任務(wù)。信息來源:至頂智庫結(jié)合文獻(xiàn)及公開資料整理繪制。 ?2023.5ZDIDiffusionModel相關(guān)研究可追溯到2015年,去噪擴(kuò)散概率模型(DenoisingDiffusionProbabilisticModel,DDPM)在2020年被提出,展示擴(kuò)散模型的強(qiáng)大能力,帶動(dòng)擴(kuò)散模型的發(fā)展。模型主要包括兩個(gè)過程:前向過程和反向過程,其中前向過程又稱為擴(kuò)散過程,擴(kuò)散模型通過給圖像增加高斯噪聲破壞訓(xùn)練數(shù)據(jù)來學(xué)習(xí),找出逆轉(zhuǎn)噪聲過程的方法,利用學(xué)習(xí)的去噪聲方法實(shí)現(xiàn)從隨機(jī)輸入中合成新的圖像。Diffusion模型的優(yōu)勢(shì)在于生成的圖像質(zhì)量更高,不需要通過對(duì)抗性訓(xùn)練,在所需數(shù)據(jù)更少條件下,該模型圖像生成效果有明顯提升。去噪擴(kuò)散概率模型(DDPM,DenoisingDiffusion一個(gè)固定的(預(yù)先定義好的)前向擴(kuò)散過程:逐步向圖片增加噪聲直到最終得到一張純粹的噪聲圖;一個(gè)學(xué)習(xí)得到的去噪過程:訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)去逐漸的從一張純?cè)肼曋邢肼?,直到得到一張真正的圖片。模型在潛在空間中進(jìn)行擴(kuò)散處理,降低訓(xùn)練成本并提高推理速度;通過自動(dòng)編碼器去除像素級(jí)冗余,對(duì)感知壓縮和語義壓縮進(jìn)行松散分解,然后對(duì)學(xué)習(xí)的潛在知識(shí)進(jìn)行擴(kuò)散來生成語義概念。通過使用自動(dòng)編碼模型,學(xué)習(xí)空間在感知上與圖像空間等效,顯著降低計(jì)算復(fù)雜度。 信息來源:至頂智庫結(jié)合文獻(xiàn)及公開資料整理繪制。?2023.5ZDI202222MidjourneyMidjourney音頻生成lMicrosoftGooglecopy.ai8xmind文本生成OMetainvideo數(shù)字人數(shù)字人synthesia信息來源:至頂智庫結(jié)合公開資料整理繪制。?2023.5ZDI通過隨機(jī)Mask數(shù)據(jù)庫文本中的語段,讓神經(jīng)網(wǎng)絡(luò)自主學(xué)習(xí)復(fù)原被遮擋部分,產(chǎn)出預(yù)訓(xùn)練模型,再通過大規(guī)模預(yù)訓(xùn)練模型理解上文或給定條件,從概率層面推測(cè)最Microsoft通過隨機(jī)Mask數(shù)據(jù)庫文本中的語段,讓神經(jīng)網(wǎng)絡(luò)自主學(xué)習(xí)復(fù)原被遮擋部分,產(chǎn)出預(yù)訓(xùn)練模型,再通過大規(guī)模預(yù)訓(xùn)練模型理解上文或給定條件,從概率層面推測(cè)最Microsoft365Copilot起寫作、編輯、總結(jié)和創(chuàng)作。CopilotinPowerPoint能夠在創(chuàng)作過程中,通過自然語言命令將想法轉(zhuǎn)化為設(shè)計(jì)好的演示文稿。CopilotinExcel幫助用戶釋放洞察、識(shí)別趨勢(shì),或在短時(shí)間內(nèi)創(chuàng)建專業(yè)的數(shù)據(jù)可視化。文本風(fēng)格遷移隱式方法通過使用某類無監(jiān)督學(xué)習(xí)或強(qiáng)化學(xué)習(xí)模式將文本屬性及內(nèi)容自動(dòng)分離,常見的有生成對(duì)抗方式。顯式方法首先尋找并刪除代表文風(fēng)的短語,其次檢索與目標(biāo)文風(fēng)最匹配的相似短語,最后生成目標(biāo)語句整段文本題生成8xmindGhostwriter為思維導(dǎo)圖的每個(gè)主題生成文字段落,“標(biāo)記成組”功能將多個(gè)主題的內(nèi)容合并成完整的段落,靈活控制文章內(nèi)容生成。通過詞嵌入將字、詞、句進(jìn)行區(qū)分;然后基于特征評(píng)分、序列標(biāo)注等提取內(nèi)容特征計(jì)算相關(guān)文本單元權(quán)重;再選擇相應(yīng)的文本單元子集組成摘要候選集,完成內(nèi)容選擇;最后針對(duì)字?jǐn)?shù)要求等限通過注意力機(jī)制、多層感知器等系統(tǒng)進(jìn)行語句內(nèi)容預(yù)選,對(duì)數(shù)值、時(shí)間等類型數(shù)據(jù)進(jìn)行推理,增強(qiáng)數(shù)據(jù)間的結(jié)構(gòu)信息;再結(jié)合上下文進(jìn)行推導(dǎo),控制句法及文本連貫,將語義與句法統(tǒng)一分析;最后采用Seq2Seq等模式,文本生成應(yīng)用主要在四個(gè)領(lǐng)域:內(nèi)容續(xù)寫、文本風(fēng)格遷移、摘要/標(biāo)題生成及整段文本生成,與其相關(guān)的個(gè)性化文本生成及實(shí)時(shí)文本交互前景廣闊??傮w來看,基于NLP技術(shù)的文本生成是生成式AI中發(fā)展較早的應(yīng)用,全球知名科技企業(yè)先后推出文本生成類應(yīng)用工具,如Microsoft、Xmind等相關(guān)產(chǎn)品在文案寫作、數(shù)據(jù)分析、演示文稿、思維導(dǎo)圖等方面均有相關(guān)應(yīng)用案例。-Microsoft 資料來源:Microsoft、Xmind官方網(wǎng)站及公眾號(hào),至頂智庫結(jié)合公開資料整理繪制。23?2023.5ZDI端到端的圖像生成圖像局部生成及更改創(chuàng)意圖像生成、功能性圖像生成端到端的圖像生成圖像局部生成及更改創(chuàng)意圖像生成、功能性圖像生成圖像生成的技術(shù)場(chǎng)景劃分為圖像屬性編輯、圖像局部生成及更改、端到端的圖像生成。其中,前兩者落地場(chǎng)景為圖像編輯工具,端到端的圖像生形式呈現(xiàn),功能性圖像大多以營(yíng)銷類海報(bào)/界面、LOGO、模特圖、用戶頭像為主。圖像生成領(lǐng)域的技術(shù)場(chǎng)景圖像生成領(lǐng)域的技術(shù)場(chǎng)景可直觀理解為經(jīng)AI降低門檻的photoshop,可方便達(dá)到圖片去水印、自動(dòng)調(diào)整光影等目的。更改圖像部分構(gòu)成、修改面部特征等。基于草圖生成完整圖像、有機(jī)組合多張圖像生成新圖像、根據(jù)指定屬性生成目標(biāo)圖像等。圖像生成領(lǐng)域的落地場(chǎng)景圖像生成領(lǐng)域的落地場(chǎng)景AdobeFireflyFirefly具備豐富的圖像編輯制作功能,可實(shí)現(xiàn)對(duì)圖像的修復(fù)如添加、替換和刪除等,還可根據(jù)文本描述生成可編輯的矢量或圖像等,或根據(jù)文本提示修改樣式或紋理。StabilityAIDreamStudioDreamStudioDreamStudio具備獨(dú)有的穩(wěn)定擴(kuò)散模型及便捷的編輯器平臺(tái),提供強(qiáng)大的文本生成圖像、圖像生成圖像的功能,便于用戶創(chuàng)建獨(dú)特的設(shè)計(jì)。 資料來源:Adobe官方網(wǎng)站及公眾號(hào)、StabilityAI官方網(wǎng)站,至頂智庫結(jié)合公開資料整理繪制。24?2023.5ZDI平臺(tái)支持克隆任何語音,并生成動(dòng)態(tài)、可迭代且獨(dú)特的語音內(nèi)容,方便用戶創(chuàng)建高質(zhì)量的自定義人工智能語音,用于所需項(xiàng)目中。提供在線平臺(tái)支持克隆任何語音,并生成動(dòng)態(tài)、可迭代且獨(dú)特的語音內(nèi)容,方便用戶創(chuàng)建高質(zhì)量的自定義人工智能語音,用于所需項(xiàng)目中。提供在線AI音樂生成器,可讓用戶在幾秒鐘內(nèi)創(chuàng)建自己的原創(chuàng)音樂,支持用戶將所創(chuàng)音樂在不同流媒體上公開發(fā)布?;叵仓焕艔膶?shí)驗(yàn)室邁向AI合成音、AI演播、智能新聞播報(bào)等更多應(yīng)用場(chǎng)景。喜馬拉雅智能語音實(shí)驗(yàn)室利用TTS技術(shù)合成出單田芳的AI合成音。創(chuàng)作音頻生成在日常生活中已較為常見,其應(yīng)用領(lǐng)域可進(jìn)一步區(qū)分為語音合成和音樂創(chuàng)作,語音合成包括文本生成特定語音(TTS)和語音克隆領(lǐng)域。編曲、錄制、混音等多個(gè)方向,創(chuàng)作過程主要依托Transformer模型。文本生成特定語音(文本生成特定語音(TTS):廣泛應(yīng)用于客服及硬件機(jī)器人、有聲讀物制作、語音播報(bào)等任務(wù);還可應(yīng)用于短視頻內(nèi)容配音及自動(dòng)生成配音。虛擬歌手演唱、自動(dòng)化配音等,在聲音IP化的基礎(chǔ)上,對(duì)動(dòng)畫、電影以及虛擬人行業(yè)具有重要意義。語音合成樂曲/歌曲生成:樂曲/歌曲生成:AI作曲可理解為“以語言模型為中介,對(duì)音樂數(shù)據(jù)進(jìn)行雙向轉(zhuǎn)化”。目前已支持基于開頭旋律、圖片、文字描述、音樂類型、情緒類型等生成特定樂曲。 資料來源:ResembleAI、Boomy、喜馬拉雅官方網(wǎng)站,至頂智庫結(jié)合公開資料整理繪制。25?2023.5ZDI涉及視頻畫質(zhì)修復(fù)、刪除畫面中特定主體、自動(dòng)跟蹤主題剪輯、生成視頻特效、自動(dòng)添加特定內(nèi)容、視頻自動(dòng)美顏等。ImagenVideo能根據(jù)文字描述生成1280*768分辨率、每秒24幀、涉及視頻畫質(zhì)修復(fù)、刪除畫面中特定主體、自動(dòng)跟蹤主題剪輯、生成視頻特效、自動(dòng)添加特定內(nèi)容、視頻自動(dòng)美顏等。ImagenVideo能根據(jù)文字描述生成1280*768分辨率、每秒24幀、長(zhǎng)128幀的視頻片段,但其生成的視頻仍有部分扭曲和抖動(dòng)。影譜科技基于視頻中多模態(tài)信息的特征融合進(jìn)行學(xué)習(xí),按照氛圍、情緒等高級(jí)語義限定,對(duì)滿足條件的片影譜科技自主研發(fā)的模型具有豐富的視覺物料庫、精準(zhǔn)的特征提取能力等,已實(shí)現(xiàn)與商業(yè)、科教、文娛等領(lǐng)域的融合。本質(zhì)是基于目標(biāo)圖像或視頻對(duì)源視頻進(jìn)行編輯及調(diào)試,通過逐幀復(fù)刻,實(shí)現(xiàn)人臉替換、人臉再現(xiàn)、人臉合成甚至全身合成、虛擬環(huán)境合成等功能。剪映具有AI智能字幕、曲線變速、智能摳像、文本閱讀等功能,支持PC端、移動(dòng)端、網(wǎng)頁版多種環(huán)視頻生成有望成為未來跨模態(tài)生成領(lǐng)域的中高潛力場(chǎng)景。視頻生成主要對(duì)應(yīng)三個(gè)領(lǐng)域:視頻屬性編輯、視頻自動(dòng)剪輯、視頻部分生成。視頻屬性編輯已廣泛應(yīng)用于視頻創(chuàng)作領(lǐng)域,大幅提升視頻剪輯效率;視頻自動(dòng)剪輯主要在技術(shù)嘗試階段;視頻部分生成的原理本質(zhì)與圖像生成類似,強(qiáng)調(diào)將視頻切割成幀,再對(duì)每一幀的圖像進(jìn)行處理,現(xiàn)階段的技術(shù)在于提升修改精準(zhǔn)度與修改實(shí)時(shí)性兩方面。 資料來源:Google、剪映官網(wǎng),影譜科技官方網(wǎng)站及公眾號(hào),至頂智庫結(jié)合公開資料整理繪制。26?2023.5ZDI數(shù)字人指存在于非物理世界(如圖片、視頻、直播、VR)中,并具有多重人類特征的綜合。數(shù)字人代表著從文本/音頻等低密度模態(tài)向圖像/視頻/實(shí)時(shí)交互等信息密度更高模態(tài)的轉(zhuǎn)化,未來視頻乃至元宇宙領(lǐng)域都將是數(shù)字人的重要應(yīng)用場(chǎng)景。在生成式AI領(lǐng)域,數(shù)字人生成可劃分為數(shù)字人視頻生成和數(shù)字人實(shí)時(shí)互動(dòng),數(shù)字人視頻生成是目前應(yīng)用最廣泛的領(lǐng)域之一,而數(shù)字人實(shí)時(shí)互動(dòng)多應(yīng)用于可視化的智能客服,更強(qiáng)調(diào)實(shí)時(shí)交互功能。目前數(shù)字人應(yīng)用最廣泛的領(lǐng)域之一,通常在生成數(shù)字人的基礎(chǔ)上再生成其他內(nèi)容如摘要、圖示等,進(jìn)而交付更完整的生成式AI內(nèi)容播報(bào)產(chǎn)HourOne致力于專業(yè)視頻通信數(shù)字人的制作,公司的虛擬角色完全以真人為模型,通過文本描述能讓數(shù)字人傳達(dá)出人類般的表現(xiàn)力。圖中所示為虛擬新聞演播室和定可理解為以人為單位的數(shù)字孿生,進(jìn)一步涉及思維及策略相關(guān)的生成。廣泛應(yīng)用于可視化的智能客服,多見于數(shù)字員工“招小影”整產(chǎn)品線,支持創(chuàng)建擁有情感交互能力、專業(yè)技能和內(nèi)容生產(chǎn)能力的數(shù)字人,目前已被應(yīng)用于多種場(chǎng)景。圖為小冰公司與招商局集團(tuán)聯(lián)合研發(fā)的數(shù)字員工“招小影”。 資料來源:HourOne、小冰公司官方網(wǎng)站,至頂智庫結(jié)合公開資料整理繪制。27?2023.5ZDI輔助領(lǐng)域人工智能訓(xùn)練師:負(fù)責(zé)人工智能相關(guān)數(shù)據(jù)搜集、訓(xùn)練等,輔助領(lǐng)域人工智能訓(xùn)練師:負(fù)責(zé)人工智能相關(guān)數(shù)據(jù)搜集、訓(xùn)練等,幫助模型以更優(yōu)性能、更高效率運(yùn)行發(fā)展。數(shù)據(jù)安全專家:研究人工智能技術(shù)在企業(yè)和政府中應(yīng)用時(shí)的數(shù)據(jù)保護(hù)和安全性。人工智能倫理學(xué)家:研究人工智能技術(shù)的倫理和社會(huì)問題,確保其合法、公正、透明和人性化。機(jī)器學(xué)習(xí)工程師:負(fù)責(zé)開發(fā)、實(shí)現(xiàn)和維護(hù)機(jī)器學(xué)習(xí)算法和模型。自然語言處理工程師:開發(fā)、實(shí)現(xiàn)和維護(hù)自然語言處理技術(shù),如語音識(shí)別等。機(jī)器人工程師:設(shè)計(jì)、開發(fā)和維護(hù)各種類型的機(jī)器人,如工業(yè)機(jī)器人等。生成式AI對(duì)就業(yè)的影響挑戰(zhàn)與機(jī)遇并存。一方面,生成式AI將促進(jìn)崗位智能化升級(jí),部分工作崗位將被替代。據(jù)高盛分析,生成式AI的智能自動(dòng)化能力極大提升工作效率并降低運(yùn)營(yíng)成本,美國(guó)和歐洲的傳統(tǒng)職位都將受到不同程度的AI自動(dòng)化影響,生成式AI可以替代四分之一的工作崗位。另一方面,生成式AI也會(huì)創(chuàng)造新職業(yè):“問客”(PromptEngineer)讓人們能夠利用自然語言作為提示詞,通過與AI進(jìn)行交互,得到信息或創(chuàng)造作品。除此之外,圍繞人工智能的相關(guān)領(lǐng)域也將產(chǎn)生大量新的工作崗位。美國(guó)傳統(tǒng)職位受AI自動(dòng)化影響程度歐洲傳統(tǒng)職位受AI自動(dòng)化影響程度數(shù)據(jù)來源:GoldmanSachs:ThePotentiallyLargeEffectsofArtificialIntelligenceonEconomicGrowth圍繞人工智能領(lǐng)域誕生的新崗位應(yīng)用領(lǐng)域應(yīng)用領(lǐng)域問客(PromptEngineer
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 45129-2025增強(qiáng)紗線在水泥中強(qiáng)度的測(cè)定
- 水泥柱模具施工方案
- 樓盤樓面花架施工方案
- 石材外墻施工方案
- TSHLX 005-2024 太陽能電池邊框用鋁合金型材
- 二零二五年度美甲店?duì)I銷推廣合作框架協(xié)議
- 二零二五年度人力資源服務(wù)銷售提成與職業(yè)規(guī)劃合同
- 二零二五年度石油開采施工安全協(xié)議
- 二零二五年度重慶市文化創(chuàng)意產(chǎn)業(yè)園區(qū)租賃協(xié)議
- 二零二五年度農(nóng)機(jī)作業(yè)與農(nóng)業(yè)風(fēng)險(xiǎn)管理合作合同
- 2025年度共享辦公空間轉(zhuǎn)租合作協(xié)議
- 2025年公益項(xiàng)目合作協(xié)議
- 寵物運(yùn)輸合同樣本
- 2025山西云時(shí)代技術(shù)限公司校園招聘(101人)易考易錯(cuò)模擬試題(共500題)試卷后附參考答案
- 在優(yōu)化營(yíng)商環(huán)境工作座談會(huì)上的講話
- 四川省2024年高等職業(yè)教育單獨(dú)招生考試中職類語文試題及答案
- 歷年考研自動(dòng)化復(fù)試面試試題匯集
- 家具公司、店鋪管理運(yùn)營(yíng)手冊(cè)
- 全面優(yōu)化2025年春季《高等數(shù)學(xué)》教學(xué)2篇
- 2025-2030年中國(guó)鉛酸蓄電池行業(yè)市場(chǎng)需求分析與十三五規(guī)劃研究報(bào)告
- 2025年江蘇蘇州市常熟市交通公有資產(chǎn)經(jīng)營(yíng)有限公司招聘筆試參考題庫附帶答案詳解
評(píng)論
0/150
提交評(píng)論