人工智能技術(shù)導(dǎo)論 課件 05 自然語言處理與AIGC_第1頁
人工智能技術(shù)導(dǎo)論 課件 05 自然語言處理與AIGC_第2頁
人工智能技術(shù)導(dǎo)論 課件 05 自然語言處理與AIGC_第3頁
人工智能技術(shù)導(dǎo)論 課件 05 自然語言處理與AIGC_第4頁
人工智能技術(shù)導(dǎo)論 課件 05 自然語言處理與AIGC_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第五章

自然語言處理與AIGC本章目標了解自然語言處理的基本概念和典型應(yīng)用

了解AIGC的定義和關(guān)鍵技術(shù)熟悉AIGC的典型應(yīng)用熟悉國內(nèi)外主流AI大模型了解AIGC倫理與安全問題能使用提示詞工程技巧進行創(chuàng)作5.1自然語言處理簡介自然語言處理被譽為“人工智能技術(shù)皇冠上的明珠”,一方面表明了它的重要性,另一方面也顯現(xiàn)出了它的技術(shù)難度。自然語言處理就是讓計算機理解人類語言,并進行相應(yīng)的分析。我們所熟知的蘋果Siri、微軟小冰,就是自然語言處理的典型的應(yīng)用,他們不僅能夠理解我們所說的話,還能夠針對性地做出反饋。5.1.1自然語言處理定義

自然語言處理(NaturalLanguageProcessing,NLP)研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法,讓計算機能夠理解、處理和生成自然語言,使計算機具有類似人類的語言交互和文本理解能力。它是計算機科學、人工智能和語言學等學科交叉的前沿領(lǐng)域。NLP與前面章節(jié)學習的語音識別、語音合成都是人工智能中與語音相關(guān)的重要領(lǐng)域,目標都是讓計算機能夠理解并以與人類幾乎無異的方式生成語言。5.1.2自然語言處理發(fā)展

自然語言處理發(fā)展到現(xiàn)在,主要經(jīng)歷了三個階段:

第一階段是基于規(guī)則的方法,由于其過度依賴人力,發(fā)展緩慢。第二階段是基于統(tǒng)計的方法,放棄讓機器模仿人類智能的思路,這一階段在自然語言處理領(lǐng)域的很多任務(wù)上都有不小的突破。第三個階段則是基于深度學習的方法,受益于越來越強大的圖形處理器(GPU)的應(yīng)用以及互聯(lián)網(wǎng)數(shù)據(jù)的爆炸式增長,深度學習方法迅速席卷了自然語言處理領(lǐng)域,并持續(xù)高速發(fā)展。5.1.3自然語言處理基本任務(wù)

自然語言處理要解決的是人類和機器的溝通障礙,那它就需要達成兩個目標:其一,讓計算機聽得懂“人話”——即NLU自然語言理解,讓計算機具備人類的語言理解能力;其二,讓計算機能夠“講人話”——即NLG自然語言生成,讓計算機能夠生成人類理解的語言和文本,比如文章、報告、圖表等等。5.1.3自然語言處理基本任務(wù)把人類的文本拆解來看,可以理解為詞、句、關(guān)系的組合,要讓機器理解人類語言和文本,首先要讓機器對文本進行拆解分析。自然語言處理基本任務(wù)包括:1.詞法分析2.自動分詞3.文本組塊分析4.句法及語義結(jié)構(gòu)分析5.語義分析5.1.4自然語言處理流程邏輯與實現(xiàn)方法自然語言處理的流程邏輯通常包括以下幾個步驟:1.數(shù)據(jù)收集和預(yù)處理:獲取和清洗原始語言數(shù)據(jù),包括文本、語料庫或語音數(shù)據(jù);2.分詞和詞法分析:將原始文本數(shù)據(jù)轉(zhuǎn)換為適合模型輸入的格式,如分詞、去除停用詞、詞干提取等。3.特征提取:將文本轉(zhuǎn)換為計算機可以處理的向量形式,如詞向量表示、句子向量表示等。常用的特征提取方法包括詞袋模型、TF-IDF、詞嵌入等。4.模型訓(xùn)練:利用訓(xùn)練數(shù)據(jù)集,采用機器學習或深度學習方法訓(xùn)練自然語言處理模型。5.模型評估:使用驗證數(shù)據(jù)集評估模型的性能,如準確率、召回率、F1值等指標。6.模型應(yīng)用:將訓(xùn)練好的模型應(yīng)用于實際問題,如文本分類、情感分析、機器翻譯等任務(wù)。5.1.4自然語言處理流程邏輯與實現(xiàn)方法

在實現(xiàn)自然語言處理時,首先需要考慮數(shù)據(jù)集的選擇和預(yù)處理。數(shù)據(jù)集的選擇和質(zhì)量對于自然語言處理的效果有著很大的影響,因此需要選擇合適的數(shù)據(jù)集,并進行數(shù)據(jù)清洗和預(yù)處理。其次還需要采用一些自然語言處理工具和技術(shù)。常用的自然語言處理工具包括NLTK、spaCy、StanfordCoreNLP等。這些工具包提供了很多自然語言處理的功能,如分詞、詞性標注、命名實體識別、句法分析等。最后,還需要選擇合適的算法和模型。常用的算法包括樸素貝葉斯、支持向量機、決策樹、隨機森林等。同時,深度學習也成為自然語言處理中的主流技術(shù),常用的模型包括卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)和Transformer等。5.1.5自然語言處理應(yīng)用領(lǐng)域

當NLP技術(shù)對文本的處理應(yīng)用綜合在一起,就能幫助解決人們在工作和生活場景中的實際問題,現(xiàn)階段主要的應(yīng)用領(lǐng)域包括:機器翻譯文本摘要問答系統(tǒng)文本分類等。5.2AIGC簡介2022年11月,OpenAI推出大語言模型ChatGPT,掀起了生成式人工智能的熱潮。短短4天時間,其用戶量到達百萬級,注冊用戶之多導(dǎo)致服務(wù)器一度爆滿。ChatGPT的功能是如此強大,以此連馬斯克都認為“我們離強大到危險的AI不遠了”。生成式人工智能AIGC(ArtificialIntelligenceGeneratedContent)是人工智能1.0時代進入2.0時代的重要標志。奧爾特曼做客蓋茨節(jié)目奧爾特曼被譽為“ChatGPT之父”。5.2.1AIGC的定義

生成式人工智能(AIGC),全稱ArtificialIntelligenceGeneratedContent,是一種人工智能技術(shù),用于自動生成內(nèi)容,該內(nèi)容在很大程度上類似于通過訓(xùn)練數(shù)據(jù)學到的內(nèi)容分布。與傳統(tǒng)的人工智能主要關(guān)注數(shù)據(jù)模式的識別和預(yù)測不同,AIGC專注于創(chuàng)造新的、富有創(chuàng)意的數(shù)據(jù)。其核心原理在于通過學習和理解數(shù)據(jù)分布,進而生成具有相似特征的新數(shù)據(jù)。5.2.2AIGC的奧秘AIGC的關(guān)鍵技術(shù)生成算法的不斷創(chuàng)新使得AI能夠生成多種類型的內(nèi)容,如文本、代碼、圖像、語音、視頻等。預(yù)訓(xùn)練模型,即大型模型,極大地提高了AIGC技術(shù)的通用性和工業(yè)化水平。多模態(tài)技術(shù)使AIGC模型能夠融合處理多種數(shù)據(jù)類型,將文本轉(zhuǎn)化為圖像、視頻等,從而進一步增強了AIGC模型的通用性。AIGC的迅速發(fā)展得益于三個關(guān)鍵領(lǐng)域的人工智能技術(shù):5.2.2AIGC的奧秘

大語言模型大型語言模型(LargeLanguageModels,LLMs),是一種基于機器學習和自然語言處理技術(shù)的模型,它通過對大量的文本數(shù)據(jù)進行訓(xùn)練,來學習服務(wù)人類語言理解和生成的能力。LLM的核心思想是通過大規(guī)模的無監(jiān)督訓(xùn)練來學習自然語言的模式和語言結(jié)構(gòu),這在一定程度上能夠模擬人類的語言認知和生成過程。與傳統(tǒng)的自然語言處理模型(NLP模型)相比,LLM能夠更好地理解和生成自然文本,同時還能夠表現(xiàn)出一定的邏輯思維和推理能力。5.2.2AIGC的奧秘

提示詞工程提示詞(prompt)是指在人工智能場景下給模型的一個初始輸入或提示,用于引導(dǎo)模型生成特定的輸出。提示詞工程(PromptEngineering,PE)是一種人工智能技術(shù),它通過設(shè)計和改進AI的prompt來提高AI的表現(xiàn)。PE的目標是創(chuàng)建高度有效和可控的AI系統(tǒng),使其能夠準確、可靠地執(zhí)行特定任務(wù)。5.2.3AIGC產(chǎn)業(yè)生態(tài)體系5.2.4AIGC典型應(yīng)用現(xiàn)階段國內(nèi)AIGC多以單模型應(yīng)用的形式出現(xiàn),主要分為文本生成、圖像生成、視頻生成、音頻生成,其中文本生成成為其他內(nèi)容生成的基礎(chǔ)。5.2.4AIGC典型應(yīng)用文本生成人工智能文本生成是使用人工智能(AI)算法和模型文本生成(AITextGeneration)來生成模仿人類書寫內(nèi)容的文本。它涉及在現(xiàn)有文本的大型數(shù)據(jù)集上訓(xùn)練機器學習模型,以生成在風格、語氣和內(nèi)容上與輸入數(shù)據(jù)相似的新文本。

文本生成5.2.4AIGC典型應(yīng)用圖像生成(AlImageGeneration),人工智能(Al)可用于生成非人類藝術(shù)家作品的圖像。這種類型的圖像被稱為“人工智能生成的圖像”。人工智能圖像可以是現(xiàn)實的或抽象的,也可以傳達特定的主題或信息。

圖像生成這里區(qū)別于搜索(搜索是別人傳上來,檢索圖片,這里是咒語生成,即使相同咒語生成的也不一樣,是獨一無二的)文生圖圖生圖5.2.4AIGC典型應(yīng)用語音生成(AIAudioGeneration),AIGC的音頻生成技術(shù)可以分為兩類,分別是文本到語音合成和語音克隆。

語音生成5.2.4AIGC典型應(yīng)用視頻生成(AIVideoGeneration),AIGC已被用于視頻剪輯處理以生成預(yù)告片和宣傳視頻。工作流程類似于圖像生成,視頻的每一幀都在幀級別進行處理,然后利用AI算法檢測視頻片段。AIGC生成引人入勝且高效的宣傳視頻的能力是通過結(jié)合不同的AI算法實現(xiàn)的。憑借其先進的功能和日益普及,AIGC可能會繼續(xù)革新視頻內(nèi)容的創(chuàng)建和營銷方式。

視頻生成Meta公司在2022年9月推出的Make-A-Video,網(wǎng)頁地址:https://makeavideo.studio一只穿著紅色斗篷超級英雄服裝的狗,在天空中飛翔。5.2.4AIGC典型應(yīng)用行業(yè)及應(yīng)用場景5.2.4AIGC典型應(yīng)用行業(yè)及應(yīng)用場景5.3國內(nèi)外主流AI大模型5.3.1OpenAI的GPT大模型ChatGPT(全名:ChatGenerativePre-trainedTransformer),美國OpenAI研發(fā)的聊天機器人程序,于2022年11月30日發(fā)布。ChatGPT是人工智能技術(shù)驅(qū)動的自然語言處理工具,它能夠通過理解和學習人類的語言來進行對話,還能根據(jù)聊天的上下文進行互動,真正像人類一樣來聊天交流,甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼,寫論文等任務(wù)。GPT大模型主要產(chǎn)品包括GPT-1、GPT-2、GPT-3和GPT-4。這些產(chǎn)品都是OpenAI公司研發(fā)的大型預(yù)訓(xùn)練語言模型,被廣泛應(yīng)用于自然語言處理領(lǐng)域。GPT-1和GPT-2主要用于文本生成和對話系統(tǒng),而GPT-3和GPT-4則可以應(yīng)用于更加廣泛的領(lǐng)域,包括醫(yī)療、金融、法律等。5.3.2百度的文心大模型百度文心大模型源于產(chǎn)業(yè)、服務(wù)于產(chǎn)業(yè),是產(chǎn)業(yè)級知識增強大模型。文心大模型的一大特色是“知識增強”,即引入知識圖譜,將數(shù)據(jù)與知識融合,提升了學習效率及可解釋性。文心ERNIE自2019年誕生至今,在語言理解、文本生成、跨模態(tài)語義理解等領(lǐng)域取得多項技術(shù)突破文心一言(英文名:ERNIEBot)是百度全新一代知識增強大語言模型,文心大模型家族的新成員,能夠與人對話互動、回答問題、協(xié)助創(chuàng)作,高效便捷地幫助人們獲取信息、知識和靈感。文心一言從數(shù)萬億數(shù)據(jù)和數(shù)千億知識中融合學習,得到預(yù)訓(xùn)練大模型,在此基礎(chǔ)上采用有監(jiān)督精調(diào)、人類反饋強化學習、提示等技術(shù),具備知識增強、檢索增強和對話增強的技術(shù)優(yōu)勢。5.3.3科大訊飛的訊飛星?認知大模型科?訊?的星?是新一代認知智能大模型,擁有跨領(lǐng)域知識和語言理解能力,能夠基于自然對話方式理解與執(zhí)行任務(wù)。5.3.4阿?云的通義大模型阿里通義大模型是阿里云推出的一個超大規(guī)模的語言模型,功能包括多輪對話、文案創(chuàng)作、邏輯推理、多模態(tài)理解、多語言支持。能夠跟人類進行多輪的交互,也融入了多模態(tài)的知識理解,且有文案創(chuàng)作能力,能夠續(xù)寫小說,編寫郵件等。5.4AIGC倫理與安全AIGC是人工智能1.0時代進入2.0時代的重要標志。AIGC對于人類社會、人工智能的意義是里程碑式的。短期來看AIGC改變了基礎(chǔ)的生產(chǎn)力工具,中期來看會改變社會的生產(chǎn)關(guān)系,長期來看促使整個社會生產(chǎn)力發(fā)生質(zhì)的突破,在這樣的生產(chǎn)力工具、生產(chǎn)關(guān)系、生產(chǎn)力變革中,生產(chǎn)要素——數(shù)據(jù)價值被極度放大。5.4.1AIGC社會影響近年來在創(chuàng)新發(fā)展驅(qū)動下,AIGC開始在新聞、影視、娛樂等多個領(lǐng)域展現(xiàn)出強大的潛力,并逐漸成為內(nèi)容生產(chǎn)的新范式。

1、內(nèi)容生產(chǎn)去中心化2、內(nèi)容消費升級3、商業(yè)模式創(chuàng)新總之,AIGC技術(shù)的出現(xiàn),對于內(nèi)容生產(chǎn)和消費、商業(yè)模式等方面都產(chǎn)生了深遠的影響。未來隨著技術(shù)的不斷發(fā)展,AIGC將會在更多領(lǐng)域發(fā)揮出更大的潛力,推動整個社會的進步和發(fā)展。5.4.2AIGC倫理與安全問題日益復(fù)雜的生成式人工智能技術(shù)的應(yīng)用將引發(fā)更多的倫理與安全問題。

1、法律法規(guī)完善程度低

2、數(shù)據(jù)要素問題突出

3、技術(shù)保密性問題

4、教育問題5.4.2AIGC倫理與安全問題思政小課堂:國內(nèi)AI文生圖著作權(quán)侵權(quán)第一案2023年2月24日,原告李某使用AI圖片生成軟件“StableDiffusion”通過輸入提示詞的方式生成古裝少女的圖片,后將該圖片以“春風送來了溫柔”為名發(fā)布在小紅書平臺,并標注為“AI插畫”。但在3月2日,原告發(fā)現(xiàn)被告劉某通過百家號賬號發(fā)布名為《三月的愛情,在桃花里》的文章,文章里使用了自己先前生成的圖片作為插圖,并且去除了該圖片原有的水印。隨后,李某以侵害作品署名權(quán)和信息網(wǎng)絡(luò)傳播權(quán)為由將劉某起訴到北京互聯(lián)網(wǎng)法院,要求被告賠償其經(jīng)濟損失5000元,并賠禮道歉。該案主要涉及三大爭議點:一是“春風送來了溫柔”圖片是否構(gòu)成作品,構(gòu)成何種類型作品;二是原告是否享有涉案圖片的著作權(quán);三是被訴行為是否構(gòu)成侵權(quán)行為,被告是否應(yīng)當承擔法律責任。在經(jīng)過了三個多月的等待后,11月27日北京互聯(lián)網(wǎng)法院對上述案件做出一審判決。法院在判決中認定案涉圖片是原告在AI生成圖片初稿基礎(chǔ)上,通過增加提示詞、調(diào)整參數(shù)等方式,經(jīng)過智力投入后,產(chǎn)出的“智力成果”,該創(chuàng)作過程本質(zhì)為人利用工具進行創(chuàng)作。同時,案件中涉及的圖片是原告通過增加提示詞設(shè)計出人物和畫面元素,并通過參數(shù)設(shè)置方式對畫面不斷調(diào)整、優(yōu)化,此過程可以體現(xiàn)出原告的審美選擇與個性判斷,具備“獨創(chuàng)性”。此外,涉案圖片顯然屬于藝術(shù)領(lǐng)域且具有一定表現(xiàn)形式。因此,法院認定案件中涉及的滿足“作品”構(gòu)成的四要件,是著作權(quán)法意義上的“作品”??紤]到案件具體情況和侵權(quán)情節(jié),法院最終判決被告向原告賠禮道歉,并向原告賠償經(jīng)濟損失500元。5.4.2AIGC倫理與安全問題5.5AIGC體驗1、推文的編寫:本案例使用文心一

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論