




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
05人工智能技術(shù)的突破-大語(yǔ)言模型技術(shù)011本章目標(biāo)了解大語(yǔ)言模型發(fā)展現(xiàn)狀及趨勢(shì)理解token和向量理解注意力機(jī)制重點(diǎn)重點(diǎn)難點(diǎn)2/52引入2-1參數(shù)量大3/52引入2-2數(shù)據(jù)集大4/52大語(yǔ)言模型發(fā)展現(xiàn)狀及趨勢(shì)GPT的影響4-1GPT影響GPT是QpenAI公司在大語(yǔ)言模型領(lǐng)域推出的里程碑式產(chǎn)品。GPT的出現(xiàn)對(duì)人工智能,尤其是自然語(yǔ)言處理領(lǐng)域的技術(shù)格局產(chǎn)生了深遠(yuǎn)影響。特別值得注意的是GPT-3模型。進(jìn)一步提升了模型的能力邊界,能夠處理更加復(fù)雜的任務(wù),展現(xiàn)了前所未有的語(yǔ)言理解和生成能力。這一突破性進(jìn)展不僅標(biāo)志著GPT系列模型的重大飛躍,也為整個(gè)人工智能領(lǐng)域的未來(lái)發(fā)展提供了新的思路和可能性。6/52GPT的影響4-2自然語(yǔ)言處理機(jī)器翻譯問(wèn)答系統(tǒng)文本分析編程&代碼代碼生成代碼解釋代碼修復(fù)創(chuàng)意內(nèi)容生成創(chuàng)作文學(xué)作品音樂(lè)生成圖像生成教育&學(xué)習(xí)自動(dòng)化教學(xué)知識(shí)檢索數(shù)據(jù)分析論文寫作商業(yè)應(yīng)用客服服務(wù)市場(chǎng)分析娛樂(lè)休閑智能家居語(yǔ)音助手7/52GPT的影響4-3自然語(yǔ)言處理機(jī)器翻譯問(wèn)答系統(tǒng)文本分析8/52GPT的影響4-4編程&代碼代碼生成A代碼解釋代碼修復(fù)BC9/52GPT的發(fā)展史10/52GPT模型的預(yù)訓(xùn)練2-1GPT預(yù)訓(xùn)練第一階段:無(wú)監(jiān)督預(yù)訓(xùn)練GPT-1模型的預(yù)訓(xùn)練采用了標(biāo)準(zhǔn)的語(yǔ)言模型,即根據(jù)上文來(lái)預(yù)測(cè)當(dāng)前的詞,GPT-1模型由12個(gè)Transformer模塊組成,每個(gè)Transformer模塊只包含解碼器中的掩碼多頭注意力和后面的前饋層。
第二階段:有監(jiān)督微調(diào)首先,對(duì)于不同的下游任務(wù)來(lái)說(shuō),要向GPT的網(wǎng)絡(luò)結(jié)構(gòu)看齊,把任務(wù)的網(wǎng)絡(luò)結(jié)構(gòu)改造成和GPT一樣的網(wǎng)絡(luò)結(jié)構(gòu)。然后,在做下游任務(wù)的時(shí)候,利用第一步預(yù)訓(xùn)練好的參數(shù)初始化GPT的網(wǎng)絡(luò)結(jié)構(gòu)將預(yù)訓(xùn)練學(xué)到的語(yǔ)言學(xué)知識(shí)就被引入到你手頭的任務(wù)中。11/52GPT模型的預(yù)訓(xùn)練2-2第二階段-不同下游任務(wù)的輸入轉(zhuǎn)換12/52GPT的使用可選的GPT模型新建對(duì)話訪問(wèn)地址問(wèn)題輸入框上傳附件、搜索工具、搜索網(wǎng)頁(yè)13/52大模型的關(guān)鍵發(fā)展時(shí)期SuperCLUE:AI大模型2024年關(guān)鍵進(jìn)展14/52國(guó)內(nèi)大模型發(fā)展國(guó)內(nèi)頂尖大模型進(jìn)展迅速,較為接近ChatGPT-4o-latest端側(cè)小模型表現(xiàn)驚艷國(guó)內(nèi)模型在推理速度和性價(jià)比方面很有競(jìng)爭(zhēng)力DeepSeek-V3和SenseChat5.5-latest取得68.3分表現(xiàn)出色,超過(guò)Claude3.5Sonnet和Gemini-2.0-Flash-Exp,較為接近ChatGPT-4o-latest(僅相差1.9分)。國(guó)內(nèi)模型DeepSeek-V3和Qwen2.5-32B-Instruct在高水平能力的基礎(chǔ)上,保持極快的推理速度。DeepSeek-V3、Qwen2.5-72B-Instruct(阿里云)在高水平能力的基礎(chǔ)上,保持低成本的API價(jià)格。國(guó)內(nèi)端側(cè)小模型進(jìn)展迅速,部分小尺寸模型表現(xiàn)要好于上一代的稍大尺寸模型,展現(xiàn)出很高的性價(jià)比和落地可行性。15/52國(guó)內(nèi)大模型發(fā)展2024年最值得關(guān)注的中文大模型全景圖16/52國(guó)內(nèi)外大模型月份國(guó)內(nèi)(TOP1)國(guó)內(nèi)(TOP2)國(guó)內(nèi)(TOP3)海外Top32024年12月DeepSeek-V3、SenseChat5.5-latest、360gpt2-01Doubao-pro-32k-241215、NebulaCoder-v5、Qwen-max-latestStep-2-16k、GLM-4-Plus01、01-preview、ChatGPT-4o-latest2024年10月GLM-4-Plus、SenseChat5.5、AndesGPT2.0、Qwen2.5-72B-Instruct(并列)Hunyuan-Turbo、360gpt2-pro、Step-2、DeepSeek-V2.5、Doubao-proBaichuan4、山海大模型4.0、TeleChat2-Large01-preview、Claude3.5Sonnet(20241022)、ChatGPT-4o-latest2024年8月Hunyuan-Turbo-PreviewAndesGPT-2.0、DeepSeek-V2-0628Qwen2-72B-Instruct、SenseChat5.5、Doubao_pro_previewChatGPT-4o-latest、GPT-4-Turbo-2024-04-09、Claude3.5Sonnet2024年6月Qwen2-72BGLM-4-0520、DeepSeek-V2、SenseChat5.0AndesGPTGPT-4o、Claude-3.5-Sonnet-200k、GPT-4-Turbo-04092024年4月Baichuan3GLM-4、通義千問(wèn)2.1騰訊Hunyuan-pro、文心一言4.0GPT-4-Turbo-0125、GPT-4-Turbo-0409、GPT-42024年2月文心一言4.0GLM-4通義千問(wèn)2.1GPT4-Turbo-0125、GPT4(網(wǎng)頁(yè))、Claude22023年12月文心一言4.0通義千問(wèn)2.0AndesGPTGPT4-Turbo、GPT4(網(wǎng)頁(yè))、Claude217/52大模型的未來(lái)發(fā)展大模型需要與人類對(duì)齊,才能在人類的驅(qū)動(dòng)下改正錯(cuò)誤,實(shí)現(xiàn)自我進(jìn)化把大模型和周圍的虛擬環(huán)境結(jié)合起來(lái),讓環(huán)境提示它的錯(cuò)誤,從而有反思的機(jī)會(huì)去改正錯(cuò)誤通過(guò)加上機(jī)器人,讓大模型在物理世界也能工作多模態(tài)生成對(duì)產(chǎn)業(yè)的發(fā)展非常重要,因?yàn)榇竽P筒粌H可以生成文本,還可以生成圖像、聲音、視頻、代碼等具身智能AIAgent(智能體)多模態(tài)生成與人類對(duì)齊一些研究嘗試通過(guò)微調(diào)多模態(tài)模型在多模態(tài)場(chǎng)景中生成高質(zhì)量的思維鏈來(lái)探索思維鏈推理。推理能力18/52小結(jié)大模型的應(yīng)用領(lǐng)域有哪些?GPT的訓(xùn)練過(guò)程分為幾個(gè)階段?分別是什么?大模型的未來(lái)發(fā)展趨勢(shì)是怎么樣的?19/52理解token和向量token的定義token在NLP中,token是文本的基本單位。token在大語(yǔ)言模型中的作用至關(guān)重要,因?yàn)樗鼈兪悄P屠斫夂吞幚碜匀徽Z(yǔ)言的基礎(chǔ)單位。token可以是一個(gè)完整的詞、詞的一部分(子詞),甚至是單個(gè)字符。Tokenization,即分詞過(guò)程,是將文本轉(zhuǎn)換為token的關(guān)鍵步驟。21/52token劃分方式01詞級(jí)別分詞05字符級(jí)別分詞03BPE02子詞級(jí)別分詞04WordPiece一種基于統(tǒng)計(jì)頻率的分詞方法,通過(guò)反復(fù)合并最常見(jiàn)的字符對(duì),生成子詞單元。將文本按照詞語(yǔ)或詞組進(jìn)行分割,每個(gè)詞或詞組作為一個(gè)Token。將文本中的每個(gè)字符都作為一個(gè)Token。這種方法的粒度最細(xì),適用于語(yǔ)言結(jié)構(gòu)不固定、詞匯邊界不明確的場(chǎng)景。將單詞進(jìn)一步拆分為更小的語(yǔ)義單位,稱為子詞(Subword)。類似于BPE,但合并的原則更加靈活,廣泛用于BERT模型中。22/52從獨(dú)熱編碼到wordembedding2-1獨(dú)熱編碼?獨(dú)熱編碼(One-HotEncoding)是一種將離散變量表示為二進(jìn)制向量的方法,主要用于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中處理分類變量。?其基本原理是為每個(gè)分類特征的每個(gè)可能值創(chuàng)建一個(gè)新的二進(jìn)制特征,其中只有一個(gè)特征在任何給定時(shí)間被激活(標(biāo)記為1),而其他所有特征都被標(biāo)記為0。23/52從獨(dú)熱編碼到wordembedding2-2神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型詞向量的計(jì)算24/52向量的定義2-1文本轉(zhuǎn)向量向量在空間中的表示25/52向量的定義2-226/52向量的意義27/51統(tǒng)一表示向量的使用使得各種不同類型的數(shù)據(jù)能夠在相同的數(shù)學(xué)框架下進(jìn)行處理。相似度計(jì)算通過(guò)計(jì)算向量之間的距離或相似度,可以實(shí)現(xiàn)各種任務(wù),如圖像檢索、語(yǔ)義相似度計(jì)算、音頻匹配等特征提取向量表示數(shù)據(jù)的核心特征,這些特征提取對(duì)于LLM的理解和決策至關(guān)重要跨模態(tài)關(guān)聯(lián)向量表示使得大語(yǔ)言模型能夠建立不同模態(tài)數(shù)據(jù)之間的關(guān)聯(lián)數(shù)學(xué)運(yùn)算與轉(zhuǎn)換向量支持各種數(shù)學(xué)運(yùn)算(如加法、減法、點(diǎn)積等),這使得大語(yǔ)言模型能夠進(jìn)行復(fù)雜的語(yǔ)義操作可擴(kuò)展性向量表示的靈活性使得大語(yǔ)言模型可以不斷擴(kuò)展其能力,適應(yīng)新的數(shù)據(jù)類型和任務(wù),而無(wú)需徹底改變其基礎(chǔ)架構(gòu)。27/52常見(jiàn)的embedding模型Embedding模型Word2Vec
通過(guò)上下文預(yù)測(cè)單詞,生成語(yǔ)義上相近的詞向量。GloVe通過(guò)計(jì)算詞與詞之間在語(yǔ)料庫(kù)中的共現(xiàn)概率,生成詞向量。FastText將單詞表示為多個(gè)子詞(n-gram)的組合,而不僅僅是一個(gè)整體,將單詞分解為子詞。ELMo與傳統(tǒng)的靜態(tài)詞嵌入模型不同,ELMo生成的詞向量是動(dòng)態(tài)的,并且取決于上下文。BERT通過(guò)雙向編碼器的方式,從左右兩個(gè)方向同時(shí)理解文本上下文。text-embedding-ada-002OpenAIGPT-3系列的高級(jí)文本嵌入模型,將文本轉(zhuǎn)為高維向量以捕捉語(yǔ)義特征,適用于多種NLP任務(wù)BGE(BAAIGeneralEmbedding)基于雙向編碼器與層次化語(yǔ)義理解框架,通過(guò)大規(guī)模多語(yǔ)言預(yù)訓(xùn)練生成高維向量(如1024維),動(dòng)態(tài)融合上下文信息以捕捉詞匯、短語(yǔ)及篇章級(jí)語(yǔ)義關(guān)聯(lián)。28/52token與embedding之間的關(guān)系29/52embedding實(shí)例展示向量展示相似度展示30/52理解注意力機(jī)制注意力機(jī)制4-1Source獨(dú)熱編碼Query(Q):查詢向量,用于表示當(dāng)前要關(guān)注的信息。每個(gè)注意力頭會(huì)根據(jù)輸入序列生成自己的查詢向量。Q向量用于與K向量進(jìn)行相似度計(jì)算,以確定哪些值(V)應(yīng)該被關(guān)注。Key(K):鍵向量,代表輸入序列中每個(gè)元素的特征。每個(gè)輸入元素都有一個(gè)對(duì)應(yīng)的K向量,Q與K的相似度決定了該元素對(duì)當(dāng)前查詢的重要性。Value(V):值向量,實(shí)際包含的信息。每個(gè)K向量都有一個(gè)對(duì)應(yīng)的V向量,最終的輸出是通過(guò)加權(quán)求和V向量得到的,其中權(quán)重由Q和K的相似度決定。32/52注意力機(jī)制4-233/52注意力機(jī)制4-3注意力工作流程34/52最終的AttentionValue=0.1*Value1+0.2*Value2+0.3*Value3+0.1*Value4+0.3*Value5,這個(gè)AttentionValue是一個(gè)綜合了句子中所有詞信息的向量,但它更偏重于與“喜歡”相關(guān)的詞匯,例如“貓”和“狗”?!拔摇钡淖⒁饬?quán)重可能是0.1;“喜歡”的注意力權(quán)重可能是0.2;“貓”的注意力權(quán)重可能是0.3;“和”的注意力權(quán)重可能是0.1;“狗”的注意力權(quán)重可能是0.3;Query和Key1(“我”的鍵向量):計(jì)算相似度,可較低。Query和Key2(“喜歡”的鍵向量):計(jì)算相似度,可能較高,因?yàn)樗鼈兪峭粋€(gè)詞。Query和Key3(“貓”的鍵向量):計(jì)算相似度,可能較高,因?yàn)椤跋矚g”與“貓”有語(yǔ)義關(guān)聯(lián)。Query和Key4(“和”的鍵向量):計(jì)算相似度,可能較低。Query和Key5(“狗”的鍵向量):計(jì)算相似度,可能較高,因?yàn)椤跋矚g”與“狗”也有語(yǔ)義關(guān)聯(lián)。注意力機(jī)制4-4步驟1-計(jì)算相似度步驟2-計(jì)算注意力權(quán)重步驟3-加權(quán)求和值向量35/52自注意力機(jī)制7-1自注意力機(jī)制模型架構(gòu)圖Q、K、V首先可以看到SelfAttention有三個(gè)輸入Q、K、V:對(duì)于SelfAttention,Q、K、V來(lái)自句子X(jué)的詞向量x的線性轉(zhuǎn)化,即對(duì)于詞向量x,給定三個(gè)可學(xué)習(xí)的矩陣參數(shù)WQ,Wk,Wv,x分別右乘上述矩陣得到Q、K、V。36/52自注意力機(jī)制7-2第一步獲取qkv37/52自注意力機(jī)制7-3第二步點(diǎn)乘38/52自注意力機(jī)制7-4第三步Scale(縮放)+Softmax(激活函數(shù))縮放:在計(jì)算查詢向量(Query)和鍵向量(Key)的點(diǎn)積之后,將結(jié)果除以一個(gè)縮放因子根號(hào)dk,其中dk是鍵向量的維度。這個(gè)縮放操作的目的是防止點(diǎn)積結(jié)果過(guò)大,導(dǎo)致Softmax函數(shù)的輸入值過(guò)大,從而使得Softmax的輸出接近于0或1,導(dǎo)致梯度消失問(wèn)題。通過(guò)縮放,可以將點(diǎn)積結(jié)果控制在一個(gè)合理的范圍內(nèi),保持?jǐn)?shù)值穩(wěn)定性。而在在Transformer模型中,鍵向量的維度dk通常設(shè)置為64。39/52自注意力機(jī)制7-5第四步點(diǎn)乘40/52自注意力機(jī)制7-6SelfAttention的矩陣計(jì)算41/52自注意力機(jī)制7-742/52自注意力機(jī)制和RNN、LSTM的區(qū)別SelfAttentionRNN、LSTMselfAttention在計(jì)算過(guò)程中會(huì)直接將句子中任意兩個(gè)單詞的聯(lián)系通過(guò)一個(gè)計(jì)算步驟直接聯(lián)系起來(lái),所以遠(yuǎn)距離依賴特征之間的距離被極大縮短,有利于有效地利用這些特征;SelfAttention對(duì)于一句話中的每個(gè)單詞都可以單獨(dú)的進(jìn)行Attention值的計(jì)算,也就是說(shuō)SelfAttention對(duì)計(jì)算的并行性也有直接幫助作用,而對(duì)于必須得依次序列計(jì)算的RNN而言,是無(wú)法做到并行計(jì)算的。如果是RNN或者LSTM,需要依次序列計(jì)算,對(duì)于遠(yuǎn)距離的相互依賴的特征,要經(jīng)過(guò)若干時(shí)間步步驟的信息累積才能將兩者聯(lián)系起來(lái),而距離越遠(yuǎn),有效捕獲的可能性越小。43/52掩碼注意力機(jī)制2-1掩碼注意力機(jī)制MaskedSelfAttention模型,這里的Masked就是要在做語(yǔ)言模型(或者像翻譯)的時(shí)候,不給模型看到未來(lái)的信息,掩碼注意力機(jī)制是Transformer模型中的一種重要機(jī)制,用于控制模型在處理序列數(shù)據(jù)時(shí)對(duì)不同元素的關(guān)注程度。它主要通過(guò)在注意力權(quán)重計(jì)算過(guò)程中引入掩碼(Mask),來(lái)實(shí)現(xiàn)特定的注意力模式,如防止未來(lái)信息泄露、處理不同長(zhǎng)度的序列等。44/52掩碼注意力機(jī)制2-245/52掩碼注意力機(jī)制-常用三種掩碼方式填充掩碼序列掩碼前瞻掩碼目的確保模型在處理填充的輸入數(shù)據(jù)時(shí)不將其視為有效信息。實(shí)現(xiàn)特定的注意力模式,如只關(guān)注當(dāng)前詞的左側(cè)或右側(cè)上下文,或者實(shí)現(xiàn)循環(huán)(Causal)注意力模式。確保模型在預(yù)測(cè)下一個(gè)詞時(shí)只能依賴于當(dāng)前詞及之前的詞的信息,而不能看到未來(lái)的詞應(yīng)用場(chǎng)景主要在處理由于數(shù)據(jù)長(zhǎng)度不一致而添加的填充操作時(shí)使用,在模型的輸入層或注意力機(jī)制中忽略這些填充數(shù)據(jù)。在需要精確控制信息流動(dòng)的各種場(chǎng)景中使用,例如在遞歸神經(jīng)網(wǎng)絡(luò)和Transformer模型中
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 財(cái)務(wù)經(jīng)理錄用合同
- 蕪湖高新區(qū)度展廳裝修合同項(xiàng)目競(jìng)爭(zhēng)性談判公告
- 儀器設(shè)備租賃合同示范文本
- 銷售合同書轉(zhuǎn)讓協(xié)議
- 透析中低血壓休克緊急處理
- 小學(xué)道德與法治四年級(jí)上冊(cè) 第一單元 與班級(jí)共成長(zhǎng) 單元作業(yè)設(shè)計(jì)(無(wú)答案)
- 1家的意味表格式公開課一等獎(jiǎng)創(chuàng)新教學(xué)設(shè)計(jì) 七年級(jí)上冊(cè)道德與法治
- Brand KPIs for ready-made-food DAucy in Brazil-外文版培訓(xùn)課件(2025.2)
- 實(shí)驗(yàn)活動(dòng) 1 氧氣的實(shí)驗(yàn)室制取與性質(zhì)教學(xué)設(shè)計(jì)-2024-2025學(xué)年九年級(jí)化學(xué)人教版(2024)上冊(cè)
- 藏族民間舞蹈的動(dòng)作組合
- 學(xué)校財(cái)務(wù)預(yù)算管理制度(5篇)
- 愛(ài)在平淡細(xì)微處-初中感悟親情作文課件
- 機(jī)電一體化畢業(yè)論文范文(精選十五篇)
- (讀書筆記)禮物的流動(dòng):一個(gè)中國(guó)村莊中的互惠原則和社會(huì)網(wǎng)絡(luò)
- 《醫(yī)療垃圾的分類》課件
- 江蘇師范大學(xué)成人繼續(xù)教育網(wǎng)絡(luò)課程《英語(yǔ)》單元測(cè)試及參考答案
- 雙堿法脫硫操作規(guī)程
- 全國(guó)中學(xué)生物理競(jìng)賽及實(shí)驗(yàn)課件
- 病案信息技術(shù)基礎(chǔ)知識(shí)考試重點(diǎn)梳理(最新最全)
- 安全施工作業(yè)票(模版)
- 環(huán)保管理制度(適用于軟件企業(yè))
評(píng)論
0/150
提交評(píng)論