版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
《自然語言處理導(dǎo)論》第1章緒論自然語言處理
自然語言處理要研制表示語言能力(linguisticcompetence)和語言應(yīng)用(linguisticperformance)的模型,建立計算框架來實現(xiàn)這樣的語言模型,提出相應(yīng)的方法來不斷地完善這樣的語言模型,根據(jù)這樣的語言模型設(shè)計各種實用系統(tǒng),并探討這些實用系統(tǒng)的評測技術(shù)?!狟illManaris,1999
自然語言處理
自然語言處理可以定義為研究在人與人交際中以及在人與計算機(jī)交際中的語言問題的一門學(xué)科:人人交際中的語言問題例如語言不通的問題,促進(jìn)了機(jī)器翻譯這一語言處理中最重要的應(yīng)用之一的發(fā)展人機(jī)交際中的語言問題例如語言文字的輸入輸出問題,促進(jìn)了智能化人機(jī)接口技術(shù)的研究自然語言處理的研究意義歷史中,80%以上的信息是以自然語言文本形式(如書籍、傳記、碑文、書法等)記載的非結(jié)構(gòu)化數(shù)據(jù)圖書館/博物館檔案館當(dāng)代,電子化的文本數(shù)量不斷增長Web中99%的可分析信息是以文本形式存在Web網(wǎng)頁總量超過100億,每天新增網(wǎng)頁數(shù)千萬數(shù)字化辦公自然語言處理任務(wù)自然語言處理作為多項技術(shù)的交叉研究領(lǐng)域起源于文本分類(textclassification)和內(nèi)容生成等單項技術(shù)1.文本分類2.情感計算3.信息抽取典型的信息抽取任務(wù)包括命名實體識別、實體消歧、關(guān)系抽取和事件抽取。該車的外觀非常像豐田,車頭與普銳斯略有相似,但整車尺寸超過了之前該系列的車型,寬大的車身讓車內(nèi)的使用環(huán)境非常寬敞。內(nèi)飾設(shè)計也很居家,整體環(huán)境溫馨舒適。動力方面,塞納搭載3.5LV6發(fā)動機(jī),匹配6速自動手動變速箱,最大功率198KW,最大馬力269PS,最大扭矩332n·m,行駛平穩(wěn)自如。4.推薦系統(tǒng)-音樂、新聞、購物、行程、行為習(xí)慣資訊類電商類娛樂類5.問答系統(tǒng)6.語音識別語音助手:Cortana,
Assistant,
Siri等7.機(jī)器翻譯自然語言處理技術(shù)在國民經(jīng)濟(jì)、社會管理、信息服務(wù)和國家安全等各個領(lǐng)域中都有非常重要的應(yīng)用,市場需求巨大。對于政府管理部門來說,可以通過分析和挖掘網(wǎng)絡(luò)上的信息,及時準(zhǔn)確地了解民意、把握輿情;在金融或商貿(mào)領(lǐng)域,通過對大量的新聞報道、財務(wù)報告和網(wǎng)絡(luò)評論等文字材料的深入挖掘和分析,預(yù)測某一時間段的經(jīng)濟(jì)形勢和股市走向;電子產(chǎn)品企業(yè)可隨時了解和分析用戶對其產(chǎn)品的評價及市場反應(yīng),為進(jìn)一步改進(jìn)產(chǎn)品質(zhì)量、提供個性化服務(wù)等提供數(shù)據(jù)支持;而對于國家安全和公共安全部門來說,文本數(shù)據(jù)挖掘技術(shù)則是及時發(fā)現(xiàn)社會不穩(wěn)定因素、高效控制局面的有利工具;在醫(yī)療衛(wèi)生和公共健康領(lǐng)域,可以通過分析大量的化驗報告、病例、記錄和相關(guān)文獻(xiàn)、資料等,發(fā)現(xiàn)某種現(xiàn)象、規(guī)律和結(jié)論等等。《自然語言處理導(dǎo)論》第2章
語言模型n元語法以詞組(詞序列)特征作為基本單元,可以捕捉一部分詞序信息。N元語法N元語法是一種語言模型。何為語言模型?從機(jī)器學(xué)習(xí)的角度來看,語言模型可對語句的概率分布進(jìn)行建模,并可判斷這個詞序列是否為正常語句。比方說,對于語句A“我愛自然語言處理和語句”和語句B“我自然語言處理愛”,鑒于語句A更可能是一個正常語句,語言模型將對其賦予更高的概率。
缺點:N-gram缺乏長期依賴,只能建模到前n-1個詞。隨著n的增大,詞袋的大小急劇增大,參數(shù)空間(特征向量維度)呈指數(shù)爆炸,容易出現(xiàn)數(shù)據(jù)稀疏的問題。優(yōu)點:N-gram統(tǒng)計語言模型采用極大似然估計法,有數(shù)學(xué)理論作為支撐,且參數(shù)易訓(xùn)練。根據(jù)窗口的大小,gram包含了前n-1個詞的全部信息,增加了前后文信息,考慮了文本字詞之間的順序問題,能夠?qū)φZ義進(jìn)行很好地表示。N-gram模型的可解釋性強(qiáng),直觀易理解。所以,N-gram被廣泛使用。n可能的n-gram個數(shù)統(tǒng)計2400,000,00038,000,000,00041.6*1017詞表中詞的個數(shù)為20,000詞時,不同n對應(yīng)的n-gram個數(shù)《自然語言處理導(dǎo)論》第3章神經(jīng)網(wǎng)絡(luò)和神經(jīng)語言模型神經(jīng)元模型M-P神經(jīng)元模型(McCullochandPitts,
1943)
神經(jīng)元(neuron)模型神經(jīng)元模型神經(jīng)網(wǎng)絡(luò)模型
感知機(jī)與多層網(wǎng)絡(luò)算法:隨機(jī)梯度下降法(stochastic
gradient
descent)
感知機(jī)(線性可分的二分類問題)感知機(jī)與多層網(wǎng)絡(luò)
算法:誤差逆?zhèn)鞑ニ惴ǎ╡rror
Back
Propagation)多層前饋神經(jīng)網(wǎng)絡(luò)(multi-layer
feedforward
neural
networks)深度學(xué)習(xí)模型復(fù)雜度增加隱層神經(jīng)元的數(shù)目(模型寬度)增加隱層數(shù)目(模型深度)從增加模型復(fù)雜度的角度看,增加隱層的數(shù)目比增加隱層神經(jīng)元的數(shù)目更有效。這是因為增加隱層數(shù)不僅增加額擁有激活函數(shù)的神經(jīng)元數(shù)目,還增加了激活函數(shù)嵌套的層數(shù)
典型的深度學(xué)習(xí)模型就是很深層的神經(jīng)網(wǎng)絡(luò)復(fù)雜模型難點多隱層網(wǎng)絡(luò)難以直接用經(jīng)典算法(例如標(biāo)準(zhǔn)BP算法)進(jìn)行訓(xùn)練,因為誤差在多隱層內(nèi)逆?zhèn)鞑r,往往會“發(fā)散”而不能收斂到穩(wěn)定狀態(tài)《自然語言處理導(dǎo)論》第4章詞和語義向量文本:字或字符組成詞、詞組或短語,進(jìn)而形成句子、段落和篇章。將輸入的文本進(jìn)行形式化,將其表示為向量或者其他形式這種將文本進(jìn)行形式化的過程稱為文本表示(textrepresentation)1.OneHot獨(dú)熱碼
常見的向量紅色[0,0,0,0,0,0,0,…..,1,0,0,0,0,0,0,0,0]綠色[0,1,0,0,0,0,0,…..,0,0,0,0,0,0,0,0,0]有兩個優(yōu)點:1)這種表示方法具有很好的可解釋性,有利于人工歸納與總結(jié)特征,并通過特征組合進(jìn)行高效的特征工程2)通過多種特征組合得到的表示向量通常是稀疏的二值向量,當(dāng)用于線性模型時計算效率非常高。最常用的主流的表示文本的方式文本:在基于向量空間模型建立文本表示之前,通常要依據(jù)詞條化、去停用詞、詞形規(guī)范化等預(yù)處理技術(shù),對給定文檔進(jìn)行規(guī)范和約減,將文檔轉(zhuǎn)化為詞項的序列。“柯基實在是太可愛了,我想養(yǎng)一只”{柯,基,可,愛,我,想,養(yǎng),一,只}2.向量空間模型VSM
{柯,基,可,愛,我,想,養(yǎng),一,只}當(dāng)然,也可以用詞作為特征項,特征項的集合可以看做是一個詞表(vocabulary),此時特征項也稱為詞項。這個詞表可以從語料集中產(chǎn)生,也可以從外部導(dǎo)入。獲得特征項之后,需要學(xué)習(xí)其離散表示或分布式表示。離散表示的代表就是詞袋模型、n元語法分布式表示也叫做詞嵌入(wordembedding),經(jīng)典模型是word2vec,還包括后來的Glove、ELMO、GPT和BERT。1:Boblikestoplaybasketball,Jimlikestoo.2:Bobalsolikestoplayfootballgames.基于這兩個文本文檔,構(gòu)造一個詞典Dict={1.Bob,2.like,3.to,4.play,5.basketball,6.also,7.football,8.games,9.Jim,10.too}詞典一共包含10個不同的單詞,利用詞典的索引號,上面兩個文檔每一個都可以用一個10維向量表示(用整數(shù)數(shù)字0~n(n為正整數(shù))表示某個單詞在文檔中出現(xiàn)的次數(shù)):1:[1,2,1,1,1,0,0,0,1,1]2:[1,1,1,1,0,1,1,1,0,0]詞袋模型1:[1,2,1,1,1,0,0,0,1,1]2:[1,1,1,1,0,1,1,1,0,0]布爾(BOOL)權(quán)重:表示該特征項是否出現(xiàn)在當(dāng)前文本中,如出現(xiàn),則記為1,否則記為0,計算上下文的平均詞向量
輸入Word2vec模型CBoW,即利用中心詞預(yù)測所有上下文詞。
Word2vec模型Skip-Gram優(yōu)點一、有效緩解數(shù)據(jù)稀疏問題將每個單詞存儲為空間中一個點,由固定數(shù)量的維度的向量的表示優(yōu)點二、用于類比推理,避免了傳統(tǒng)向量空間模型所需的復(fù)雜特征工程優(yōu)點三、可用于預(yù)測詞嵌入《自然語言處理導(dǎo)論》第5章預(yù)訓(xùn)練語言模型1.預(yù)訓(xùn)練語言模型概覽2.預(yù)訓(xùn)練語言模型技術(shù)預(yù)訓(xùn)練語言模型概覽詞向量(Word
Embeddings)是自然語言處理(NLP)中的核心技術(shù),即將文字轉(zhuǎn)化為可計算的低維向量自然語言處理中的預(yù)訓(xùn)練詞向量(word2vec,
Glove)等一般通過共現(xiàn)統(tǒng)計在自然語言文本中預(yù)訓(xùn)練獲得預(yù)訓(xùn)練語言模型概覽固定詞向量出現(xiàn)在不同上下文中代表不同的語義自然語言處理中的預(yù)訓(xùn)練解決方案:上下文化(Contextualized)的詞向量預(yù)訓(xùn)練語言模型概覽現(xiàn)代的預(yù)訓(xùn)練語言模型在大規(guī)模無標(biāo)數(shù)據(jù)進(jìn)行訓(xùn)練,展現(xiàn)出在各類下游任務(wù)的強(qiáng)大遷移能力現(xiàn)代預(yù)訓(xùn)練語言模型基于特征的方法下游任務(wù)有標(biāo)注數(shù)據(jù)測試數(shù)據(jù)模型精調(diào)模型預(yù)訓(xùn)練大規(guī)模無標(biāo)注數(shù)據(jù)預(yù)訓(xùn)練語言模型概覽2017之前使用預(yù)訓(xùn)練的詞嵌入作為初始化模型本身沒有經(jīng)過預(yù)訓(xùn)練考慮如何將具體任務(wù)的上下文融入到具體的神經(jīng)網(wǎng)絡(luò)模型中兩種預(yù)訓(xùn)練的范式現(xiàn)代自然語言處理所有的參數(shù)都從預(yù)訓(xùn)練初始化在下游任務(wù)或者通用指令上進(jìn)行進(jìn)一步精調(diào)具有強(qiáng)大的泛化能力未經(jīng)過預(yù)訓(xùn)練經(jīng)過預(yù)訓(xùn)練所有參數(shù)都經(jīng)過預(yù)訓(xùn)練1.預(yù)訓(xùn)練語言模型概覽2.預(yù)訓(xùn)練語言模型技術(shù)預(yù)訓(xùn)練語言模型技術(shù)首個預(yù)訓(xùn)練語言模型基礎(chǔ)架構(gòu):雙向LSTM模型,在10億詞數(shù)據(jù)上訓(xùn)練將各層的隱藏狀態(tài)合并為上下文單詞嵌入ELMo預(yù)訓(xùn)練語言模型技術(shù)前向建模:根據(jù)前k-1個詞去計算第k個詞的概率分布反向建模:根據(jù)k+1到N的詞預(yù)測第k個詞的概率分布將前向LSTM和反向LSTM結(jié)合進(jìn)行聯(lián)合訓(xùn)練ELMo預(yù)訓(xùn)練語言模型技術(shù)以LSTM為基座的ELMo取得了優(yōu)秀的效果,但其特征提取能力仍遠(yuǎn)小于Transformer后續(xù)的模型幾乎都是基于Transformer架構(gòu)而構(gòu)建Transformer預(yù)訓(xùn)練語言模型技術(shù)架構(gòu):編碼器-解碼器輸入:文本的嵌入向量和位置編碼模型:編碼器和解碼器由相同的塊堆疊而成核心模塊:自注意力機(jī)制Transformer預(yù)訓(xùn)練語言模型技術(shù)最早的以Transformer(Decoder)為基礎(chǔ)架構(gòu)的預(yù)訓(xùn)練模型預(yù)訓(xùn)練完成之后,在下游任務(wù)上進(jìn)行微調(diào)模型:12層Transformer,隱藏層維度768,線性層維度3072訓(xùn)練語料:BookCorpus(7000本書)訓(xùn)練目標(biāo):自回歸語言建模,即從左到右進(jìn)行訓(xùn)練GPT預(yù)訓(xùn)練語言模型技術(shù)無監(jiān)督預(yù)訓(xùn)練優(yōu)化文本序列概率分布的最大似然估計標(biāo)準(zhǔn)的自回歸語言建模有監(jiān)督微調(diào)獲取最后一層最后一個詞的隱藏層輸出將隱藏層輸出送入全連接網(wǎng)絡(luò)預(yù)測最終的標(biāo)簽GPT預(yù)訓(xùn)練語言模型技術(shù)GPT在自然語言推理任務(wù)上的實驗結(jié)果GPTGPT在問答和推理任務(wù)上的實驗結(jié)果預(yù)訓(xùn)練語言模型技術(shù)與GPT采用相同的架構(gòu),但擁有更大的參數(shù)在40GB的文本上進(jìn)行訓(xùn)練在未見過的語言文本上取得了最好的困惑度表現(xiàn)越來越清晰的事實:更大的模型、更多的數(shù)據(jù)會帶來更好的效果GPT-2預(yù)訓(xùn)練語言模型技術(shù)與GPT,GPT-2采用相同的架構(gòu),但擁有1750億參數(shù)在許多零樣本和少樣本場景展現(xiàn)出了人類級別的自然語言理解和生成能力GPT-3預(yù)訓(xùn)練語言模型技術(shù)參數(shù)擴(kuò)增的背后:ScalingLawGPT-3更大的計算量可以帶來更低的預(yù)訓(xùn)練損失更大的計算量可以帶來更好的下游表現(xiàn)效果預(yù)訓(xùn)練語言模型技術(shù)預(yù)訓(xùn)練語言模型最具代表性的工作,刷新13個自然語言處理任務(wù)的最高水平對于預(yù)訓(xùn)練語料,隨機(jī)預(yù)測15%的詞,雙向建模其中80%的詞會被替換成一個[MASK]特殊字符其中10%的詞會被替換成另一個隨機(jī)的詞其中10%的詞會保持不變,但依然需要預(yù)測BERT預(yù)訓(xùn)練語言模型技術(shù)BERT-base:12層,768維度隱層,12個注意力頭,1.1億參數(shù)BERT-large:24層,1024維度隱層,16個注意力頭,3.4億參數(shù)語料:BookCorpus(8億詞)、EnglishWikipedia(25億詞)訓(xùn)練:64塊TPU,訓(xùn)練4天BERT預(yù)訓(xùn)練語言模型技術(shù)基礎(chǔ)范式:預(yù)訓(xùn)練-微調(diào)以預(yù)訓(xùn)練的參數(shù)為初始化,在下游任務(wù)上進(jìn)一步更新所有參數(shù)BERT預(yù)訓(xùn)練語言模型技術(shù)在多個經(jīng)典自然語言處理任務(wù)上達(dá)到最好效果QQP:QuoraQuestionPairsQNLI:NaturalLanguageInferenceSST-2SentimentAnalysisCoLA:CorputofLinguisticAcceptability.....BERT預(yù)訓(xùn)練語言模型技術(shù)BERT的局限性無法很好地進(jìn)行自然語言生成而生成任務(wù)具有更高的上限如今最流行的模型(ChatGPT、LLaMA)均是GPT架構(gòu)BERT預(yù)訓(xùn)練語言模型技術(shù)XLNetPermutationLanguageModeling將自回歸(Auto-regressive)和自編碼(Auto-encoding)模型進(jìn)行結(jié)合其他架構(gòu)預(yù)訓(xùn)練語言模型技術(shù)Text-to-Text(T5)直接將所有任務(wù)統(tǒng)一建模成文本到文本的方式最大模型參數(shù)達(dá)到100億采用Encoder-Decoder架構(gòu)其他架構(gòu)預(yù)訓(xùn)練語言模型技術(shù)預(yù)訓(xùn)練語言模型已經(jīng)成為了現(xiàn)代自然語言處理的基礎(chǔ)設(shè)施幾乎所有的預(yù)訓(xùn)練語言模型都是用Transformer作為基礎(chǔ)架構(gòu)根據(jù)建模目標(biāo)不同,預(yù)訓(xùn)練語言模型可以分為Encoder、Decoder和Encoder-Decoder三種類型BERT側(cè)重于理解,GPT側(cè)重于生成,后者上限更高如今的絕大部分預(yù)訓(xùn)練語言模型都是生成式的模型更大的計算量(參數(shù)量&數(shù)據(jù)量)往往帶來更好的效果總結(jié)與展望《自然語言處理導(dǎo)論》第6章序列標(biāo)注直接從網(wǎng)上獲取的數(shù)據(jù)或者來自其他渠道的原始數(shù)據(jù),如醫(yī)生書寫的病歷、網(wǎng)絡(luò)論壇數(shù)據(jù)、微信聊天記錄等,都是非結(jié)構(gòu)化數(shù)據(jù),往往都含有噪聲,存在大量的非規(guī)范語言現(xiàn)象,這就為后續(xù)任務(wù)的模型學(xué)習(xí)造成了很大的障礙,因此必須對這些數(shù)據(jù)進(jìn)行預(yù)處理。結(jié)構(gòu)化數(shù)據(jù)是數(shù)據(jù)的數(shù)據(jù)庫(即行數(shù)據(jù),存儲在數(shù)據(jù)庫里,可以用二維表結(jié)構(gòu)來邏輯表達(dá)實現(xiàn)的數(shù)據(jù))非結(jié)構(gòu)化數(shù)據(jù),包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等等數(shù)據(jù)采集根據(jù)不同數(shù)據(jù)挖掘任務(wù),數(shù)據(jù)采集渠道和方式有所不同。從數(shù)據(jù)來源的渠道考慮,通常有兩種情況:一、開放域面向社交媒體構(gòu)建輿情檢測系統(tǒng)時,數(shù)據(jù)來自所有能夠獲取的公共社交網(wǎng)絡(luò),
包括移動終端。盡管文本的主題可能是關(guān)于某個或某些特定的話題,但是數(shù)據(jù)來源是公開的;二、封閉域如面向金融領(lǐng)域的文本數(shù)據(jù)挖掘任務(wù)處理的數(shù)據(jù)是來自銀行等金融行業(yè)的專有數(shù)據(jù),而面向醫(yī)院的數(shù)據(jù)挖掘任務(wù)處理的文本存在于醫(yī)院的醫(yī)療機(jī)構(gòu)內(nèi)部的專用網(wǎng)絡(luò),普通用戶是無法獲取的。數(shù)據(jù)采集任務(wù)在明確了需要進(jìn)行數(shù)據(jù)挖掘的目標(biāo)后,接下來就需要從業(yè)務(wù)系統(tǒng)中抽取出一個與挖掘目標(biāo)相關(guān)的樣本數(shù)據(jù)子集。標(biāo)準(zhǔn):一是相關(guān)性,二是可靠性,三是有效性,而不是動用全部數(shù)據(jù)。作用:對數(shù)據(jù)樣本的精選,不僅能減少數(shù)據(jù)處理量,節(jié)省系統(tǒng)資源,還可以使我們想要尋找的規(guī)律性更加凸顯出來。數(shù)據(jù)預(yù)處理任務(wù)(1)詞條化(tokenization):指將給定的文本切分成為詞匯單位的過程西方語言(如英語等)天然使用空格作為詞的分隔符,只需利用空格或標(biāo)點就能實現(xiàn)詞條化。漢語和部分黏著語(如日語、韓語、越南語等)書寫中沒有詞語分隔標(biāo)記,因此需要先進(jìn)行詞語切分,這一過程在中文信息處理中稱作漢語自動分詞(Chinesewordsegmentation,CWS)。和平民主(1)和平、民主(2)和、平民、主提高人民生活水平提高、高人、人民、民生、生活、活水、水平大學(xué)生活像白紙(1)大學(xué)、生活、像、白紙(2)大學(xué)生、活像、白紙基本工具①-漢語自動分詞漢語自動分詞的主要任務(wù)是將漢語文本自動切分成詞序列。由于詞是自然語言中具有獨(dú)立含義的最小的語言單位,而漢語文本中詞與詞之間有分隔標(biāo)記,因此,詞語切分是漢語文本處理的第一步。關(guān)于漢語自動分詞方法,國內(nèi)外有大量的研究工作,先后提出了數(shù)十種切分方法:早期的基于詞典的分詞方法,如最大匹配方法、最大概率分詞方法、最短路徑分詞方法等中期的統(tǒng)計切分方法,如基于n元語法(n-gram)后期的由字構(gòu)詞的漢語分詞方法最短路徑分詞方法基本思想:在詞圖上選擇一條詞數(shù)最少的路徑。優(yōu)點:好于單向的最大匹配方法最大匹配方法:獨(dú)立自主和平等互利的原則最短路徑方法:獨(dú)立自主和平等互利的原則缺點:無法解決大部分歧義(下面例子都是最短路徑的結(jié)果)
他說的確實在理
他說的確實在理他說的確實在理早期的基于詞典的分詞方法,如最大匹配方法、最大概率分詞方法、最短路徑分詞方法等中期的統(tǒng)計切分方法,如基于n元語法(n-gram)n元語法以詞組(詞序列)特征作為基本單元,可以捕捉一部分詞序信息。以“為人民工作”為例,假設(shè)給出的詞典包含“為人”“人民”“,民工”“工作”,則相應(yīng)的二元語法切分詞圖如下:關(guān)于漢語自動分詞方法,國內(nèi)外有大量的研究工作,先后提出了數(shù)十種切分方法:早期的基于詞典的分詞方法,如最大匹配方法、最大概率分詞方法、最短路徑分詞方法等中期的統(tǒng)計切分方法,如基于n元語法(n-gram)后期的由字構(gòu)詞的漢語分詞方法
(character-basedChinesewordsegmentation)?;舅悸肥牵壕渥又械娜魏我粋€單位,包括字、標(biāo)點、數(shù)字和字母等(統(tǒng)稱為“字”)在詞中的位置只有4種可能:詞首字(記為B)、詞尾字(記為E)、詞中字(記為M)和單字詞(記為S)B,E,M和S稱為詞位標(biāo)記。B和E總是成對出現(xiàn)。這樣漢語分詞問題轉(zhuǎn)化為序列標(biāo)注(Sequencelabeling)問題,可以借助大規(guī)模訓(xùn)練樣本訓(xùn)練分類器完成分詞任務(wù)。由字構(gòu)詞的漢語分詞方法原始句子:小說的終極目的是未來講好一個故事。分詞結(jié)果:小說/的/終極/目的/是/為了/講/好/一個/故事。用詞位表示標(biāo)記的分詞結(jié)果:小B說E的S終B極E目B的E是S為B了E講S好S一B個E故B事E。(2)
去停用詞(stopwords)在各類文檔中頻繁出現(xiàn)的、附帶極少文本信息的詞“是”盡管不是功能詞,但由于出現(xiàn)頻率很高,對于文本區(qū)分沒有實質(zhì)性意義,因此通常也作為停用詞被去掉。在具體實現(xiàn)時通常建立一個停用詞表,在特征抽取時直接刪除停用詞表中的詞。常用詞:的、地、得等。虛詞:介詞、連詞等。領(lǐng)域?qū)嵲~:數(shù)據(jù)庫會議上的“數(shù)據(jù)庫”一詞,可視為停用詞。優(yōu)勢:顯著減小索引結(jié)構(gòu)的大小劣勢:可能降低召回率recall中文停用詞表例子(3)詞形規(guī)范化在針對西方語言的文本挖掘任務(wù)中,需要對一個詞的不同形態(tài)進(jìn)行歸并,即詞形規(guī)范化。詞形規(guī)范化過程包含兩個概念,一是詞形還原(lemmatization),即把任意變形的詞匯還原成為原形(能夠表達(dá)完整的語義),如將runs和running還原為run;二是詞干提取(stemming),去除詞綴得到詞根的過程(不一定能夠表達(dá)完整的語義),如將fisher轉(zhuǎn)換為fish、effective轉(zhuǎn)換為effect。波特詞干提取算法
(PorterStemmingAlgorithm)是一種使用廣泛的英語詞干提取算法,采用基于規(guī)則的實現(xiàn)方法[Porter,1980]。該算法主要包括如下4步:①將字母分為元音和輔音;②利用規(guī)則處理以-s、-ing和-ed為后綴的單詞;③設(shè)計專門的規(guī)則處理復(fù)雜的后綴(如-ational等);④利用規(guī)則微調(diào)處理結(jié)果。詞性標(biāo)注是句法分析的前提和基礎(chǔ),詞性信息是文本表示的重要特征,對于命名實體識別、關(guān)系抽取和文本情感分析等都具有重要的幫助。詞性標(biāo)注是指自動為句子中的每個詞打上詞性類別標(biāo)簽,如句子:“天空是蔚藍(lán)的。”被分詞和加注詞性后為:天空/NN是/NV蔚藍(lán)/AA的/Aux。/PU符號NN是名詞標(biāo)記,VV是動詞標(biāo)記,AA是形容詞標(biāo)記,Aux是結(jié)構(gòu)助詞標(biāo)記,PU是標(biāo)點符號的標(biāo)記。(4)詞性標(biāo)注自動詞性標(biāo)注-基于規(guī)則的方法通過機(jī)器學(xué)習(xí),運(yùn)用初始狀態(tài)標(biāo)注器標(biāo)識未標(biāo)注的文本,由此產(chǎn)生已標(biāo)注的文本,并將其與正確的標(biāo)注文本進(jìn)行比較,糾正錯誤的標(biāo)注,使標(biāo)注結(jié)果更接近于正確的標(biāo)注文本?;谵D(zhuǎn)換規(guī)則的錯誤驅(qū)動的機(jī)器學(xué)習(xí)方法如下:
自動詞性標(biāo)注-基于概率統(tǒng)計通過了解大量文本的詞匯詞性和出現(xiàn)概率,對概率進(jìn)行統(tǒng)計優(yōu)化,獲取概率參數(shù),確定無監(jiān)督學(xué)習(xí)的正確結(jié)果?;诮y(tǒng)計模型的詞性標(biāo)注方法有隱馬爾可夫模型,條件隨機(jī)場模型,最大熵模型。雖然已經(jīng)取得了較大進(jìn)展,但有時候訓(xùn)練語料是有限的。將統(tǒng)計方法和規(guī)則方法結(jié)合被認(rèn)為是解決詞性標(biāo)注問題的最佳手段。目前如下網(wǎng)站提供自動分詞和詞性標(biāo)注工具:中科院http:///清華
/復(fù)旦
/FudanNLP/fnlp北大
/lancopku/pkuseg-python斯坦福
http:///software/tagger.shtmlSnowNLP:/isnowfy/snownlp詞法分析的主要任務(wù)是將文本分隔為有意義的詞語(中文分詞)、確定每個詞語的類別和淺層的歧義消除(詞性標(biāo)注)、并且識別出一些較長的專有名詞(命名實體識別)。在中文分詞、詞性標(biāo)注和命名實體識別后,文本已經(jīng)呈現(xiàn)出部分結(jié)構(gòu)化的趨勢。計算機(jī)看到的不再是一個超長的字符串,而是有意義的單詞列表,并且每個單詞還附有自己的詞性以及其他標(biāo)簽。句法分析將側(cè)重于分析句子中詞語之間的語義關(guān)系(語義依存)基本工具④-句法分析句法分析包括短語結(jié)構(gòu)分析
(phrasestructureparsing)依存關(guān)系分析
(dependencyparsing)以句子“警方已經(jīng)到現(xiàn)場,正在詳細(xì)調(diào)查事故原因"為例。IP:句子的根節(jié)點標(biāo)記。NP:名詞短語VP:動詞短語PU:斷句符,通常是句號、問號、感嘆號等標(biāo)點符號ADVP:副詞短語VV:動詞短語結(jié)構(gòu)分析的目的是自動分析出句子的短語結(jié)構(gòu)關(guān)系。依存關(guān)系樹:箭頭表示依存(或支配)關(guān)系,箭頭起始端為支配詞,箭頭指向端為被支配詞。有向弧上的標(biāo)記表示依存關(guān)系的類型。ROOT
表示子句的根節(jié)點SBJ表示主語關(guān)系,即箭頭指向端的詞是箭頭起始端的詞的主語。OBJ表示賓語關(guān)系,即箭頭指向端的詞是箭頭起始端的詞的賓語。VMOD表示動詞修飾關(guān)系,即箭頭指向端的詞修飾箭頭起始端的動詞。NMOD是名詞修飾關(guān)系,即箭頭指向端的詞修飾箭頭起始端的名詞。PU表示子句的標(biāo)點符號。依存關(guān)系分析的目的則是自動分析出句子中詞匯之間的語義依存關(guān)系?!蹲匀徽Z言處理導(dǎo)論》第7章語義分析詞袋模型語義特征社會化網(wǎng)絡(luò)維基百科的知識多源異構(gòu)語義知識融合Word2vec,詞袋模型等BasketballAcademicBasketballAcademic詞袋模型+TFIDF計算相似度相似度計算:1.基于距離的方法曼哈頓距離、歐氏距離、切比雪夫距離相似度計算:2.基于角度計算的方法向量表示+TFIDF/Attention計算相似度=Word2vec,詞袋模型等實體消岐問答系統(tǒng):答案與問題是否配對翻譯系統(tǒng):譯文是否與原文匹配基于以下觀察現(xiàn)象:相熟的人或者具有相似背景的人所在的網(wǎng)頁很可能是相互鏈接的,而同名卻不同背景的人很少會有鏈接關(guān)系。以上向量拼接余弦相似度Word2vec,詞袋模型等實體頁面、重定向頁面、消歧頁面INFOBOX類別信息給定兩個人物/事物社會網(wǎng)絡(luò)實體消岐《自然語言處理導(dǎo)論》第8章文本分類文本自動分類的方法傳統(tǒng)的文本分類算法包括:樸素貝葉斯NaiveBayes(NB)、Logistic回歸、最大熵(maximumentropy,ME)和支持向量機(jī)
(supportvectormachine,SVM)等。近年來,深度神經(jīng)網(wǎng)絡(luò)技術(shù)如卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)等發(fā)展成為研究中的主流方法。機(jī)器學(xué)習(xí)方法文本表示預(yù)處理預(yù)處理文本表示向量空間模型,也稱為詞袋模型(bagofwordsmodel,BOW)文本表示預(yù)處理特征選擇特征權(quán)重計算特征選擇(特征過濾)文檔頻率(Document
Frequency,
DF)互信息(Mutual
Informaiton,
MI)信息增益(Information
Gain,
IG)Chi-Square統(tǒng)計(Chi-Square
Statistics,CHI)
互信息:反應(yīng)的是兩個隨機(jī)變量相互關(guān)聯(lián)的程度。它可以看成是一個隨機(jī)變量由于已知另一個隨機(jī)變量而減少的不確定性。
信息論的基本概念互信息互信息=熵-條件熵
信息論的基本概念互信息互信息=熵-條件熵互信息的具體用法舉例-主題段落的劃分特征選擇(特征過濾)文檔頻率(Document
Frequency,
DF)互信息(Mutual
Informaiton,
MI)信息增益(Information
Gain,
IG)Chi-Square統(tǒng)計(Chi-Square
Statistics,CHI)信息論的基本概念
信息增益文本表示預(yù)處理特征選擇特征權(quán)重計算權(quán)重計算1.詞頻將單詞的頻數(shù)tfij當(dāng)作該單詞的權(quán)重2.布爾變量3.逆文檔頻率(IDF)4.TF-IDF文本表示預(yù)處理分類器的設(shè)計自動分類算法分類決策樹樸素貝葉斯神經(jīng)網(wǎng)絡(luò)支持向量機(jī)K階近鄰文本表示預(yù)處理性能評估遺漏率:準(zhǔn)確率:召回率:正確率:錯誤率:誤報率:盈虧平衡點:Precision是分類器預(yù)測為某一個類別的正確率的評價,Accuracy是對分類器整體上的正確率的評價。HumanTrueFalseclassifierYesabNocd深度神經(jīng)網(wǎng)絡(luò)算法例子
愛奇藝短視頻分類技術(shù)解析解決方案特征表示特征融合層次分類文本信息圖像信息離散特征標(biāo)題、描述…封面圖…時長、類別、ID…《自然語言處理導(dǎo)論》第9章情感計算我覺得某車的性價比還是不錯的,可能是我工資低,所以覺得價格有點貴。但它的顏值很高,車?yán)锩孀詭У墓δ芤彩潜容^多的。駕駛感受的話,某車的方向盤相對來說還是比較輕巧的,而且它的操控性也是比較高的,操控方面的準(zhǔn)確度也挺高的,車輛開起來它的底盤是比較穩(wěn)的,不會有任何虛實的感覺。價格顏值操控底盤觀點識別(subjective/Objective)中美兩方的代表就朝鮮核問題進(jìn)行了磋商(客觀)中方發(fā)言人對近期發(fā)生的恐怖行動進(jìn)行了強(qiáng)烈的譴責(zé)(主觀)極性分類(Positive/Negative/Neutral)這家餐廳總體來說還可以。(中性)但是價格偏貴,性價比低。(負(fù)面)拋開價格的因素還是很不錯的,值得推薦。(正面)1.情感識別強(qiáng)度識別(情感強(qiáng)度識別)iPhoneX的價格太貴了,一年的收入都沒了。(強(qiáng)烈)iPhoneX的價格有點貴。(稍弱)1.情感識別的不同粒度詞級別識別一個詞的傾向性特征級別(AspectLevel)識別一個Aspect的傾向性:“這家餐廳價格偏貴,但菜好吃”價格、味道句子級別識別一個句子的觀點傾向性文檔級別識別一篇文本(包含多個句子)整體的傾向性2.觀點屬性抽取觀點持有者抽取老師就小明近期在學(xué)校的行為進(jìn)行了詳細(xì)的評價”觀點目標(biāo)抽取“老師”就小明近期在學(xué)校的行為進(jìn)行了詳細(xì)的評價”“這款手機(jī)的屏幕太小,分辨率不足”3.觀點摘要“IboughtaniPhoneafewdaysago.Itwassuchanicephone.Thetouchscreenwasreallycool.Thevoicequalitywascleartoo.Althoughthebatterylifewasnotlong,thatisokforme.However,mymotherwasmadwithmeasIdidnottellherbeforeIboughtthephone.Shealsothoughtthephonewastooexpensive,andwantedmetoreturnittotheshop.…”特征1:TouchscreenPositive:212人Negative:6特征2:batterylife……情感識別-基于詞典的方法主要步驟確定情感詞典,比方說SentiWordNet搜索情感詞,并對其進(jìn)行標(biāo)記和計數(shù)+1/-1需要考慮否定詞和轉(zhuǎn)折表達(dá)計算總的分?jǐn)?shù)The
cameraisgreat!+1(pos)Itlooksterrible!-1(neg)Ifinditgoodandbeautiful.+2(pos)Thecarisblue.0(neu)基于詞典方法我覺得某車的性價比還是不錯的,可能是我工資低,所以覺得價格有點貴。但它的顏值很高,車?yán)锩孀詭У墓δ芤彩潜容^多的。駕駛感受的話,某車的方向盤相對來說還是比較輕巧的,而且它的操控性也是比較高的,操控方面的準(zhǔn)確度也挺高的,車輛開起來它的底盤是比較穩(wěn)的,不會有任何虛實的感覺。價格顏值操控底盤情感識別-基于深度學(xué)習(xí)的方法輸入:文本或語音的一段話輸出:滿意、不滿意、無感+意圖識別《自然語言處理導(dǎo)論》第10章知識抽取信息抽取定義海量的文本數(shù)據(jù)拓寬了人們的信息獲取渠道。但是,大部分的文本信息都是以非結(jié)構(gòu)的形式存在,不利于計算機(jī)處理和理解,信息抽取應(yīng)運(yùn)而生。從自然語言文本中抽取指定類型的實體、關(guān)系、事件等事實信息,并形成結(jié)構(gòu)化數(shù)據(jù)輸出的文本處理技術(shù)命名實體識別命名實體識別本質(zhì)上是一種序列標(biāo)注問題,比方說BIEO標(biāo)注方式,它代表begin-intermediate-end-other。今(O)年(O)海(O)釣(O)比(O)賽(O)在(O)廈(B-LOC)門(I-LOC)市(E-LOC)
與(O)金(B-LOC)門(E-LOC)之(O)間(O)的(O)海(O)域(O)舉(O)行(O)。這個句子中我們要識別的實體是地域,于是廈門市和金門就被標(biāo)注出來了。序列標(biāo)注本質(zhì)上是分類任務(wù),是對句子中每一個詞的多分類?;谏窠?jīng)網(wǎng)絡(luò)的方法命名實體識別BERT+BiLSTM+CRF不同粒度sememe-levelcharacter-levelword-leveltoken-levelposition-levelsentence-leveldocument-level關(guān)系抽取1.基于觸發(fā)詞基于模板的方法
關(guān)系觸發(fā)詞是在文本數(shù)據(jù)中起觸發(fā)作用的單詞或短語,在關(guān)系抽取中能夠觸發(fā)某種關(guān)系,也被稱為關(guān)系指示詞、關(guān)系描述詞。例如:交通堵塞導(dǎo)致了他上班遲到。2.基于依存句法基于模板的方法Stanforddependencytreeparser基于有監(jiān)督學(xué)習(xí)或無監(jiān)督學(xué)習(xí)的分類方法句法依存樹句法依存樹+2利用RNN對于句子中的語義關(guān)系進(jìn)行建模利用LSTM做關(guān)系抽取交通堵塞導(dǎo)致了他上班遲到。關(guān)系類別是因果并列蘊(yùn)含遞進(jìn)相反交通堵塞導(dǎo)致了他上班遲到。實體與關(guān)系聯(lián)合抽?。∕iwaACL16)Jointmodel-LSTM-RNNs模型:實體識別和關(guān)系分類的參數(shù)共享,但判斷過程沒有交互實體識別關(guān)系抽取嵌入層Jointmodel-LSTM-RNNs模型:實體識別和關(guān)系分類的參數(shù)共享,但判斷過程沒有交互詞嵌入+語法特征嵌入sememe-levelcharacter-levelword-leveltoken-levelposition-levelsentence-leveldocument-level(MiwaACL16)Jointmodel-LSTM-RNNs模型:實體識別和關(guān)系分類的參數(shù)共享,但判斷過程沒有交互實體識別Bi-LSTMCRF(MiwaACL16)Jointmodel-LSTM-RNNs模型:實體識別和關(guān)系分類的參數(shù)共享,但判斷過程沒有交互關(guān)系抽取Softmax(MiwaACL16)1.位置嵌入2.句法依存嵌入3.詞匯嵌入4.句子嵌入Jointmodel-LSTM-RNNs模型:實體識別和關(guān)系分類的參數(shù)共享,但判斷過程沒有交互實體識別關(guān)系抽?。∕iwaACL16)聯(lián)合訓(xùn)練中山大學(xué)智能工程學(xué)院沈穎老師《自然語言處理》課程授課PPT。sheny76@實體識別關(guān)系抽?。∕iwaACL16)輸出:實體輸出:實體間關(guān)系事件抽取ACE事件類型示例襲擊轉(zhuǎn)移運(yùn)輸出行死亡會面關(guān)系的表現(xiàn)形式之一三元組關(guān)系的表現(xiàn)形式之二動詞前置的三元組事件抽取+情感計算事件的相關(guān)核心概念動詞事件的相關(guān)核心概念事件元素(EventArgument)元素角色(Argumentrole)名詞名詞類型Trigger(觸發(fā)詞)出生Person-Arg(人名)李敖Time-Arg(時間)1935年P(guān)lace-Arg(地點)黑龍江哈爾濱市事件抽取的主要任務(wù)動詞、名詞、名詞類型抽取受傷、死亡、運(yùn)輸、轉(zhuǎn)移轉(zhuǎn)賬、襲擊、會面….事件抽取的方法詞性特征詞典的數(shù)據(jù)支撐語義特征各種特征關(guān)系抽取命名實體識別實體關(guān)系特征各種分類器事件分類詞性特征詞典的數(shù)據(jù)支撐語義特征不同粒度sememe-levelcharacter-levelword-leveltoken-levelposition-levelsentence-leveldocument-level
NER各種特征實體關(guān)系特征詞性特征詞典的數(shù)據(jù)支撐語義特征RE各種特征實體關(guān)系特征1.位置嵌入2.句法依存嵌入3.詞匯嵌入4.句子嵌入短語結(jié)構(gòu)分析依存關(guān)系分析理解語義從而更好地實現(xiàn)分類詞匯嵌入位置嵌入詞性特征詞典的數(shù)據(jù)支撐語義特征各種特征關(guān)系抽取命名實體識別實體關(guān)系特征各種分類器事件分類將事件抽取視為分類問題YuboChen,etal."EventExtractionviaDynamicMulti-PoolingConvolutionalNeuralNetwork".InACL2015基于神經(jīng)網(wǎng)絡(luò)的方法ConvolutionalNeuralNetworksRecurrentNeuralNetworksGraphNeuralNetworksTransformersNguyen,etal."JointEventExtractionviaRecurrentNeuralNetworks".InNAACL2016基于神經(jīng)網(wǎng)絡(luò)的方法ConvolutionalNeuralNetworksRecurrentNeuralNetworksGraphNeuralNetworksTransformersXiaoLiu,etal."JointMultipleEventExtractionviaAttention-basedGraphInformationAggregration".InEMNLP2018基于神經(jīng)網(wǎng)絡(luò)的方法ConvolutionalNeuralNetworksRecurrentNeuralNetworksGraphNeuralNetworksTransformersYangSen,etal."ExploringPre-trainedLanguageModelsforEventExtractionandGeneration".InACL2019基于神經(jīng)網(wǎng)絡(luò)的方法ConvolutionalNeuralNetworksRecurrentNeuralNetworksGraphNeuralNetworksTransformers輸入:輸出:實體識別:人物、時間、地點關(guān)系抽?。菏挛飼r間的關(guān)聯(lián)關(guān)系事件類型:政治、軍事、金融等數(shù)據(jù)集給定事件分類店主不規(guī)范儲藏?zé)熁ū袷箓}庫炸了《自然語言處理導(dǎo)論》第11章信息抽取無監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí):從無標(biāo)注數(shù)據(jù)中學(xué)習(xí)分析模型的機(jī)器學(xué)習(xí)問題。無標(biāo)注數(shù)據(jù)是“自然”得到的數(shù)據(jù),分析模型表示數(shù)據(jù)的類別、轉(zhuǎn)換等。183聚類184聚類185聚類186聚類187無監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí):從無標(biāo)注數(shù)據(jù)中學(xué)習(xí)分析模型的機(jī)器學(xué)習(xí)問題無標(biāo)注數(shù)據(jù)是“自然”得到的數(shù)據(jù),分析模型表示數(shù)據(jù)的類別、轉(zhuǎn)換等
無標(biāo)注數(shù)據(jù)
特征(屬性)輸入空間(特征空間)模型實際上都是定義在特征空間上的輸出空間聚類問題降維問題188無監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí):從無標(biāo)注數(shù)據(jù)中學(xué)習(xí)分析模型的機(jī)器學(xué)習(xí)問題無標(biāo)注數(shù)據(jù)是“自然”得到的數(shù)據(jù),分析模型表示數(shù)據(jù)的類別、轉(zhuǎn)換等學(xué)習(xí)系統(tǒng)
預(yù)測系統(tǒng)
無標(biāo)注數(shù)據(jù)
特征(屬性)輸入空間(特征空間)模型實際上都是定義在特征空間上的輸出空間聚類問題降維問題
①
②③“最好”④
⑤①數(shù)據(jù)、②模型、③策略、④算法、⑤應(yīng)用本質(zhì):學(xué)習(xí)數(shù)據(jù)中的潛在規(guī)律或結(jié)構(gòu)189無監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)的基本想法:對給定數(shù)據(jù)(矩陣數(shù)據(jù))進(jìn)行某種“壓縮”,從而找到數(shù)據(jù)的潛在結(jié)構(gòu)。假定損失最小的“壓縮”得到的結(jié)果就是最本質(zhì)的結(jié)構(gòu)。
190特征樣本無監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)的基本想法:對給定數(shù)據(jù)(矩陣數(shù)據(jù))進(jìn)行某種“壓縮”,從而找到數(shù)據(jù)的潛在結(jié)構(gòu)。假定損失最小的“壓縮”得到的結(jié)果就是最本質(zhì)的結(jié)構(gòu)。
考慮發(fā)掘數(shù)據(jù)的縱向結(jié)構(gòu)把相似的樣本聚到同類,
即對數(shù)據(jù)進(jìn)行聚類191特征樣本無監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)的基本想法:對給定數(shù)據(jù)(矩陣數(shù)據(jù))進(jìn)行某種“壓縮”,從而找到數(shù)據(jù)的潛在結(jié)構(gòu)。假定損失最小的“壓縮”得到的結(jié)果就是最本質(zhì)的結(jié)構(gòu)。
考慮發(fā)掘數(shù)據(jù)的橫向結(jié)構(gòu)把高維空間的向量轉(zhuǎn)換為低維空間的向量,
即對數(shù)據(jù)進(jìn)行降維192特征樣本《自然語言處理導(dǎo)論》第12章統(tǒng)計機(jī)器翻譯和神經(jīng)機(jī)器翻譯機(jī)器翻譯隨著網(wǎng)絡(luò)的普遍應(yīng)用,世界經(jīng)濟(jì)一體化進(jìn)程的加速和國際社會交流的日漸頻繁,語言障礙已經(jīng)成為二十一世紀(jì)社會發(fā)展的重要瓶頸。人工翻譯已經(jīng)不能滿足迅猛增長的翻譯需求,人們對機(jī)器翻譯的需求空前增長。
194一、基于規(guī)則的機(jī)器翻譯
1.
直接翻譯法直接翻譯法簡單的將文本劃分成一個一個單獨(dú)的詞語進(jìn)行翻譯,然后進(jìn)行輕微的形態(tài)調(diào)整,再加以潤色,從而讓整句話看起比較正常。但由于是逐字翻譯,其輸出后的語句通常與輸入的句子有一定偏差。2.
轉(zhuǎn)換翻譯法轉(zhuǎn)換翻譯法與直接翻譯完全不同,研究人員先決定被翻譯句子的語法結(jié)構(gòu),然后再調(diào)整句子的整體結(jié)構(gòu)。這樣的翻譯方法可以令被翻譯的句子有著比較完整的結(jié)構(gòu),而不是逐字進(jìn)行翻譯輸出。195二、基于實例的機(jī)器翻譯系統(tǒng)在執(zhí)行翻譯過程時,會先對翻譯句子進(jìn)行適當(dāng)?shù)念A(yù)處理,然后將其與實例庫中的翻譯實例進(jìn)行相似性的分析,最后,根據(jù)找到相似實例的例文從而得到翻譯句子的翻譯文章。但是基于規(guī)則的英譯日非常復(fù)雜。日語的語法結(jié)構(gòu)與英語完全不同,所有的單詞必須重新排列,并追加新單詞。比方說,需翻譯一個簡單的句子:“I’mgoingtothecinema?!比绻呀?jīng)翻譯過另外一個類似的句子:“I’mgoingtothetheater”,而且可以從詞典中找到“cinema”這個單詞。那么所要做的是找出兩個句子的不同之處,然后翻譯這個有差異的單詞,但不要破壞句子的結(jié)構(gòu)。擁有的例子越多,翻譯效果越佳。196三、基于統(tǒng)計的機(jī)器翻譯統(tǒng)計型機(jī)器翻譯早在1990年早期便有了雛形,當(dāng)時IBM研究中心的一臺機(jī)器翻譯系統(tǒng)首次問世,雖然它不了解翻譯語言的規(guī)則和語言學(xué),但它會分析兩種語言中的相似文本,并試圖去理解其中的模式。這種翻譯模式是在相同的一個句子中用兩種語言來分割成單詞,接著進(jìn)行相互匹配。然后將這種操作重復(fù)數(shù)億次,并對每個單詞的匹配結(jié)果進(jìn)行統(tǒng)計,假如統(tǒng)計單詞“DasHaus”被翻譯成“house”、“building”、“construction”的次數(shù)中“house”占最多,那么該機(jī)器就會采用這個翻譯。這種方法比之前直接翻譯或者是其他的方法更高效且準(zhǔn)確,而且只要使用的文本越多,它的翻譯效果就越佳。197三、基于統(tǒng)計的機(jī)器翻譯198短語長度為1的翻譯示例
位變模型的功能示例
四、基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的做法類似利用中間語言。假定原文是一組具體的特征,可以將它進(jìn)行編碼,然后讓其他神經(jīng)網(wǎng)絡(luò)通過解碼將其還原成文本,但是要用另外一種語言。解碼器只知道自己的語言,它并不知道原本的特征,但是它可以用英語等其他語言進(jìn)行表述。一個神經(jīng)網(wǎng)絡(luò)只負(fù)責(zé)將句子編碼成具體的一套特征,而由另一個神經(jīng)網(wǎng)絡(luò)將這些特征解碼還原回文本。兩個神經(jīng)網(wǎng)絡(luò)之間并沒有交流,它們只知道各自的語言。199《自然語言處理導(dǎo)論》第13章問答系統(tǒng)問答系統(tǒng):一個能回答任意自然語言形式問題的自動機(jī)。輸入:任何自然語言形式的問題輸出:一個簡潔的答案或者可能答案的列表輸入:新中國是多久成立的?輸出:1949年10月1日。1.基于符號的表示方法問句:哪些軟件是由美國加利福尼亞州成立的公司開發(fā)的。軟件開發(fā)公司問句短語檢測主要所用技術(shù):分詞最簡單方法:N-gram匹配蜘蛛俠蜘蛛俠自然語言句子知識圖譜知識圖譜最常用方法:Bi-LSTM+CRF后期的神經(jīng)網(wǎng)絡(luò)漢語分詞編碼嵌入后,計算兩個向量之間的余弦相似度1.OneHot獨(dú)熱碼紅色[0,0,0,0,0,0,0,…..,1,0,0,0,0]2.詞袋模型3.Word2vec、Skip-Thought4.各神經(jīng)網(wǎng)絡(luò)模型1.基于符號的表示方法問句:哪些軟件是由美國加利福尼亞州成立的公司開發(fā)的。軟件開發(fā)公司問句軟件開發(fā)者公司知識圖譜余弦相似度、Ngram問句知識圖譜But!2.基于分布式的表示方法知識圖譜圖數(shù)據(jù)嵌入1.DeepWalk(KDD2014)2.Node2vec(KDD2015)3.LINE(WWW2015)4.圖卷積神經(jīng)網(wǎng)絡(luò)ShenYing,DengYang,YangMin,LiYaliang,DuNan,FanWei,LeiKai.Knowledge-awareAttentiveNeuralNetworkforRankingQuestionAnswerPairs.InThe41stInternationalACMSIGIRConferenceonResearch&DevelopmentinInformationRetrieval(SIGIR2018).SIGIR:AnnArbor,Michigan,USA,July8-12,2018.pp.901-904.ACM.嵌入層融合層隱含層Softmax層問題答案嵌入層問題:詞向量、知識向量答案:詞向量、知識向量技術(shù)點:文本嵌入技術(shù)點:知識圖譜圖數(shù)據(jù)嵌入嵌入層問題的文本向量答案的文本向量BiLSTMBiLSTM嵌入層問題的知識圖譜向量答案的知識圖譜向量CNNCNN融合層隱含層Softmax層問題答案問答系統(tǒng)評價指標(biāo)-MRR平均倒數(shù)排名假設(shè)有兩個主題,主題①有4個相關(guān)網(wǎng)頁,主題②有5個相關(guān)網(wǎng)頁。某系統(tǒng)對于主題①檢索出4個相關(guān)網(wǎng)頁,其rank分別為1,2,4,7對于主題②檢索出3個相關(guān)網(wǎng)頁,其rank分別為1,3,5對于主題1,平均準(zhǔn)確率為(1/1+2/2+3/4+4/7)/4=0.83對于主題2,平均準(zhǔn)確率為(1/1+2/3+3/5+0+0)/5=0.45則
MAP=(0.83+0.45)/2=0.64MAP是反映系統(tǒng)在全部相關(guān)文檔上性能的單值指標(biāo)。系統(tǒng)檢索出來的相關(guān)文檔越靠前,MAP就越高。如果系統(tǒng)沒有返回相關(guān)文檔,則準(zhǔn)確率默認(rèn)為0。MeanAveragePrecision平均精度問答系統(tǒng)評價指標(biāo)-MAP
MAP和MRR值越高,問答效果越好知識圖譜內(nèi)容越完備,問答效果越好知識圖譜嵌入詞嵌入編碼層BiLSTMCNN拼接DengYang,XieYuexiang,LiYaliang,YangMin,DuNan,FanWei,LeiKai,ShenYing*.Multi-TaskLearningwithMulti-ViewAttentionforAnswerSelectionandKnowledgeBaseQuestionAnswering.InTheThirty-ThirdAAAIConferenceonArtificialIntelligence(AAAI-19).Honolulu,Hawaii,USA,January27–February1,2019.33,pp.6318-6325.ACM.共享表示學(xué)習(xí)層BiLSTMKBQA和AS之間,共享相互的文本向量和知識圖譜向量特定任務(wù)分類器KBQA簡單版本單選題KBQA多模態(tài)任務(wù)模態(tài)(modal)是事情經(jīng)歷和發(fā)生的方式,我們生活在一個由多種模態(tài)(Multimodal)信息構(gòu)成的世界,包括視覺信息、聽覺信息、文本信息、嗅覺信息等等,當(dāng)研究的問題或者數(shù)據(jù)集包含多種這樣的模態(tài)信息時我們稱之為多模態(tài)問題,研究多模態(tài)問題是推動人工智能更好的了解和認(rèn)知我們周圍世界的關(guān)鍵。多模態(tài)任務(wù)多模態(tài)研究中,通常遵循以下步驟:首先需要考慮對于單個模態(tài)的信息的獲取與處理,緊接著需要研究如何實現(xiàn)模態(tài)間信息的融合,聯(lián)合表示,共同學(xué)習(xí)等,最后將得到的信息再對于不同的任務(wù)進(jìn)行后續(xù)的處理。多模態(tài)問答系統(tǒng)當(dāng)前,智能問答系統(tǒng)的研究仍舊集中在文本信息的交互上,問題和答案的呈現(xiàn)模式都是文本信息。然而,隨著互聯(lián)網(wǎng)及移動互聯(lián)網(wǎng)的快速發(fā)展,多媒體信息量的急劇增長,對于智能問答系統(tǒng)在信息的多模態(tài)、直觀性和豐富性上提出了更高的要求,基于文本的智能問答新系統(tǒng)無法滿足目前多媒體問答的需求。傳統(tǒng)基于文本智能問答系統(tǒng)主要存在以下問題:1)無法滿足用戶對多模態(tài)信息的查詢,只能以單一的文本信息進(jìn)行交互;2)問答系統(tǒng)的答案的呈現(xiàn)模式為文本模式,展示方式不夠直觀形象,缺乏多媒體形式的展示;3)缺乏多模態(tài)處理的流程和模式,不能滿足智能問答系統(tǒng)的可擴(kuò)展性多模態(tài)問答系統(tǒng)問答系統(tǒng)對于智能化的需求越來越明顯,尤其是在智能問答系統(tǒng)中多模態(tài)信息的查詢和直觀展示。多模態(tài)的智能問答系統(tǒng),可以允許用戶進(jìn)行多媒體信息的查詢,包括圖片、音頻、視頻、圖片加文本和視頻加本文等信息,從而滿足用戶多媒體輸入的需求,提高用戶信息查詢的豐富性。同時,它也支持答案的多媒體形式的展示,利用豐富的媒體形式,對用戶提出的問題給出一個準(zhǔn)確和形象的答案。視覺問答系統(tǒng)視覺問答(visualquestionanswering,簡稱為VQA)是典型的多模態(tài)問答系統(tǒng)之一,也是整個多模態(tài)領(lǐng)域的經(jīng)典任務(wù)之一。一個VQA系統(tǒng)以一張圖片和一個關(guān)于這張圖片的形式自由、開放式的自然語言問題作為輸入,以生成一條自然語言答案作為輸出。簡單來說,VQA就是給定的圖片進(jìn)行問答。視覺問答系統(tǒng)需要四個部分完成:視覺/文本理解,多模態(tài)特征交互,答案檢索,答案生成。StackedAttentionNetworksforImageQuestionAnswering視覺理解文本理解多模態(tài)特征交互答案檢索與答案生成視覺問答系統(tǒng)數(shù)據(jù)集VQAv1是使用最廣泛的數(shù)據(jù)集之一,它包含來自COCO的204,721幅真實圖像數(shù)據(jù)集(用于訓(xùn)練的123287幅圖像和用于測試的81434幅圖像)。它涵蓋了614,163個自由形式的問題和7984119個問題答案,允許是/否、多項選擇和開放式問題。VQAv2是VQAv1數(shù)據(jù)集的增強(qiáng)版本,它包含204721幅圖像,這些圖像來自
COCO數(shù)據(jù)集。它在訓(xùn)練集、驗證集和測試集上有443757,214354和447793個問題注釋。VQAv2共有1105904個由人類注釋的自由形式問答對,是VQAv1的兩倍,并且為每個問題提供一個補(bǔ)充圖像,以便同一問題可以與兩個相似的圖像組合產(chǎn)生不同的答案。與VQAv1相比,VQAv2減少了數(shù)據(jù)集的偏差和不平衡以上改進(jìn)。KB-VQA是第一個需要外部知識庫的VQA數(shù)據(jù)集,其中包括來自COCO的700幅圖像數(shù)據(jù)集和2402個問答對(每張圖片3-4個問題)。KB-VQA有23個問題模板,每個問題由五名研究者根據(jù)其中一個合適的模板提出。提議者給不同的標(biāo)簽不同知識水平的問題?;卮稹爸R庫”級別的問題需要使用知識庫比如DBpedia。KB-VQA中的“KB-knowledge”級問題遠(yuǎn)遠(yuǎn)多于同時期的其他VQA
數(shù)據(jù)集。多輪對話系統(tǒng)近年來,對話系統(tǒng)以其巨大的潛力和誘人的商業(yè)價值吸引了越來越多的關(guān)注。目前,對話系統(tǒng)在各個領(lǐng)域越來越引起人們的重視,也取得了迅速的發(fā)展,各大公司相繼推出了自己的智能對話應(yīng)用,如蘋果公司的Siri,微軟公司的Cortana,百度公司的度秘等。多輪對話是指根據(jù)上下文內(nèi)容,進(jìn)行連續(xù)的,以達(dá)到解決某一類特定任務(wù)為目的的對話,是對話系統(tǒng)中的一個重要組成部分。相對于單輪對話,多輪對話的模式通常表現(xiàn)為有問有答的形式。在對話過程中,機(jī)器人也會發(fā)起詢問,而且在多輪對話中,機(jī)器人還會涉及“決策”的過程,與單輪對話相比會顯得更加的智能,應(yīng)用場景也更加的豐富多樣。通常來說,多輪對話與一件事情的處理相對應(yīng)。多輪對話系統(tǒng)傳統(tǒng)的多輪對話系統(tǒng)通常由三個模塊組成:口語理解模塊(SpokenLanguageUnderstanding,SLU,包括語音識別與自然語言理解)、對話管理模塊(DialogueManager,DM)和自然語言生成模塊(NaturalLanguageGeneration,NLG)多輪對話系統(tǒng)口語理解1.用戶意圖(進(jìn)行意圖檢測)2.約束條件(填槽模塊識別限制條件)多輪對話系統(tǒng)對話管理1.緩存內(nèi)容2.CRF3.RNN1.基于規(guī)則2.策略分析3.強(qiáng)化學(xué)習(xí)端到端對話管理《自然語言處理導(dǎo)論》第14章基于深度學(xué)習(xí)的社會計算推薦系統(tǒng)的發(fā)展軌跡
1994年:明尼蘇達(dá)大學(xué)GroupLens研究組推出第一個自動化推薦系統(tǒng)GroupLens,該系統(tǒng)提出了將協(xié)同過濾技術(shù)用于內(nèi)容推薦。1997年:Pesnick等人首次提出推薦系統(tǒng)(recommenderssystem)這一概念。從此,推薦系統(tǒng)開始作為一個獨(dú)立的學(xué)科分類,成為一個獨(dú)立的研究領(lǐng)域。2003年,亞馬遜發(fā)表論文,公布了基于用品的協(xié)同過濾算法,并推出了電子商務(wù)推薦系統(tǒng),將推薦系統(tǒng)的研究推向高潮。2005年:Adomavicius等把推薦系統(tǒng)分為基于內(nèi)容的推薦、基于協(xié)同過濾的推薦、和混合推薦三大類別,為后續(xù)的研究奠定了基礎(chǔ)。2006年:北美洲Netflix舉辦比賽,向把電影推薦算法Cinematch的準(zhǔn)確度提高10%以上的參賽選手提供100萬美金的獎勵,大大推動了算法的革新。2007年:ACM第一屆推薦系統(tǒng)大會RecSys舉行,為推薦系統(tǒng)在不同領(lǐng)域的最新研究成果、系統(tǒng)和方法提供了一個交流學(xué)習(xí)的國際平臺。2016年:YouTube發(fā)表論文,提出將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用至推薦系統(tǒng)。推薦系統(tǒng)的應(yīng)用場景哪里有海量信息,哪里就有推薦系統(tǒng),我們每天最常用的APP都涉及到推薦功能:資訊類電商類娛樂類推薦系統(tǒng)的整體架構(gòu)數(shù)據(jù)源:推薦算法所依賴的各種數(shù)據(jù)源,包括物品數(shù)據(jù)、用戶數(shù)據(jù)、行為日志、其他可利用的業(yè)務(wù)數(shù)據(jù)、甚至公司外部的數(shù)據(jù)。計算平臺:負(fù)責(zé)對底層的各種異構(gòu)數(shù)據(jù)進(jìn)行清洗、加工,離線計算和實時計算。數(shù)據(jù)存儲層:存儲計算平臺處理后的數(shù)據(jù),根據(jù)需要可落地到不同的存儲系統(tǒng)中,比如Redis中可以存儲用戶特征和用戶畫像數(shù)據(jù),ES中可以用來索引物品數(shù)據(jù),F(xiàn)aiss中可以存儲用戶或者物品的embedding向量等。推薦系統(tǒng)的整體架構(gòu)召回層:各種推薦策略或算法,協(xié)同過濾算法,基于內(nèi)容的召回,基于向量的召回,用于托底的熱門推薦等。用戶過去行為物品特征物品相似性物以類聚:基于內(nèi)容的推薦算法用戶過去行為用戶間關(guān)聯(lián)關(guān)系物品特征物品相似性人以群分-基于用戶的協(xié)同過濾混合推薦:物以類聚、人以群分-基于物品的協(xié)同過濾用戶過去行為用戶間關(guān)聯(lián)關(guān)系物品特征物品相似性
用戶靜態(tài)特征:男女,地域,年齡,教育,etc…推薦系統(tǒng)的整體架構(gòu)特征關(guān)聯(lián)推薦系統(tǒng)的整體架構(gòu)排序?qū)樱豪脵C(jī)器學(xué)習(xí)或者深度學(xué)習(xí)模型,以及更豐富的特征進(jìn)行重排序,篩選出更小、更精準(zhǔn)的推薦集合返回給上層業(yè)務(wù)。融合過濾層:觸發(fā)多路召回:由于召回層的每個召回源都會返回一個候選集,因此這一層需要進(jìn)行融合和過濾。推薦系統(tǒng)的整體架構(gòu)從數(shù)據(jù)存儲層到召回層、再到融合過濾層和排序?qū)?,候選集逐層減少,但是精準(zhǔn)性要求越來越高,因此也帶來了計算復(fù)雜度的逐層增加,這個便是推薦系統(tǒng)的最大挑戰(zhàn)。評價指標(biāo)
《自然語言處理導(dǎo)論》第15章內(nèi)容生成與跨模態(tài)計算百度:自然語言生成是研究使計算機(jī)具有人一樣的表達(dá)和寫作的功能。即能夠根據(jù)一些關(guān)鍵信息及其在機(jī)器內(nèi)部的表達(dá)形式,經(jīng)過一個規(guī)劃過程,來自動生成一段高質(zhì)量的自然語言文本。維基百科:自然語言生成是自然語言處理的一部分,從知識庫或邏輯形式等等機(jī)器表述系統(tǒng)去生成自然語言。自然語言生成表格數(shù)據(jù)-文本數(shù)據(jù)的內(nèi)容生成研究動機(jī):語言更適合人類,數(shù)據(jù)更適合機(jī)器天氣WEATHERGOV數(shù)據(jù)集:來源于2009年收集的美國城市的本地天氣預(yù)報信息,包括溫度變化、風(fēng)速等。包含22100個樣本,樣本平均長度為28.7個詞匯,分屬于10個類別人物生平WIKIBIO數(shù)據(jù)集:于2016年發(fā)布,包含728,000個樣本,樣本平均長度為26.1個詞匯,屬性類別個數(shù)達(dá)1700個;來源于從WIKIProjectBiography上進(jìn)行抓取,每個樣本都由一個人物的生平信息表和原文的第一句話組成。NBA賽事ROTOWIRE數(shù)據(jù)集:于2017年發(fā)布,包含4900個樣本,每個樣本的平均長度為337.1個詞匯,屬性類別為39個;來源于對NBA
賽事的技術(shù)統(tǒng)計表以及對應(yīng)的摘要信息。其摘要信息由專業(yè)人士書寫,語言比較規(guī)范NBA賽事SBNATION數(shù)據(jù)集:于2017年發(fā)布,包含10900個樣本,樣本平均長度為805.4個詞匯,屬性類別達(dá)39個。來源于對NBA賽事的技術(shù)統(tǒng)計表,其摘要主要由NBA賽事的愛好者(業(yè)余人士)書寫,用語不太規(guī)范,較長,往往包含一些與表格信息中無關(guān)的信息,挑戰(zhàn)較大。黃蜂隊行數(shù)據(jù)列數(shù)據(jù)時間數(shù)據(jù)實例:根據(jù)體育數(shù)據(jù),生成新聞報道黃蜂隊行數(shù)據(jù)列數(shù)據(jù)時間數(shù)據(jù)向量表示三種不同向量的融合黃蜂隊行數(shù)據(jù)列數(shù)據(jù)時間數(shù)據(jù)向量表示三種不同向量的融合采用平均池化進(jìn)一步獲得信息采用自注意力機(jī)制過濾無效信息黃蜂隊行數(shù)據(jù)列數(shù)據(jù)時間數(shù)據(jù)向量表示三種不同向量的融合采用平均池化進(jìn)一步獲得信息采用自注意力機(jī)制過濾無效信息編碼器生成體育賽事的分析解碼器LSTM保真性表格內(nèi)容的選擇好壞對生成內(nèi)容的排列消融實驗行數(shù)據(jù)列數(shù)據(jù)時間數(shù)據(jù)三個不同向量的融合風(fēng)格遷移多模態(tài)文本-圖像生成對場景、角度進(jìn)行變化神經(jīng)網(wǎng)絡(luò):學(xué)習(xí)各種狗和背景生成策略:
周一,洛杉磯快船隊以107比101擊敗猶他爵士隊。克里斯-保羅本賽季拿下三雙,得到13分。在36分鐘內(nèi)得到10個籃板和12次助攻。他還投出了兩次搶斷和一次蓋帽……爵士隊的投籃效率相對較高,但他們有17次失誤,而……表格數(shù)據(jù)參考風(fēng)格最終輸出周一,休斯頓火箭隊以117比91擊敗圣安東尼奧馬刺隊。詹姆斯·哈登在本賽季取得了三雙,得到了16分。11個籃板和10次助攻。他還投出了三次搶斷……圣安東尼奧馬刺隊的投籃效率相對較高,但與休斯頓隊相比,他們有16次失誤……表格數(shù)據(jù)編碼器參考風(fēng)格編碼器解碼器交互層參考風(fēng)格編碼器參考風(fēng)格文本詞嵌入BiLSTM表格數(shù)據(jù)嵌入交互層參考風(fēng)格嵌入組成矩陣,行池化組成矩陣,列池化列池化結(jié)果與列池化結(jié)果拼接LSTM實現(xiàn)交互解碼器:逐詞生成文章解碼器表格數(shù)據(jù)信息完整性風(fēng)格的保持性回譯損失文本X采用風(fēng)格Y后,其語義與原語義之間的差異跨模態(tài)計算圖像描述技術(shù)圖像描述(imagecaption),一般可稱為圖像標(biāo)注或者看圖說話。其任務(wù)是根據(jù)輸入的圖片去生成一段描述性質(zhì)的語段,這涉及了對圖像中物體的感知以及對于不同物體之間關(guān)系的把握,是計算機(jī)視覺和自然語言處理的交叉研究。如圖所示,文本框第一行是機(jī)器描述,描述了圖片上的主體“婦女”正在做的事,即正在廚房準(zhǔn)備食物。文本框的第二行是人工描述,具體描述了該主體所在的方位及她周圍的環(huán)境及她所做的事——“一位婦女在近廚房洗碗池的柜子上切肉”??梢钥闯?,機(jī)器所生成的文本更加籠統(tǒng)簡潔,人工生成的文本更加具體。圖像描述技術(shù)傳統(tǒng)的圖像描述采用基于模版和基于檢索的方法。基于模版匹配的方法,將檢測對象、動作、場景和圖像屬性填入人工設(shè)計的、固定的句子模版當(dāng)中。該方法生成的描述并不總是流暢的,時有言不達(dá)意的情況發(fā)生?;跈z索的方法,則首先從大型數(shù)據(jù)庫中選擇一組視覺上相似的圖像,然后將檢索所得的圖像描述轉(zhuǎn)換為對應(yīng)查詢圖像的描述?;诓樵儓D像方法的內(nèi)容修改彈性很小,因為原內(nèi)容直接依賴于訓(xùn)練圖像的描述,難以生成新的描述。圖像描述技術(shù)傳統(tǒng)方法生成的句子結(jié)構(gòu)單一,會出現(xiàn)圖像理解的偏差,目前主流的圖像描述方法是基于“編碼-解碼”的方法。在編碼-解碼的描述框架中,可通過深度卷積神經(jīng)網(wǎng)絡(luò)處理全局視覺特征向量,從而對原始圖像進(jìn)行編碼,以表示圖像的整體語義信息。在通過卷積神經(jīng)網(wǎng)絡(luò)提取全局視覺向量后,可使用長短時記憶網(wǎng)絡(luò)(Longshort-TermMemory,LSTM)生成圖像對應(yīng)的句子。圖像描述的端到端框架編碼器-解碼器結(jié)構(gòu)(Encoder-decoder)于2014年被提出,主要思想是
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 園藝機(jī)械碳排放研究-洞察分析
- 脫附吸附平衡模型-洞察分析
- 醫(yī)生定期考核簡易程序述職報告范文(10篇)
- 淘寶店鋪流量分析-洞察分析
- 體育品牌的社會影響-洞察分析
- 吃低保的24種病申請書范文(9篇)
- 虛擬現(xiàn)實應(yīng)用研究-第1篇-洞察分析
- 稀土金屬應(yīng)用領(lǐng)域拓展-洞察分析
- 巖溶區(qū)土地利用變遷-洞察分析
- 云平臺高可用架構(gòu)-洞察分析
- 2024年度共享辦公空間租賃合同2篇
- 《血?dú)夥治龅呐R床應(yīng)》課件
- 2024年四級品酒師資格認(rèn)證考試題庫(濃縮400題)
- 國家電投《新能源電站單位千瓦造價標(biāo)準(zhǔn)值(2024)》
- 電影攝影及特殊拍攝技術(shù)(上海電影藝術(shù)職業(yè)學(xué)院)知到智慧樹答案
- 小兒全麻患者術(shù)后護(hù)理
- 山東省臨沂市2023-2024學(xué)年高二上學(xué)期期末考試政治試題 含答案
- 東北三省精準(zhǔn)教學(xué)2024-2025學(xué)年高三上學(xué)期12月聯(lián)考數(shù)學(xué)試卷
- 黑龍江省哈爾濱市2023-2024學(xué)年八年級上學(xué)期語文期末模擬考試試卷(含答案)
- 2024至2030年不銹鋼水龍頭項目投資價值分析報告
- 理論力學(xué)(浙江大學(xué))知到智慧樹章節(jié)答案
評論
0/150
提交評論