BERT模型實現(xiàn)自動問答機(jī)器人_第1頁
BERT模型實現(xiàn)自動問答機(jī)器人_第2頁
BERT模型實現(xiàn)自動問答機(jī)器人_第3頁
BERT模型實現(xiàn)自動問答機(jī)器人_第4頁
BERT模型實現(xiàn)自動問答機(jī)器人_第5頁
已閱讀5頁,還剩100頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

2021.5.252021.5.252021.5.252021.5.252021.5.25昇騰AI應(yīng)用

第五章基于MindSpore建模實踐

——BERT模型實現(xiàn)自動問答機(jī)器人

案例應(yīng)用場景

案例規(guī)劃部署

案例演示操作

案例相關(guān)知識案例應(yīng)用場景案例演示操作案例規(guī)劃部署案例相關(guān)知識

在NLP(自然語言處理)領(lǐng)域,與我們生活息息相關(guān)的就是問答系統(tǒng)(QA),它是機(jī)器與人交互最常見的方式,探索問答系統(tǒng)背后的技術(shù)。問答系統(tǒng)是人與機(jī)器交互最常見的形式,隨著知識圖譜技術(shù)的不斷完善,基于知識庫的問答系統(tǒng)越來越多的開始應(yīng)用在各種問答場景中?;谥R庫的問答(knowledgebasequestionanswering,KBQA)即給定自然語言問題,通過對問題進(jìn)行語義理解和解析,進(jìn)而利用知識庫進(jìn)行查詢、推理得出答案。具體的,從應(yīng)用領(lǐng)域的角度劃分,知識庫問答可以分為:開放域的知識問答,如百科知識問答;特定域的知識問答,如金融領(lǐng)域,醫(yī)療領(lǐng)域,宗教領(lǐng)域等,以客服機(jī)器人,教育/考試機(jī)器人或搜索引擎等形式服務(wù)于我們的日常生活。問答系統(tǒng)應(yīng)用場景案例應(yīng)用場景案例演示操作案例規(guī)劃部署

案例相關(guān)知識演示操作流程——下載數(shù)據(jù)數(shù)據(jù)準(zhǔn)備:演示操作流程——安裝依賴演示操作流程——實體識別加載數(shù)據(jù)演示操作流程——實體識別構(gòu)建處理器加載數(shù)據(jù)構(gòu)建預(yù)處理器演示操作流程——實體識別測試輸出測試輸出演示操作流程——實體識別模型構(gòu)建演示操作流程——實體識別模型訓(xùn)練演示操作流程——實體識別模型評估與模型保存演示操作流程——實體識別模型加載與預(yù)測演示操作流程——屬性映射加載數(shù)據(jù)演示操作流程——屬性映射測試輸出演示操作流程——屬性映射定義配置參數(shù)演示操作流程——屬性映射構(gòu)建預(yù)處理器演示操作流程——屬性映射模型構(gòu)建演示操作流程——屬性映射模型訓(xùn)練演示操作流程——屬性映射模型評估、保存與預(yù)測演示操作流程——問答系統(tǒng)構(gòu)建整合以上兩個步驟,就可以完成一個簡單的基于知識庫的問答系統(tǒng)。下面為具體說明:1.命名實體識別:輸入問題,使用BERT模型得到問題中的實體,在知識庫中檢索出包含該實體的所有知識組合。2.屬性映射:在包含實體的知識組合中,進(jìn)行屬性映射尋找答案,又可分為非語義匹配和語義匹配。非語義匹配:如果一個知識三元組的關(guān)系屬性是輸入問題的子集(相當(dāng)于字符串匹配),則該三元組對應(yīng)的答案匹配為正確答案。非語義匹配步驟可以大大加速匹配。<詳見技術(shù)文檔>案例應(yīng)用場景案例演示操作案例規(guī)劃部署

案例相關(guān)知識案例規(guī)劃部署案例應(yīng)用場景案例演示操作案例規(guī)劃部署

案例相關(guān)知識相關(guān)知識概述本節(jié)主要任務(wù):了解自然語言處理基本知識掌握循環(huán)神經(jīng)網(wǎng)絡(luò)算法掌握自然語言處理關(guān)鍵技術(shù)了解自然語言處理的應(yīng)用以及應(yīng)用系統(tǒng)第一節(jié):自然語言處理介紹第二節(jié):預(yù)備知識2.1語言模型2.2文本向量化2.3常用算法第三節(jié):鍵技術(shù)3.1分詞3.2詞性標(biāo)注3.3命名實體識別3.4關(guān)鍵詞提取3.5句法分析3.6語義分析第四節(jié):應(yīng)用系統(tǒng)第一節(jié):自然語言處理介紹第二節(jié):預(yù)備知識語言模型文本向量化常用算法第三節(jié):鍵技術(shù)分詞詞性標(biāo)注命名實體識別關(guān)鍵詞提取句法分析語義分析第四節(jié):應(yīng)用系統(tǒng)什么是自然語言?什么是自然語言?以語音為物質(zhì)外殼,由詞匯和語法兩部分組成的符號系統(tǒng)。文字和聲音是語言的兩種屬性。語言是人類交際的工具,是人類思維的載體;人類歷史上以語言文字形式記載和流傳的知識占人類知識總量的80%以上。是約定俗成的,有別于人工語言,比如Java、C++等程序設(shè)計語言。什么是自然語言處理?什么是自然語言處理(NaturalLanguageProcessing,NLP)?自然語言處理就是,利用計算機(jī)為工具對人類特有的書面形式和口頭形式的自然語言的信息,進(jìn)行各種類型處理和加工的技術(shù)。馮志偉自然語言處理可以定義為研究在人與人交際中以及在人與計算機(jī)交際中的語言問題的一門學(xué)科。自然語言處理要研制表示語言能力和語言應(yīng)用的模型,建立計算框架來實現(xiàn)這樣的語言模型,提出相應(yīng)的方法來不斷完善這樣的語言模型,根據(jù)這樣的語言模型設(shè)計各種實用系統(tǒng),并探討這些實用系統(tǒng)的評測技術(shù)。BillManaris自然語言處理的基本方法(1)能力模型通常是基于語言學(xué)規(guī)則的模型,建立在人腦中先天存在語法通則這一假設(shè)的基礎(chǔ)上,認(rèn)為語言是人腦的語言能力推導(dǎo)出來的,建立語言模型就是通過建立人工編輯的語言規(guī)則集來模擬這種先天的語言能力。又稱“理性主義的”語言模型,代表人物有Chomsky、Minsky。建模步驟:

語言學(xué)知識形式化形式化規(guī)則算法化算法實現(xiàn)自然語言處理的基本方法(2)應(yīng)用模型根據(jù)不同的語言處理應(yīng)用而建立的特定語言模型,通常是通過建立特定的數(shù)學(xué)模型來學(xué)習(xí)復(fù)雜的、廣泛的語言結(jié)構(gòu),然后利用統(tǒng)計學(xué)、模式識別和機(jī)器學(xué)習(xí)等方法來訓(xùn)練模型的參數(shù),以擴(kuò)大語言使用的規(guī)模。又稱“經(jīng)驗主義的”語言模型,代表人物有Shannon、Skinner。建模步驟大規(guī)模真實語料庫中獲得不同層級語言單位上的統(tǒng)計信息。依據(jù)較低級語言單位上的統(tǒng)計信息運用相關(guān)的統(tǒng)計推理技術(shù),來計算較高級語言單位上的統(tǒng)計信息。自然語言處理的基本方法(3)在NLP的發(fā)展過程中,其方法大致分為以下幾類:基于規(guī)則的方法基于統(tǒng)計的方法自然語言處理研究方向自然語言處理是計算機(jī)科學(xué)領(lǐng)域以及人工智能領(lǐng)域的一個重要的研究方向,是一門交叉性學(xué)科,包括了語言學(xué)、計算機(jī)科學(xué)、數(shù)學(xué)、心理學(xué)、信息論、聲學(xué)……NLP自然語言理解音位學(xué)形態(tài)學(xué)詞匯學(xué)句法學(xué)語義學(xué)語用學(xué)自然語言生成自然語言文本自然語言處理研究方向自然語言處理是計算機(jī)科學(xué)領(lǐng)域以及人工智能領(lǐng)域的一個重要的研究方向,是一門交叉性學(xué)科,包括了語言學(xué)、計算機(jī)科學(xué)、數(shù)學(xué)、心理學(xué)、信息論、聲學(xué)……NLP自然語言理解音位學(xué)形態(tài)學(xué)詞匯學(xué)句法學(xué)語義學(xué)語用學(xué)自然語言生成自然語言文本自然語言處理的三個層面詞法分析:包括分詞、詞性標(biāo)注、命名實體識別等。句法分析:包括句法結(jié)構(gòu)分析和依存關(guān)系分析等。語義分析:最終目的是理解句子表達(dá)的真實語義。源語言句子目標(biāo)語言句子第1步分析源語言句子的含義第2步生成目標(biāo)語言語義分析(SemanticAnalysis)句法分析(SyntaxAnalysis)詞法分析(LexicalAnalysis)[Intheroom],hebrokeawindow<withahammer>.介詞冠詞名詞代詞動詞冠詞名詞介詞冠詞名詞狀語主語謂語賓語補語自然語言處理的難點(1)詞法歧義:分詞:詞語的切分邊界比較難確定。嚴(yán)守一/把/手機(jī)/關(guān)/了嚴(yán)守/一把手/機(jī)關(guān)/了詞性標(biāo)注:同一個詞語在不同的上下文中詞性不同。我/計劃/v考/研/我/完成/了/計劃/n命名實體識別:人名、專有名稱、縮略詞等未登錄詞的識別困難。高超/nr/a華明/nr/nt移動/nt/v自然語言處理的難點(2)句法歧義:句法層面上的依存關(guān)系受上下文的影響。咬死了獵人的狗那只狼咬死了獵人的狗咬死了獵人的狗失蹤了那

只狼咬死了獵人的狗rq

nvvununRootHEDVOBATTATTSBVCMPRADRADATT咬死了獵人的狗失蹤了vv

ununvuRootHEDCMPRADRADATTSBVRADCOO自然語言處理的難點(3)語義歧義Atlast,acomputerunderstandsyoulikeyourmother.含義1:計算機(jī)會像你的母親那樣很好的理解你。含義2:計算機(jī)理解你喜歡你的母親。含義3:計算機(jī)會像理解你母親那樣去理解你。自然語言處理的難點(4)語用歧義“你真壞”當(dāng)對干了壞事的成年人說時,是一種嚴(yán)厲的苛責(zé)。當(dāng)媽媽對淘氣的兒子說時,實際表達(dá)的是對兒子的一種疼愛。當(dāng)戀愛中的女孩對男友說時,則是女孩在男友面前撒嬌的一種表現(xiàn)。自然語言處理的發(fā)展現(xiàn)狀已開發(fā)完成一批頗具影響的語言資料庫,部分技術(shù)已達(dá)到或基本達(dá)到實用化程度,并在實際應(yīng)用中發(fā)揮巨大作用。北大語料庫、HowNet。許多新研究方向不斷出現(xiàn)閱讀理解、圖像(視頻)理解、語音同聲傳譯。許多理論問題尚未得到根本性的解決未登錄詞的識別、歧義消解的問題、語義理解的難題。缺失一套完整、系統(tǒng)的理論框架體系。知識小考1.什么是自然語言處理?2.自然語言處理的基本方法有哪些?

本節(jié)介紹了自然語言處理的概念,自然語言處理的方法,自然語言處理的難點以及自然語言處理的發(fā)展現(xiàn)狀。第一節(jié):自然語言處理介紹第二節(jié):基礎(chǔ)知識2.1語言模型2.2文本向量化2.3常用算法第三節(jié):關(guān)鍵技術(shù)3.1分詞3.2詞性標(biāo)注3.3命名實體識別3.4關(guān)鍵詞提取3.5句法分析3.6語義分析第四節(jié):應(yīng)用系統(tǒng)什么是語言模型神經(jīng)網(wǎng)絡(luò)語言模型(1)

…………softmaxMostcomputationheretanh

……

Tablelook-upinC

MatrixC神經(jīng)網(wǎng)絡(luò)語言模型(2)Softmax層RNN層Embedding層大海藍(lán)色顏色的是的:0.3是:0.2…深度:0.3顏色:0.15溫度:0.05…是:0.4很:0.2…的:0.5…藍(lán)色:0.7綠色:0.15透明:0.1…N-gram語言模型

<s>IamLily</s><s>LilyIam</s><s>Idonotlikegreeneggsandham</s>p(I|<s>)=2/3=0.667p(am|I)=2/3=0.667p(</s>|Lily)=1/2=0.5NN語言模型與統(tǒng)計語言模型的關(guān)系

第一節(jié):自然語言處理介紹第二節(jié):基礎(chǔ)知識2.1語言模型2.2文本向量化2.3常用算法第三節(jié):關(guān)鍵技術(shù)3.1分詞3.2詞性標(biāo)注3.3命名實體識別3.4關(guān)鍵詞提取3.5句法分析3.6語義分析第四節(jié):應(yīng)用系統(tǒng)文本向量化(1)文本向量化:將文本表示成一系列能夠表達(dá)文本語義的向量。常用的向量化算法有:one-hotTF-IDFword2vecCBOW模型Skip-gram模型doc2vec/str2vecDM(DistributedMemory)DBOW(DistributedBagofWords)文本向量化(2)manwomankingqueenthreefouronetwodogcatfishapplegrapeorangeword2vec-CBOW模型

InputlayerHiddenlayerOutputlayer

word2vec-Skip-gram模型

InputlayerHiddenlayerOutputlayer

doc2vec-DM模型onDWWWParagraphidthecatsatClassifierAverage/ConcatenateParagraphMatrixdoc2vec-DBOW模型thecatsatonDParagraphidClassifierParagraphMatrix第一節(jié):自然語言處理介紹第二節(jié):基礎(chǔ)知識2.1語言模型2.2文本向量化2.3常用算法第三節(jié):關(guān)鍵技術(shù)3.1分詞3.2詞性標(biāo)注3.3命名實體識別3.4關(guān)鍵詞提取3.5句法分析3.6語義分析第四節(jié):應(yīng)用系統(tǒng)HMM模型(1)HMM模型(2)D61D86D83D65D42D87D63D65D42D84

隱馬爾可夫模型示意圖圖例說明:D61一個隱含狀態(tài)一個可見狀態(tài)從一個隱含狀態(tài)到下一個隱含狀態(tài)的轉(zhuǎn)換從一個隱含狀態(tài)到下一個可見狀態(tài)的輸出HMM模型(3)

HMM模型(4)

貝葉斯公式

觀測獨立性假設(shè),鏈?zhǔn)椒▌t齊次馬爾科夫假設(shè)

條件隨機(jī)場

線性鏈條件隨機(jī)場

條件隨機(jī)場(2)

RNN不同于傳統(tǒng)的機(jī)器翻譯模型僅僅考慮有限的前綴詞匯信息作為語義模型的條件項,遞歸神經(jīng)網(wǎng)絡(luò)(RNN)有能力將語料集中的全部前序詞匯納入模型的考慮范圍。Colah,2015,UnderstandingLSTMsNetworksosVUWxWWUV

WUV

WUV

LSTM長短期記憶網(wǎng)絡(luò)(LongShortTermMemory,LSTM):一種特殊的RNN類型,可以學(xué)習(xí)長期依賴信息。Colah,2015,UnderstandingLSTMsNetworks

A

AGRUColah,2015,UnderstandingLSTMsNetworks

l-+雙向RNN在經(jīng)典的循環(huán)神經(jīng)網(wǎng)絡(luò)中,狀態(tài)的傳輸是從前往后單向的。然而,在有些問題中,當(dāng)前時刻的輸出不僅和之前的狀態(tài)有關(guān)系,也和之后的狀態(tài)相關(guān)。這時就需要雙向RNN(BiRNN)來解決這類問題。例如預(yù)測一個語句中缺失的單詞不僅需要根據(jù)前文來判斷,也需要根據(jù)后面的內(nèi)容,這時雙向RNN就可以發(fā)揮它的作用。雙向RNN是由兩個RNN上下疊加在一起組成的。輸出由這兩個RNN的狀態(tài)共同決定。hanbingtao,2017,卷積神經(jīng)網(wǎng)絡(luò)osx知識小考1.詞袋模型的缺點有哪些?2.常見的網(wǎng)絡(luò)模型有哪些?

本節(jié)介紹了自然語言處理的語言模型,文本向量化以及常用算法。第一節(jié):自然語言處理介紹第二節(jié):基礎(chǔ)知識2.1語言模型2.2文本向量化2.3常用算法第三節(jié):關(guān)鍵技術(shù)3.1分詞3.2詞性標(biāo)注3.3命名實體識別3.4關(guān)鍵詞提取3.5句法分析3.6語義分析第四節(jié):應(yīng)用系統(tǒng)中文分詞的定義中文分詞(ChineseWordSegmentation):指的是將一個漢字序列切分成一個個單獨的詞。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。例如:一九九八年/中國/實現(xiàn)/進(jìn)出口/總值/達(dá)/一千零九十八點二億/美元規(guī)則分詞(1)規(guī)則分詞:是一種機(jī)械分詞方法,主要是通過維護(hù)詞典,在切分語句時,將語句中的每個字符串與詞表中的詞進(jìn)行逐一匹配,找到則切分,否則不予切分。按照匹配切分的方式,主要有:正向最大匹配法(MaximumMatchMethod,MM法)逆向最大匹配法(ReverseMaximumMatchMethod,RMM法)雙向最大匹配法(Bi-directctionMatchMethod,MM法)特點:簡單高效,詞典維護(hù)困難。網(wǎng)絡(luò)新詞層出不窮,詞典很難覆蓋到所有詞。規(guī)則分詞(2)正向最大匹配法:待切分字串S1;輸出詞串S2=“最大詞長MaxLen初始化S1是否為空輸出結(jié)果S2從S1左邊開始,取出候選字串W,W的長度不大于ManLen將W最右邊一個字去掉W是否為單字查詞典,看W是否在詞典中S2=S2+W+”/”S1=S1-W規(guī)則分詞(2)正向最大匹配法:待切分字串S1;輸出詞串S2=“最大詞長MaxLen初始化S1是否為空輸出結(jié)果S2從S1左邊開始,取出候選字串W,W的長度不大于ManLen將W最右邊一個字去掉W是否為單字查詞典,看W是否在詞典中S2=S2+W+”/”S1=S1-W統(tǒng)計分詞主要思想:將分詞作為字在字串中的序列標(biāo)注任務(wù)來實現(xiàn)的。每個字在構(gòu)造一個特定的詞語時都占據(jù)著一個確定的構(gòu)詞位置,如果相連的字在不同的文本中出現(xiàn)的次數(shù)越多,就證明這相連的字很可能就是一個詞。步驟:建立統(tǒng)計語言模型。對句子進(jìn)行單詞劃分,然后對結(jié)果進(jìn)行概率計算,獲得概率最大的分詞方式。如隱馬爾科夫(HMM)、條件隨機(jī)場(CRF)等。四個標(biāo)記:B=詞首M=詞中E=詞尾S=單獨成詞兩個標(biāo)記:B=詞首I=非詞首輸入:中華民族是不可戰(zhàn)勝的中華民族是不可戰(zhàn)勝的標(biāo)記:BMMESBEBESBIIIBBIBIB輸出:中華民族/是/不可/戰(zhàn)勝/的

深度學(xué)習(xí)分詞使用word2vec對語料的詞進(jìn)行嵌入,得到詞嵌入后,用詞嵌入特征輸入給雙向LSTM,對輸出的隱層加一個線性層,然后加一個CRF得到最終實現(xiàn)的模型。B-PER

E-PER

o

S-LOC

Wordembeddings混合分詞在實際工程應(yīng)用中,多是基于一種分詞算法,然后用其他分詞算法加以輔助。最常用的是先基于詞典的方式分詞,然后再用統(tǒng)計分詞方式進(jìn)行輔助。第一節(jié):自然語言處理介紹第二節(jié):基礎(chǔ)知識2.1語言模型2.2文本向量化2.3常用算法第三節(jié):關(guān)鍵技術(shù)3.1分詞3.2詞性標(biāo)注3.3命名實體識別3.4關(guān)鍵詞提取3.5句法分析3.6語義分析第四節(jié):應(yīng)用系統(tǒng)詞性標(biāo)注的定義詞性標(biāo)注:是指為句子是指為分詞結(jié)果中的每個單詞標(biāo)注一個正確的詞性的程序,也即確定每個詞是名詞、動詞、形容詞或者其他詞性的過程。例如:邁向/v充滿/v希望/n的/uj新/a世紀(jì)/n。詞性:是詞匯基本的語法屬性。目的:是很多NLP任務(wù)的預(yù)處理步驟,如句法分析、信息抽取,經(jīng)過詞性標(biāo)注后的文本會帶來很大的便利性,但也不是不可或缺的步驟。方法:基于規(guī)則的方法、基于統(tǒng)計的方法、基于深度學(xué)習(xí)的方法。第一節(jié):自然語言處理介紹第二節(jié):基礎(chǔ)知識2.1語言模型2.2文本向量化2.3常用算法第三節(jié):關(guān)鍵技術(shù)3.1分詞3.2詞性標(biāo)注3.3命名實體識別3.4關(guān)鍵詞提取3.5句法分析3.6語義分析第四節(jié):應(yīng)用系統(tǒng)命名實體識別(1)命名實體識別(NamedEntitiesRecognition,NER):又稱作“專名識別”,是指識別文本中具有特定意義的實體,主要包括人名、地名、機(jī)構(gòu)名、專有名詞等。例如:冶金/n工業(yè)部/n洛陽/ns耐火材料/l研究院/n。分類:NER研究的命名實體一般分為3大類(實體類、時間類和數(shù)字類)和7小類(人名、地名、組織機(jī)構(gòu)名、時間、日期、貨幣和百分比)。作用:與自動分詞、詞性標(biāo)注一樣,命名實體識別也是自然語言中的一個基礎(chǔ)任務(wù),是信息抽取、信息檢索、機(jī)器翻譯、問答系統(tǒng)等技術(shù)必不可少的組成部分。步驟:實體邊界識別確定實體類別(人名、地名、機(jī)構(gòu)名等)命名實體識別(2)難點:各類命名實體的數(shù)量眾多。命名實體的構(gòu)成規(guī)律復(fù)雜。嵌套情況復(fù)雜。長度不確定。深度學(xué)習(xí)NER字/詞向量Bi-LSTMCRF小強去培訓(xùn)中心學(xué)習(xí)WordembeddingsLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMB-PERE-PEROB-ORGI-ORGI-ORGE-ORGOO第一節(jié):自然語言處理介紹第二節(jié):基礎(chǔ)知識2.1語言模型2.2文本向量化2.3常用算法第三節(jié):關(guān)鍵技術(shù)3.1分詞3.2詞性標(biāo)注3.3命名實體識別3.4關(guān)鍵詞提取3.5句法分析3.6語義分析第四節(jié):應(yīng)用系統(tǒng)關(guān)鍵詞提取關(guān)鍵詞是代表文章重要內(nèi)容的一組詞,現(xiàn)實中大量文本不包含關(guān)鍵詞,因此自動提取關(guān)鍵詞技術(shù)能使人們便捷地瀏覽和獲取信息,對文本聚類、分類、自動摘要等起重要的作用。關(guān)鍵詞提取算法一般也可以分為有監(jiān)督和無監(jiān)督兩類。有監(jiān)督:主要是通過分類的方式進(jìn)行,通過構(gòu)建一個較為豐富和完善的詞表,然后通過判斷每個文檔與詞表中每個詞的匹配程度,以類似打標(biāo)簽的方式,達(dá)到提取關(guān)鍵詞的效果。無監(jiān)督:不需要人工生成、維護(hù)的詞表,也不需要人工標(biāo)準(zhǔn)語料輔助進(jìn)行訓(xùn)練。例如,TF-IDF算法、TextRank算法、主題模型算法(LSA、LSI、LDA)。TF-IDF算法(1)詞頻-逆文檔頻率算法(TermFrequency-InverseDocumentFrequency,TF-IDF):是一種基于統(tǒng)計的計算方法,常用于評估在一個文檔集中一個詞對某份文檔的重要程度。例如:

世界獻(xiàn)血日,學(xué)校團(tuán)體、獻(xiàn)血服務(wù)志愿者等可到血液中心參觀檢驗加工過程,我們會對檢驗結(jié)果進(jìn)行公示,同時血液的價格也將進(jìn)行公示。其中,“獻(xiàn)血”、“血液”、“進(jìn)行”、“公示”等詞出現(xiàn)的頻次均為2,如果從TF算法的角度,他們對于這篇文檔的重要性是一樣的。但是實際上明顯“血液”、“獻(xiàn)血”對這篇文檔來說更關(guān)鍵。TF-IDF算法(2)TextRank算法(1)TextRank算法的基本思想來源于Google的PageRank算法。PageRank算法是Google創(chuàng)始人拉里.佩奇和謝爾蓋.布林于1997年構(gòu)建早期的的搜索系統(tǒng)原型時提出的鏈接分析算法,該算法是用來評價搜索系統(tǒng)覆蓋網(wǎng)頁重要性的一種方法。其基本思想有兩條:鏈接數(shù)量。一個網(wǎng)頁被越多的其他網(wǎng)頁鏈接,說明這個網(wǎng)頁越重要。鏈接質(zhì)量。一個網(wǎng)頁被一個越高權(quán)值的網(wǎng)頁鏈接,也能表明這個網(wǎng)頁越重要。TextRank算法(2)TextRank算法(3)當(dāng)TextRank算法應(yīng)用到關(guān)鍵詞抽取任務(wù)時,與在自動摘要任務(wù)中應(yīng)用相比,主要有兩點不同:詞與詞之間的關(guān)聯(lián)沒有權(quán)重。每個詞不是與文檔中所有詞都有鏈接。由于第一點不同,此時TextRank中的分?jǐn)?shù)就退化為與PageRank一致;對于第二點不同,鏈接關(guān)系可以通過窗口來界定。LSA/LSI/LDA算法主題模型認(rèn)為在詞與文檔之間沒有直接的聯(lián)系,它們應(yīng)當(dāng)還有一個維度將它們串聯(lián)起來,這個維度稱為主題。每個文檔都應(yīng)該對應(yīng)著一個或者多個主題,而每個主題都會有對應(yīng)的詞分布,通過主題就可以得到每個文檔的詞分布。LSA\LSI算法

LDA算法(1)LDA算法假設(shè)文檔中主題的先驗分布和主題中詞的先驗分布都服從狄利克雷分布。然后通過對已有數(shù)據(jù)集的統(tǒng)計,就可以得到每篇文檔中主題的多項式分布和每個主題對應(yīng)詞的多項式分布。訓(xùn)練過程一般如下:隨機(jī)初始化,對語料中每篇文檔中的每個詞w,隨機(jī)地賦予一個topic編號z。重新掃描語料庫,對每個詞w按照吉布斯采樣公式重新采樣它的topic,在語料中進(jìn)行更新。重復(fù)以上語料庫的重新采樣過程直到吉布斯采樣收斂。統(tǒng)計語料庫topic-word共現(xiàn)頻率矩陣,該矩陣就是LDA的模型。LDA算法(2)經(jīng)過以上的步驟,就得到一個訓(xùn)練好的LDA模型,接下來就可以按照一定的方式針對新文檔的topic進(jìn)行預(yù)估,具體步驟如下:隨機(jī)初始化,對當(dāng)前文檔中的每個詞w,隨機(jī)地賦予一個topic編號z。重新掃描當(dāng)前文檔,按照吉布斯采樣公式,重新采樣它的topic。重復(fù)以上過程直到吉布斯采樣收斂。統(tǒng)計文檔中的topic分布即為預(yù)估結(jié)果。TopicdistributionofwordsTopicprobabilityTopicassignmentToken

第一節(jié):自然語言處理介紹第二節(jié):基礎(chǔ)知識2.1語言模型2.2文本向量化2.3常用算法第三節(jié):關(guān)鍵技術(shù)3.1分詞3.2詞性標(biāo)注3.3命名實體識別3.4關(guān)鍵詞提取3.5句法分析3.6語義分析第四節(jié):應(yīng)用系統(tǒng)句法分析句法分析的主要任務(wù)是識別出句子所包含的句法成分以及這些成分之間的依存關(guān)系,分為句法結(jié)構(gòu)分析和依存關(guān)系分析。一般以句法樹來表示句法分析的結(jié)果。你有個優(yōu)惠券快要過期了rvqndvuRootHEDSBVCOOVOBATTADVRADROOTIPNPVPNPNPNPNPNPNPNPNPNPNP你有個優(yōu)惠券快要過期了句法分析的重要性機(jī)器翻譯是NLP的一個主要領(lǐng)域,而句法分析是機(jī)器翻譯的核心數(shù)據(jù)結(jié)構(gòu),是對語言進(jìn)行深層次理解的基石。對于復(fù)雜語句,標(biāo)注樣本較少的情況下,僅僅通過詞性分析,不能得到正確的語句成分關(guān)系。第一節(jié):自然語言處理介紹第二節(jié):基礎(chǔ)知識2.1語言模型2.2文本向量化2.3常用算法第三節(jié):關(guān)鍵技術(shù)3.1分詞3.2詞性標(biāo)注3.3命名實體識別3.4關(guān)鍵詞提取3.5句法分析3.6語義分析第四節(jié):應(yīng)用系統(tǒng)語義分析語義分析是編譯過程的一個邏輯階段。語義計算的任務(wù):解釋自然語言句子或篇章各部分(詞、詞組、句子、段落、篇章)的意義。語法處理句子主干提取修飾詞語義提取部分語法過濾句型識別生成語義信息自然語句語義信息語義分析過程語義分析的重要性僅僅知道句子的結(jié)構(gòu),是否就可以了?

例如:三段論:所有人都得死,蘇格拉底是人,所以蘇格拉底也要死。推論:不可能一天讀完魯迅的作品,《藥》是魯迅的作品,所以一天不能讀完《藥》。通過上述案例可知,結(jié)構(gòu)上是合乎語法的,但語義上不合實際。因此,僅僅分析出句子的結(jié)構(gòu),并不能妥善的解決機(jī)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論