自然語言處理技術(shù)分享1_第1頁
自然語言處理技術(shù)分享1_第2頁
自然語言處理技術(shù)分享1_第3頁
自然語言處理技術(shù)分享1_第4頁
自然語言處理技術(shù)分享1_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、內(nèi)容大概分為:口然語言處理的簡介、關(guān)鍵技術(shù)、流程及應(yīng)用。首先,介紹一下什么是自然語言處理(也叫自然語言理解):語言學(xué)家劉涌泉在大百科全書(2002)中對口然語言處理的定義為'自 然語言處理是人工智能領(lǐng)域的主要內(nèi)容,即利用電子計(jì)算機(jī)等工具對人類所特冇 的語言信息(包括口語信息和文字信息)進(jìn)行各種加工,并建立各種類型的人- 機(jī)-人系統(tǒng),自然語言理解是其核心,其中包括語音和語符的自動(dòng)識(shí)別以及語音 的自動(dòng)合成?!睆奈⒂^上講,自然語言理解是指從自然語言到機(jī)器(計(jì)算機(jī)系統(tǒng))內(nèi)部之間的 一種映射。從宏觀上看,口然語言理解是指機(jī)器能夠執(zhí)行人類所期望的某些語言功能。 這些功能包括: 冋答有關(guān)提問;計(jì)算機(jī)

2、正確地冋答用自然語言輸入的有關(guān)問題 提取材料摘要;機(jī)器能產(chǎn)牛輸入文本的摘要 同詞語敘述;機(jī)器能用不同的詞語和句型來復(fù)述輸入的自然語言信息 不同語言翻譯。機(jī)器能把一種語言翻譯成另外一種語言自然語言處理的關(guān)鍵技術(shù)自然語言處理的關(guān)鍵技術(shù)包括:詞法分析、句法分析、語義分析、語用分析和語句分析。1. 詞法分析詞法分析的主耍冃的是從句子中切分出單詞,找出詞匯的各個(gè)詞素,并確定其詞義。詞法分析包括詞形和詞匯兩個(gè)方面。一般來講,詞形主要表現(xiàn)在對單詞的前 綴、后綴等的分析,而詞匯則表現(xiàn)在對整個(gè)詞匯系統(tǒng)的控制。在屮文全文檢索系 統(tǒng)中,詞法分析主要表現(xiàn)在對漢語信息進(jìn)行詞語切分,即漢語口動(dòng)分詞技術(shù)。通 過這種技術(shù)能夠

3、比較準(zhǔn)確的分析用戶輸入信息的特征,從而完成準(zhǔn)確的搜索過程。 它是中文全文檢索技術(shù)的重要發(fā)展方向。不同的語言對詞法分析冇不同的要求,例如英語和漢語就冇較大的差距漢語屮的每個(gè)字就是一個(gè)詞素,所以要找出各個(gè)詞素是相當(dāng)容易的,但要切 分岀各個(gè)詞就非常難。如”我們研究所冇?xùn)|西“,可以是“我們研究所冇?xùn)|四”也可是“我們一一研究所有東西”。英語等語言的單詞z間是用空格自然分開的,很容易切分一個(gè)單詞,因而很 方便找出句了的每個(gè)詞匯,不過英語單詞有詞性、數(shù)、時(shí)態(tài)、派生、變形等變化, 因而要找出各個(gè)詞索就復(fù)雜得多,需要對詞尾和詞頭進(jìn)行分析。如 uncomfortable 可以是 un-comfort-able 或

4、 uncomfort-able,因?yàn)?un、comfort、 able都是詞素。2. 句法分析句法分析是對用戶輸入的口然語言進(jìn)行詞匯短語的分析,目的是識(shí)別句了的 句法結(jié)構(gòu),實(shí)現(xiàn)自動(dòng)句法分析過程。其基本方法冇線圖分析法、短語結(jié)構(gòu)分析、 完全句法分析、局部句法分析、依存句法分析等。分析的目的就是找出詞、短語等的相互關(guān)系以及各自在句子中的作用等,并 以一種層次結(jié)構(gòu)來加以表達(dá)。這種層次結(jié)構(gòu)可以是從屈關(guān)系、直接成分關(guān)系,也 可以是語法功能關(guān)系。句法分析是曲專門設(shè)計(jì)的分析器進(jìn)行的,其分析過程就是構(gòu)造句法樹的過程, 將每個(gè)輸入的合法語句轉(zhuǎn)換為一棵句法分析樹。一個(gè)句子是由各種不同的句子成分組成的。這些成分可以

5、是單詞、詞組或從 句。句子成分述可以按其作用分為主語、謂語、賓語、賓語補(bǔ)語、定語、狀語、 表語等。這種關(guān)系可用一棵樹來表示,如對句了: he wrote a book.口j用圖示的樹形結(jié)構(gòu)來表示。3 語義分析語義分析是基于自然語言語義信息的一種分析方法,其不僅僅是詞法分析和 句法分析這樣語法水平上的分析,而是涉及到了單詞、詞組、句了、段落所包含 的意義。其目的是從句子的語義結(jié)構(gòu)表示言語的結(jié)構(gòu)。中文語義分析方法是基于 語義網(wǎng)絡(luò)的一種分析方法。語義網(wǎng)絡(luò)則是一種結(jié)構(gòu)化的,靈活、明確、簡潔的表 達(dá)方式。其實(shí)就是要識(shí)別一句話所表達(dá)的實(shí)際意義。比如弄清楚“干什么了”,“誰 干的”,“這個(gè)行為的原因和結(jié)果是

6、什么”以及“這個(gè)行為發(fā)生的吋間、地點(diǎn)及 其所用的工具或方法”等。4 語用分析語用分析相對于語義分析又增加了對上下文、語言背景、環(huán)境等的分析,從 文章的結(jié)構(gòu)中提取到意象、人際關(guān)系等的附加信息,是一種更高級(jí)的語言學(xué)分析。 它將語句中的內(nèi)容與現(xiàn)實(shí)生活的細(xì)節(jié)相關(guān)聯(lián),從而形成動(dòng)態(tài)的表意結(jié)構(gòu)。5 語境分析語境分析主要是指對原查詢語篇以外的大量“空隙”進(jìn)行分析從而更為正確 地解釋所要查詢語言的技術(shù)。這些“空隙”包括一般的知識(shí),特定領(lǐng)域的知識(shí)以 及杳詢用戶的需要等。它將口然語言與客觀的物理世界和主觀的心理世界聯(lián)系起 來,補(bǔ)充完善了詞法、語義、語用分析的不足。自然語言處理工具:opennlpopennlp是一個(gè)

7、基java機(jī)器學(xué)習(xí)工具包,用于處理自然語言文本。支持 大多數(shù)常用的nlp任務(wù),例如:標(biāo)識(shí)化、句了切分、部分詞性標(biāo)注、名稱抽取、 組塊、解析等。fudannlpfudannlp主要是為中文自然語言處理而開發(fā)的工具包,也包含為實(shí)現(xiàn)這些 任務(wù)的機(jī)器學(xué)習(xí)算法和數(shù)據(jù)集。木工具包及其包含數(shù)據(jù)集使用lgpl3. 0許可證。 開發(fā)語言為ja腹。功能:1. 文本分類、新聞聚類2. 中文分詞、詞性標(biāo)注、實(shí)體識(shí)別、關(guān)鍵詞抽取、依存句法分析、時(shí)間短 語識(shí)別3. 結(jié)構(gòu)化學(xué)習(xí)、在線學(xué)習(xí)、層次分類、聚類、精確推理。自然語言處理流程:2. 1獲取原始文本2. 2對文本進(jìn)行預(yù)處理2. 2. 1文本編碼格式2.2.2文本模式匹配

8、2.2.3規(guī)范化文木2. 3分詞文本屮起到關(guān)鍵作用的是一些詞,其至主要詞就能起到?jīng)Q定文本取向。中文分詞,出現(xiàn)了很多分詞的算法,有最大匹配法、最優(yōu)匹配法、機(jī)械匹配 法、逆向匹配法、雙向匹配法等。屮科院張華平博士研發(fā)的分詞工具ictclas,該算法經(jīng)過眾多科學(xué)家的認(rèn)定 是當(dāng)今中文分詞中最好的,并且支持用戶自定義詞典,加入詞典;對新詞,人名, 地名等的發(fā)現(xiàn)也具有良好的效果jieba分詞工具:支持繁體分詞;支持口定義詞典常見的分詞工具冇:word分詞器、ansj分詞器、stanford分詞器、fudannlp 分詞器、jieba分詞器jcseg分詞器mmseg4j分詞器ikanalyzer分詞器pao

9、ding 分詞器、smarten分詞器、hanlp分詞器等。2. 4去除停頓詞在信息檢索中,為節(jié)省存儲(chǔ)空間和提高搜索效率,在處理自然語言數(shù)據(jù)(或 文木)之前或之后會(huì)自動(dòng)過濾掉某些字或詞,這些字或詞即被稱為stop words(停用詞)。比如:的、有、得、了等這些詞。2. 5特征選擇在文本處理建模的預(yù)處理過程中,我們得到文本特征維度常常非常大,要得 到一個(gè)好的模型,需要做兩個(gè)工作:1、降維。模型的維度常常很大,這會(huì)加大模 型的運(yùn)行成本,并口不利于研究人員理解模型。2、去燥。維度很大時(shí),特征之間 會(huì)相互依賴,其至很多特征對模型分類是冇干擾作用的,去除這一部分特征將對 模型有提升作用。特征選擇和特征

10、抽取都能完成上面的工作。在文本處理中常采用特征選擇而非特征抽取,原因是特征選擇保持了特征 原來的面貌,有利于挖掘人員理解模型。在文本處理中常見的特征選擇方法有:文檔頻率(tf-idf)詞頻(tf)即為詞在一篇文檔屮出現(xiàn)的頻率。其中t ft,d表示詞t在第d個(gè)文檔的詞頻,nt表示詞t在文檔d出現(xiàn)的次數(shù),nd 表示文檔d屮詞的總數(shù)。逆向文檔頻率(idf)值衡量詞在某個(gè)文檔屮是否有代表 性,其計(jì)算公式:必=曲di 1)其屮idft是詞t的逆向文檔頻率,d是語料集的總文檔數(shù),dt是包含t的文檔數(shù)量,加1是做平滑處理。注意到tf-idf是和標(biāo)簽無關(guān)的,這意味著計(jì)算過程是 無監(jiān)督的,由于tf-idf無監(jiān)督

11、的特征,常常被用來表示文檔向量空間模型的向 量,從而能夠運(yùn)用于文檔的相似度計(jì)算和關(guān)鍵詞提取等。信息增益(information gain)信息增益是信息論中很重要的一個(gè)概念。在特征選擇中,該方法主要是通過評(píng)估詞項(xiàng)能夠給分類帶來多少的信息量,帶來的信息量越大,說明該詞項(xiàng)越重要。 信息量,也就是爛。對于一個(gè)變量x,它可能的取值有n多種,分別是xl ,x2 ,.,xn ,每一種取到的概率分別是pl ,p2 ,.,pn ,那么x的爛就定義為:h(x)= -pilog2(pi)/=0互信息(mutual information)互信息是信息論屮又一重要的概率,在文木處理屮用來說明詞t對于類別c 的貢獻(xiàn)程

12、度,互信息越大則貢獻(xiàn)程度越大?;バ畔⒂?jì)算是類別c關(guān)于t后驗(yàn)概率 與先驗(yàn)概率的比值的log。mc) = log2. 6利用算法進(jìn)行挖掘我們能夠利用各種算法進(jìn)行挖掘,可以對文本、新聞等進(jìn)行分類、聚類,可 以利用knn算法,樸素貝葉斯算法、決策樹算法、神經(jīng)網(wǎng)絡(luò)法、線性最小二乘法、 k-means算法、余弦相似度等算法。自然語言處理的應(yīng)用:口然語言處理的范圍涉及眾多方面,如語音的口動(dòng)識(shí)別與合成,機(jī)器翻譯, 自然語言理解,人機(jī)對話,信息檢索,文本分類,自動(dòng)文摘,等等。這些大致可以歸納為如卜'四個(gè)大的方向:(1) 語言學(xué)方向.它只研究語言及語言處理與計(jì)算相關(guān)的方面,而不管其在計(jì)算機(jī)上的具體實(shí) 現(xiàn)。

13、這個(gè)方向最重要的研究領(lǐng)域是語法形式化理論和數(shù)學(xué)理論。(2) 數(shù)據(jù)處理方向。是把自然語言處理作為開發(fā)語言研究相關(guān)程序以及語 言數(shù)據(jù)處理的學(xué)科來研究。這一方向早起的研究有屈丁數(shù)據(jù)庫的建設(shè)、各種機(jī)器 可讀的電子詞典的開發(fā),近些年來則冇大規(guī)模的語料庫的涌現(xiàn)。(3) 人工智能和認(rèn)知科學(xué)方向。在這個(gè)方向,自然語言處理被作為在計(jì)算 機(jī)上實(shí)現(xiàn)口然語言能力的學(xué)科來研究,探索自然語言理解的只能機(jī)制和認(rèn)知機(jī)制。 這一方向的研究與人工智能以及認(rèn)知科淫關(guān)系密切。(4) 語言工程方向。主要是把自然語言處理作為面向?qū)嵺`的、工程化的語言軟件開發(fā)來研究,這 一方向的研究一般稱為“人類語言技術(shù)”或者“語言工程”。口然語言處理常用

14、模型:1. n元模型該模型基于這樣一種假設(shè),第n個(gè)詞的出現(xiàn)只與前面nt個(gè)詞相關(guān),而與其它任何詞都 不相關(guān),整句的概率就是各個(gè)詞出現(xiàn)概率的乘積。這些概率可以通過肓接從語料中統(tǒng)計(jì)n 個(gè)詞同時(shí)出現(xiàn)的次數(shù)得到。2. 馬爾可夫模型以及隱馬爾可夫模型馬爾可夫模型實(shí)際上是個(gè)有限狀態(tài)機(jī),兩兩狀態(tài)間有轉(zhuǎn)移概率;隱馬爾可夫模型中狀態(tài) 不叮見,我們只能看到輸出序列,也就是每次狀態(tài)轉(zhuǎn)移會(huì)拋出個(gè)觀測值;當(dāng)我們觀察到觀測 序列麻,要找到最佳的狀態(tài)序列。3. 支持向量機(jī)模型支持向量機(jī)的目標(biāo)就是要根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理,構(gòu)造一個(gè)目標(biāo)函數(shù)將兩類模式盡可能地區(qū)分開來,通常分為兩類情況來討論,:(1)線性可分;(2)線性不可分。4 條件隨機(jī)場模型條件隨機(jī)場(crfs)是一種基于統(tǒng)計(jì)的序列標(biāo)記識(shí)別模型,由john lafferty等人在2001 年首次提出。它是一種無向圖模型,對于指定的節(jié)點(diǎn)輸入值,它能夠計(jì)算指定的節(jié)點(diǎn)輸出值 上的條件概率,其訓(xùn)練目標(biāo)是使得條件概率最大化。crfs具有很強(qiáng)的推理能力,能夠充分地利用上下文信息作為特征,述可以任意地添加 其他外部特征,使得模型能夠獲取的信息非常豐富。crfs通過僅使川一個(gè)指數(shù)模型作為在 給定觀測序列條件下整個(gè)標(biāo)記序列的聯(lián)合概率,使得該模型屮不同狀態(tài)下的不同特征權(quán)值可 以彼此交替,從而有效地解決了其他非牛成有向圖模型所產(chǎn)住的標(biāo)注偏吉的問題。這些特點(diǎn), 使得cr

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論