![2023自然語(yǔ)言處理導(dǎo)論 2詞匯分析_第1頁(yè)](http://file4.renrendoc.com/view/08b34544e0447ad2ce428e053115443f/08b34544e0447ad2ce428e053115443f1.gif)
![2023自然語(yǔ)言處理導(dǎo)論 2詞匯分析_第2頁(yè)](http://file4.renrendoc.com/view/08b34544e0447ad2ce428e053115443f/08b34544e0447ad2ce428e053115443f2.gif)
![2023自然語(yǔ)言處理導(dǎo)論 2詞匯分析_第3頁(yè)](http://file4.renrendoc.com/view/08b34544e0447ad2ce428e053115443f/08b34544e0447ad2ce428e053115443f3.gif)
![2023自然語(yǔ)言處理導(dǎo)論 2詞匯分析_第4頁(yè)](http://file4.renrendoc.com/view/08b34544e0447ad2ce428e053115443f/08b34544e0447ad2ce428e053115443f4.gif)
![2023自然語(yǔ)言處理導(dǎo)論 2詞匯分析_第5頁(yè)](http://file4.renrendoc.com/view/08b34544e0447ad2ce428e053115443f/08b34544e0447ad2ce428e053115443f5.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1第二章詞匯分析自然語(yǔ)言處理導(dǎo)論語(yǔ)言中的詞匯2.1詞語(yǔ)規(guī)范化2.2中文分詞2.3目錄Contents2詞性標(biāo)注2.4語(yǔ)言中的詞匯2.1詞語(yǔ)規(guī)范化2.2中文分詞2.3目錄Contents3詞性標(biāo)注2.42.1.1詞的形態(tài)學(xué)2.1.2詞的詞性2.1什么是詞?4詞(word)是形式和意義相結(jié)合的單位,也是語(yǔ)言中能夠獨(dú)立運(yùn)用的最小單位。例如:英文單詞``cat''具有的語(yǔ)義是``貓'',讀音為``/k?t/''掌握一個(gè)詞匯意味著知道其讀音和語(yǔ)義自然語(yǔ)言處理算法中詞通常也是基本單元詞的處理也是自然語(yǔ)言處理中重要的底層任務(wù),是句法分析、文本分類(lèi)、語(yǔ)言模型等任務(wù)的基礎(chǔ)。2.1語(yǔ)言中的詞匯5詞(word)通常是由語(yǔ)素(Morpheme)構(gòu)成。語(yǔ)素又稱詞素,是語(yǔ)言中意義的最小單元。語(yǔ)素與詞不同,語(yǔ)素不能夠獨(dú)立運(yùn)用而詞可以。只包含一個(gè)語(yǔ)素的詞語(yǔ)稱為簡(jiǎn)單詞(Simpleword)包含多個(gè)語(yǔ)素的詞稱為復(fù)雜詞(Complexword)
例如:“電燈”,包含“電”和“燈”兩個(gè)語(yǔ)素根據(jù)詞在語(yǔ)言中的用途的不同,詞還可以被劃分為實(shí)義詞和功能詞實(shí)義詞包含事物、行為、屬性和觀念等概念。功能詞則是指沒(méi)有清楚詞匯意義或與之有關(guān)的明顯概念的詞。2.1.1詞的形態(tài)學(xué)6雖然單詞的形式和意義之間的關(guān)系本質(zhì)上是任意的,但是由于社會(huì)的約定俗成,詞的形式具有服從于某種規(guī)則的內(nèi)在結(jié)構(gòu)。研究單詞的內(nèi)部結(jié)構(gòu)和其構(gòu)成方式的學(xué)科稱為形態(tài)學(xué)(Morphology),又稱構(gòu)詞學(xué)。詞是由一個(gè)或多個(gè)語(yǔ)素構(gòu)成,語(yǔ)素主要分成兩類(lèi):詞根(Lemma)和詞綴(Affix)。詞根也稱為原形或字典形,是指能在字典中查的到的語(yǔ)素,通常是一個(gè)詞最主要的語(yǔ)素。詞綴是其他附著在原形上的語(yǔ)素,幫助在原形基礎(chǔ)上衍生出新詞,包含前綴、中綴、后綴等。2.1.1詞的形態(tài)學(xué)7例如:
英語(yǔ)單詞unhappy中,happy為原形,-un為前綴
邦托克語(yǔ)單詞fumikas(是強(qiáng)壯的)中,fikas(強(qiáng)壯)為原形,-um-為中綴
俄語(yǔ)單詞barabanshchik(鼓手)中,baraban(鼓)為原形,-shchik為后綴
有些語(yǔ)言的單詞通常只包含一個(gè)或者兩個(gè)語(yǔ)素,但是有一些語(yǔ)言的單詞則包含多達(dá)十個(gè)以上的語(yǔ)素。漢語(yǔ)中每個(gè)單詞的語(yǔ)素都很少,也不會(huì)根據(jù)性、數(shù)、格、人稱等發(fā)生形態(tài)變化。2.1.1英語(yǔ)中常見(jiàn)詞形變換82.1.2詞的詞性9詞性(PartofSpeech,POS)也稱詞類(lèi),是根據(jù)詞在句子中扮演的語(yǔ)法角色以及與周?chē)~的關(guān)系對(duì)詞的分類(lèi)。例如:表示事物的名字(“鋼琴”),地點(diǎn)(“上?!保┩ǔ1粴w為名詞而表示動(dòng)作(“踢”),狀態(tài)(“存在”)的詞被歸為動(dòng)詞詞可以分為實(shí)義詞(ContentWords)和功能詞(FunctionWords)實(shí)義詞表達(dá)具體的意義。由于實(shí)義詞可以不斷地增加,因此這類(lèi)詞又被稱作開(kāi)類(lèi)詞(Openclasswords)。實(shí)義詞主要包含名詞、動(dòng)詞、形容詞等。功能詞則主要是為了滿足語(yǔ)法功能需求。由于功能詞相對(duì)比較穩(wěn)定,一個(gè)語(yǔ)言中通常很少增加新的功能詞,因此功能詞又被稱作閉類(lèi)詞(CloseClassWords)2.1.2詞的詞性10名詞(Noun)是表示人、物、地點(diǎn)以及抽象概念的一類(lèi)詞。例如:1)專有名詞:Shanghai(上海)NewYork(紐約)
2)類(lèi)名詞:city(城市)bird(鳥(niǎo))
3)集體名詞:family(家庭)army(軍隊(duì))
4)物質(zhì)名詞:water(水)light(光)
5)抽象名詞:music(音樂(lè))honesty(誠(chéng)實(shí))2.1.2詞的詞性11動(dòng)詞(Verb)是表示動(dòng)作或狀態(tài)的一類(lèi)詞,是英語(yǔ)中最復(fù)雜的一類(lèi)詞。例如:1)Boysflykites.(男孩們放風(fēng)箏)2)不及物動(dòng)詞:Birdsfly.(鳥(niǎo)會(huì)飛)3)連系動(dòng)詞:Therosesmellssweet.(玫瑰花香)4)助動(dòng)詞:Imayhavemeethimbefore.(我以前應(yīng)該見(jiàn)過(guò)他)5)限定動(dòng)詞:Johnreadspaperseveryday.(約翰每天都讀論文)6)不限定動(dòng)詞:Ihopetoseeyouthismorning.(我希望早上見(jiàn)到你)7)短語(yǔ)動(dòng)詞:TomcalledupGeorge.(湯姆給喬治打了電話)2.1.2詞的詞性12形容詞(Adjective)是用來(lái)描寫(xiě)或修飾名詞的一類(lèi)詞。例如:1)簡(jiǎn)單形容詞: a)由一個(gè)單詞構(gòu)成good(好的)long(長(zhǎng)的)
b)由現(xiàn)在分詞構(gòu)成interesting(令人感興趣的)
c)由過(guò)去分詞構(gòu)成learned(博學(xué)的)
2)復(fù)合形容詞:duty-free(免稅的)hand-made(手工制作的)
3)限制性形容詞:anItaliandish(一道意大利菜)
4)描述性形容詞:adeliciousItaliandish(一道美味的意大利菜)2.1.2詞的詞性13副詞(Adverb)是用來(lái)修飾動(dòng)詞、形容詞、其他副詞以及全句的詞。例如:1)簡(jiǎn)單副詞:just(剛剛)only(僅僅)2)復(fù)合副詞:somehow(不知怎地)somewhere(在某處)3)派生副詞:interesting‘→‘interestingly(有趣地)4)方式副詞:quickly(迅速)awkwardly(笨拙地)5)方向副詞:outside(外面)inside(里面)6)時(shí)間副詞:recently(最近)always(總是)7)強(qiáng)調(diào)副詞:very(很)fairly(相當(dāng))2.1.2詞的詞性14數(shù)詞(Numeral)是表示數(shù)目多少或者先后順序的一類(lèi)詞。例如:1)基數(shù)詞:one(1)nineteen(19)2)序數(shù)詞:first(第一)fiftieth(第五十)2.1.2詞的詞性15代詞(Pronoun)是代替名詞以及起名詞作用的短語(yǔ)、子句和句子的一類(lèi)詞。例如:1)人稱代詞:a)主格:I,you,he,she,it,we,theyb)賓格:me,you,him,her,it,us,them2)物主代詞:a)形容詞性物主代詞:my,your,his,her,its,our,theirb)名詞性物主代詞:mine,yours,his,hers,its,ours,theirs3)自身代詞:myself,yourself,himself,herself,itself,
ourselves,yourselves, themselves,oneself4)相互代詞:eachother,oneanother5)指示代詞:this,that,these,those6)疑問(wèn)代詞:who,whom,whose,which,what
7)關(guān)系代詞:who,whom,whose,which,that,as
8)不定代詞:some,something,somebody,someone,any,anything,anybody,anyone,no,
nothing,nobody,noone2.1.2詞的詞性16冠詞(Article)是置于名詞之前,說(shuō)明名詞所指的人或事物的一種功能詞。冠詞不能夠離開(kāi)名詞而獨(dú)立存在。英語(yǔ)中冠詞有三種冠詞:定冠詞(Definitearticle)“the”、不定冠詞(Indefinitearticle)“a/an”和零冠詞(Zeroarticle)。2.1.2詞的詞性17介詞(Preposition)又稱前置詞,是用于表示名詞或相當(dāng)于名詞的詞語(yǔ)與句中其它詞語(yǔ)的關(guān)系的一類(lèi)詞。介詞在句子中不單獨(dú)作為任何句子成分。介詞后面的名詞或者相當(dāng)于名詞的詞語(yǔ)叫做介詞賓語(yǔ),與介詞共同組合成介詞短語(yǔ)。例如:1)簡(jiǎn)單介詞:at,in,of,since2)復(fù)合介詞:asfor,asto,outof3)二重介詞:fromunder,frombehind4)短語(yǔ)介詞:accordingto,becauseof5)分詞介詞:including,regarding2.1.2詞的詞性18連詞(Conjunction)是連接單詞、短語(yǔ)、從句或句子的一類(lèi)詞。在句子中也不單獨(dú)作為句子成分。例如:1)簡(jiǎn)單連詞:and,or,but,if2)關(guān)聯(lián)連詞:both...and,notonly...butalso3)分詞連詞:supposing,considering4)短語(yǔ)連詞:asif,aslongas,inorderthat5)并列連詞:and,or,but,for6)從屬連詞:that,whether,when,becaus2.1.2詞的詞性19感嘆詞(Interjection)是用來(lái)表示喜怒哀樂(lè)等情緒或情感的一類(lèi)詞。感嘆詞也沒(méi)有實(shí)際意義,也不能在句子中構(gòu)成任何句子成分,但是與全句有關(guān)聯(lián)。例如:‘Oh‘,it’syou.啊,是你‘Ah‘,howpitiful!呀,多可惜2.1.2詞的詞性20在語(yǔ)言學(xué)研究中,對(duì)于詞性劃分的標(biāo)準(zhǔn)、依據(jù)甚至目的等都存在大量分歧。到目前為止,還沒(méi)有一個(gè)被廣泛認(rèn)可的統(tǒng)一劃分標(biāo)準(zhǔn)。在不同的語(yǔ)料集中所采用的劃分粒度和標(biāo)記符號(hào)也都不盡相同。英語(yǔ)賓州樹(shù)庫(kù)(PennTreeBank)使用了48種不同的詞性漢語(yǔ)賓州樹(shù)庫(kù)(ChinesePennTreebank)中漢語(yǔ)詞性被劃分為33類(lèi)布朗語(yǔ)料庫(kù)(BrownCorpus)中則使用了具有87個(gè)詞性2.2詞語(yǔ)規(guī)范化21詞語(yǔ)規(guī)范化(WordNormalization)任務(wù)是將單詞或詞形轉(zhuǎn)化為標(biāo)準(zhǔn)形式,針對(duì)有多種形式的單詞使用一種單一的形式進(jìn)行表示。在對(duì)自然語(yǔ)言文本進(jìn)行分析前,通常需要對(duì)文本進(jìn)行規(guī)范化的處理。文本的規(guī)范化處理主要包含句子切分、詞語(yǔ)切分、詞語(yǔ)規(guī)范化等步驟。由于絕大部分語(yǔ)言的句子結(jié)束符數(shù)量有限,符號(hào)歧義性相對(duì)容易處理,因此句子切分通過(guò)詞典結(jié)合模板或者有監(jiān)督分類(lèi)方法都可以達(dá)到較高的準(zhǔn)確率。語(yǔ)言中的詞匯2.1詞語(yǔ)規(guī)范化2.2中文分詞2.3目錄Contents22詞性標(biāo)注2.42.2.1詞語(yǔ)切分2.2.2詞形還原2.2.3詞干提取2.2.1詞語(yǔ)切分23對(duì)于絕大部分的印歐語(yǔ)系語(yǔ)言來(lái)說(shuō),詞語(yǔ)之間通常由分隔符區(qū)分開(kāi)來(lái)。英語(yǔ)是印歐語(yǔ)系(Indo-Europeanlanguages)的典型代表,英語(yǔ)句子中絕大部分單詞之間都由空格或標(biāo)點(diǎn)分割。漢語(yǔ)為代表的漢藏語(yǔ)系(Sino-Tibetanlanguages)的語(yǔ)言中,單詞之間通常沒(méi)有分隔符。因此在對(duì)文本進(jìn)行分析前,通常需要將句子切分為單詞序列,稱之為詞語(yǔ)切分(WordTokenization)。輸入:Let'sfirstunderstandwhat'sNLP.輸出:Let?'s?first?understand?what?'s?NLP?.2.2.1詞語(yǔ)切分24英語(yǔ)句子中絕大部分的單詞可以通過(guò)空格和標(biāo)點(diǎn)符號(hào)為分隔符進(jìn)行識(shí)別,但是還是存在一些例外情況例如:縮寫(xiě)(Prof.),日期(02/18/2022),數(shù)字(562,000),連字符(upper-case)等。需要特別注意的是,上例中Let's被切分為
Let?'s
詞形(Token)指的是在一個(gè)特定文檔中的某個(gè)能夠表達(dá)語(yǔ)義含義的字符序列。大部分情況下詞形和單詞沒(méi)有區(qū)別,但對(duì)于某些場(chǎng)景和算法有必要對(duì)單詞和詞形進(jìn)行區(qū)分。2.2.1詞語(yǔ)切分25在英語(yǔ)中,一些特殊的符號(hào)和數(shù)字也需要完整的保留到一起。比如數(shù)字(67.20)、時(shí)間(22:37)、微博話題標(biāo)簽(#北京2022年冬奧會(huì)#)、Email地址(cs_nlp@)等。在特定的應(yīng)用中有時(shí)也會(huì)將HongKong,Head,Shoulders,KneesandToes劃分為一個(gè)詞形通常情況下針對(duì)英語(yǔ)等印歐語(yǔ)系語(yǔ)言的詞語(yǔ)切分任務(wù)可以采用基于有限狀態(tài)自動(dòng)機(jī)(FiniteStateAutomata)融合正則表達(dá)式的方法完成。2.2.2詞形還原26詞形還原(Lemmatization)是將詞的各種變化形式還原其詞根的過(guò)程。通過(guò)詞形還原可以實(shí)現(xiàn)詞語(yǔ)的規(guī)范化,單詞的不同變化形式統(tǒng)一為詞根。例如:原始輸入句:Theyareworkingoninterestingtasks
詞形還原后:theybeworkoninterestingtask詞形分析是將一個(gè)詞分解成為語(yǔ)素的過(guò)程。對(duì)于英語(yǔ)來(lái)說(shuō),構(gòu)造包含所有絕大多數(shù)詞形的詞典能夠有效地支撐許多應(yīng)用場(chǎng)景。2.2.2詞形還原27對(duì)于某些語(yǔ)言(特別是土耳其語(yǔ)、阿拉伯語(yǔ)等黏著語(yǔ)系的語(yǔ)言)枚舉所有詞的詞形變換則是不可能的2.2.3詞干提取28詞干提取(Stemming)是詞形分析的簡(jiǎn)化版本,其目標(biāo)是將具有詞形變化(通常是屈折或派生)的詞語(yǔ)還原為其詞干(WordStem)與詞形分析不同,詞干提取并不要求還原的詞干一定與其語(yǔ)言學(xué)詞根完全一致,只需要將相關(guān)的單詞映射為統(tǒng)一的詞干。例如:詞干提取算法PorterStemmer
argue,argued,argues,arguing,以及
argus都轉(zhuǎn)換為argu.
2.2.3詞干提取29最簡(jiǎn)單的詞干提取算法可以通過(guò)查詢?cè)~表的方法獲得另外一種方法是后綴剝離(Suffix-stripping),通過(guò)定義一組規(guī)則,將特定的后綴從詞形中刪除例如:
如果單詞以ed結(jié)尾,則刪除ed
如果單詞以ing結(jié)尾,則刪除ing
如果單詞以ly結(jié)尾,則刪除ly
但是無(wú)法處理特殊變形(如:ran,took等)
2.2.3詞干提取30后綴替代(SuffixSubstitution)算法將單詞后綴替換為另外一個(gè)后綴。例如:
如果單詞以’ational’結(jié)尾,則替換為’ate’(relational→relate)
如果單詞以’ing’結(jié)尾,則替換為’ε’(working→work)
如果單詞以’zzes’結(jié)尾,則替換為’Z’(quizzes→quiz)
語(yǔ)言中的詞匯2.1詞語(yǔ)規(guī)范化2.2中文分詞2.3目錄Contents31詞性標(biāo)注2.42.3.1中文分詞概述2.3.2基于最大匹配的中文分詞2.3.3基于線性鏈條件隨機(jī)場(chǎng)的中文分詞2.3.4基于感知器的中文分詞2.3.5基于雙向長(zhǎng)短期記憶網(wǎng)絡(luò)的中文分詞2.3.6中文分詞評(píng)價(jià)方法2.3.7中文分詞語(yǔ)料庫(kù)32以英語(yǔ)為代表的印歐語(yǔ)系中詞之間通常有分隔符(空格等)來(lái)區(qū)分,詞可以比較容易地從句子中分割得到。以漢語(yǔ)為代表的漢藏語(yǔ)系,以及以阿拉伯語(yǔ)為代表的閃-含語(yǔ)系(Semito-Hamiticlanguages)中卻不包含明顯的詞之間的分隔符,而是由一串連續(xù)的字符構(gòu)成。因此,針對(duì)漢語(yǔ)等語(yǔ)言的處理算法通常首先需要進(jìn)行詞語(yǔ)切分。2.3中文分詞33中文分詞(ChineseWordSegmentation,CWS)是指將連續(xù)字序列轉(zhuǎn)換為對(duì)應(yīng)的詞序列的過(guò)程,也可以看做在輸入的序列中添加空格或其他邊界標(biāo)記的過(guò)程。2.3.1中文分詞概述例如:復(fù)旦大學(xué)是中國(guó)人自主創(chuàng)辦的第一所高等院校
分詞結(jié)果:復(fù)旦大學(xué)|是|中國(guó)人|自主|創(chuàng)辦|的|第一|所|高等|院校由于漢語(yǔ)中語(yǔ)素絕大部分是單個(gè)漢字,很多情況下單獨(dú)使用時(shí)也是詞語(yǔ),不單獨(dú)使用時(shí)又是構(gòu)詞成分,這使得漢語(yǔ)構(gòu)詞具有很大的靈活性和很強(qiáng)的組詞能力。34正是因?yàn)闈h語(yǔ)的這些特點(diǎn),中文分詞任務(wù)面臨了巨大的挑戰(zhàn)主要困難來(lái)自以下三個(gè)方面:分詞規(guī)范、歧義切分和未登錄詞識(shí)別。2.3.1中文分詞概述漢語(yǔ)中對(duì)詞的具體界定目前還沒(méi)有定論。1992年國(guó)家標(biāo)準(zhǔn)局頒布的《信息處理用現(xiàn)代漢語(yǔ)分詞規(guī)范》中大部分規(guī)定都是通過(guò)舉例和定性描述來(lái)體現(xiàn)。例如:“二字或三字詞,以及結(jié)合緊密、使用穩(wěn)定的二字或三字詞組,一律為分詞單位?!?/p>
如何定量計(jì)算?35北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所《北京大學(xué)語(yǔ)料庫(kù)加工規(guī)范》2.3.1中文分詞概述36由于漢語(yǔ)構(gòu)詞方式的靈活性,使得同一個(gè)漢語(yǔ)句子很可能產(chǎn)生多個(gè)不同的分詞結(jié)果,這些不同的分詞結(jié)果也被稱為切分歧義。2.3.1中文分詞概述例如:南京市長(zhǎng)江大橋
切分方式1:南京市|長(zhǎng)江大橋
切分方式2:南京|市長(zhǎng)|江大橋37交集型切分歧義是指漢字串AJB中,AJ、JB都可以分別組成詞匯,則漢字串AJB被稱為交集型切分歧義,此時(shí)漢字串J稱作交集串。交集型切分歧義也被稱為偶發(fā)歧義,當(dāng)兩個(gè)有交集的詞“偶然”的相鄰出現(xiàn)時(shí)這樣的歧義才會(huì)發(fā)生。2.3.1中文分詞概述例如:乒乓球拍賣(mài)完了。
切分方式1:乒乓|球|拍賣(mài)|完|了|。
切分方式2:乒乓|球拍|賣(mài)|完|了|。38組合型切分歧義是指如果漢字串AB滿足A,B,AB同時(shí)為詞,則漢字串AB被稱為組合型切分歧義。組合性切分歧義也稱為固有歧義,指的是詞固有的屬性,不依賴于“偶然”發(fā)生的上下文。2.3.1中文分詞概述例如:他馬上過(guò)來(lái)。
切分方式1:他|馬上|過(guò)來(lái)|。
切分方式2:他|馬|上|過(guò)來(lái)|。39真歧義是指如果漢字串ABC滿足多種切分方式下語(yǔ)法和語(yǔ)義均沒(méi)有問(wèn)題,只有通過(guò)上下文環(huán)境才能給出正確的切分結(jié)果,則漢字串ABC被稱為真歧義。2.3.1中文分詞概述例如:白天鵝在水里游泳。
切分方式1:白天|鵝|在|水|里|游泳|。
切分方式2:白天鵝|在|水|里|游泳|。40未登錄詞(OutOfVocabulary,OOV)又稱生詞(UnknownWords),是指在訓(xùn)練語(yǔ)料中沒(méi)有出現(xiàn)或者詞典當(dāng)中沒(méi)有,但是在測(cè)試數(shù)據(jù)中出現(xiàn)的詞?;谠~典的分詞方法所指的未登錄詞是指所依賴的詞典中沒(méi)有的單詞。對(duì)于完全基于統(tǒng)計(jì)機(jī)器學(xué)的方法,未登錄詞是指訓(xùn)練語(yǔ)料中沒(méi)有出現(xiàn)的單詞。對(duì)于融合詞典特征的統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法,未登錄詞是指訓(xùn)練語(yǔ)料和詞典中均未出現(xiàn)的詞。2.3.1中文分詞概述41漢語(yǔ)具有很強(qiáng)的靈活性,未登錄詞的類(lèi)型也十分復(fù)雜,可以粗略地將漢語(yǔ)文本中常見(jiàn)的未登錄詞分為以下類(lèi)型:新出現(xiàn)的普通詞匯:語(yǔ)言的使用會(huì)隨著時(shí)代的變化而演化出新的詞,這個(gè)過(guò)程在互聯(lián)網(wǎng)環(huán)境中顯得更為快速。例如:下載,給力,點(diǎn)贊,人艱不拆等。命名實(shí)體(NamedEntity):人名、地名、機(jī)構(gòu)名等;專業(yè)名詞:出現(xiàn)在專業(yè)領(lǐng)域的詞語(yǔ)(例如:偶氮二甲酸二乙酯,胞質(zhì)溶膠)?其他專有名詞:新出現(xiàn)的產(chǎn)品名、電影名、書(shū)籍名等。2.3.1中文分詞概述宗成慶教授在新聞?lì)I(lǐng)域的語(yǔ)料也進(jìn)行了分詞錯(cuò)誤分析,結(jié)果發(fā)現(xiàn)未登錄詞造成的分詞錯(cuò)誤超過(guò)98%42最大匹配(MaximumMatching)分詞算法主要包含前向最大匹配,后向最大匹配以及雙向最大匹配等三類(lèi)。這些算法試圖根據(jù)給定的詞典,利用貪心搜索策略找到分詞方案。2.3.2基于最大匹配的中文分詞43將分詞過(guò)程轉(zhuǎn)換為對(duì)字的分類(lèi)問(wèn)題對(duì)于輸入句子中的每一個(gè)字ci,根據(jù)它在分詞結(jié)果中的位置賦予不同的標(biāo)簽2.3.3基于線性鏈條件隨機(jī)場(chǎng)的中文分詞開(kāi)始(B)、中間(I)、結(jié)尾(E)以及單獨(dú)成詞(S)例如:輸入句子:他是研究生物化學(xué)的一位科學(xué)家。
分詞結(jié)果:他|是|研究|生物化學(xué)|的|一|位|科學(xué)家|。
對(duì)應(yīng)標(biāo)記:他/S是/S研/B究/E生/B物/I化/I學(xué)/E的/S一/B位/E科/B學(xué)/I家/E。/S44條件隨機(jī)場(chǎng)(ConditionalRandomField,CRF)試圖對(duì)多個(gè)變量在給定觀測(cè)值后的條件概率進(jìn)行建模。x={xl,x2,...,xn}為觀測(cè)序列,y={yl,y2,...,yn}為對(duì)應(yīng)的標(biāo)記序列,條件隨機(jī)場(chǎng)的目標(biāo)是構(gòu)建條件概率模型P(y|x)。2.3.3基于線性鏈條件隨機(jī)場(chǎng)的中文分詞圖2.1線性鏈條件隨機(jī)場(chǎng)結(jié)構(gòu)圖45條件隨機(jī)場(chǎng)使用勢(shì)函數(shù)和圖結(jié)構(gòu)上的團(tuán)來(lái)定義條件概率P(y|x)。給定觀測(cè)序列x,線性鏈?zhǔn)綏l件隨機(jī)場(chǎng)主要包含兩種關(guān)于標(biāo)記變量的團(tuán):?jiǎn)蝹€(gè)標(biāo)記變量yi和相鄰的標(biāo)記變量yi?1,yi。選用指數(shù)勢(shì)函數(shù)并引入特征函數(shù)(FeatureFunction)。2.3.3基于線性鏈條件隨機(jī)場(chǎng)的中文分詞tj(x,yi,yi?1,i)是轉(zhuǎn)移特征函數(shù)(Transitionfeaturefunction),用于刻畫(huà)相鄰標(biāo)記之間的相關(guān)關(guān)系觀測(cè)序列對(duì)它們的影響;s(x,yi,i)是狀態(tài)特征函數(shù)(Statusfeaturefunction),用于刻畫(huà)觀測(cè)序列對(duì)標(biāo)記變量的影響;462.3.3基于線性鏈條件隨機(jī)場(chǎng)的中文分詞針對(duì)中文分詞任務(wù),典型的轉(zhuǎn)移特征如下:典型的狀態(tài)特征如下:表示第i個(gè)觀測(cè)值為“復(fù)”時(shí),相應(yīng)的標(biāo)記yi
和yi?1
很可能分別為B和E表示第i個(gè)觀測(cè)值為“上”時(shí),相應(yīng)的標(biāo)記yi
很可能為B。472.3.3基于線性鏈條件隨機(jī)場(chǎng)的中文分詞針對(duì)中文分詞問(wèn)題,可以使用模板的方式從當(dāng)前字的上下文中構(gòu)建。表2.3列出了中文分詞任務(wù)常用的模板。其中T(c)表示字符c的類(lèi)型,包括阿拉伯?dāng)?shù)字、中文數(shù)字、標(biāo)點(diǎn)符號(hào)、英文字母等?;谔卣髂0搴陀?xùn)練語(yǔ)料,可以自動(dòng)生成轉(zhuǎn)移特征以及狀態(tài)特征。482.3.4基于感知器的中文分詞中文分詞可以定義為將連續(xù)字序列轉(zhuǎn)換為對(duì)應(yīng)的詞序列的過(guò)程。x={c1,c2,...,cn}表示輸入字序列,
y={w1,w2,...,wm}表示輸出詞序列F(x)表示最優(yōu)分詞結(jié)果中文分詞可以形式化地表達(dá)為:GEN(x)代表對(duì)于每一個(gè)輸入句子x可能的所有候選輸出,SCORE(y)為針對(duì)分詞結(jié)果y的評(píng)分函數(shù)。將每一個(gè)分詞后的單詞序列y定義為一個(gè)特征向量Φ(x,y)
492.3.4基于感知器的中文分詞將中文分詞任務(wù)轉(zhuǎn)化為上述問(wèn)題后,需要解決如下三個(gè)問(wèn)題:502.3.4基于感知器的中文分詞使用集束搜索(BeamSearch)算法進(jìn)行解碼,在每一步解碼過(guò)程中,從上一步解碼的所有候選集中選取前K個(gè)得分最高的結(jié)果繼續(xù)解碼512.3.4基于感知器的中文分詞對(duì)訓(xùn)練語(yǔ)料中每一個(gè)句子,根據(jù)現(xiàn)有模型參數(shù)進(jìn)行解碼得到分詞結(jié)果,與正確答案進(jìn)行比對(duì),如果結(jié)果錯(cuò)誤則更新參數(shù)α522.3.4基于感知器的中文分詞基于感知器的方法可以使用詞作為特征,而基于線性鏈條件隨機(jī)場(chǎng)的方法只能使用字作為特征532.3.5基于雙向長(zhǎng)短期記憶網(wǎng)絡(luò)的中文分詞方法將分詞過(guò)程轉(zhuǎn)換為對(duì)字的分類(lèi)問(wèn)題圖2.3基于BiLSTM+CRF的神經(jīng)網(wǎng)絡(luò)分詞模型框架542.3.5基于雙向長(zhǎng)短期記憶網(wǎng)絡(luò)的中文分詞方法552.3.6中文分詞評(píng)價(jià)562.3.7中文分詞語(yǔ)料庫(kù)語(yǔ)言中的詞匯2.1詞語(yǔ)規(guī)范化2.2中文分詞2.3目錄Contents57詞性標(biāo)注2.42.4.1基于規(guī)則的詞性標(biāo)注2.4.2基于隱馬爾可夫模型的詞性標(biāo)注2.4.3基于卷積神經(jīng)網(wǎng)絡(luò)的詞性標(biāo)注2.4.4詞性標(biāo)注評(píng)價(jià)方法2.4.5詞性標(biāo)注語(yǔ)料庫(kù)58詞性是詞語(yǔ)的基本屬性,根據(jù)其在句子中所扮演的語(yǔ)法角色以及與周?chē)~的關(guān)系進(jìn)行分類(lèi)。詞性標(biāo)注(Part-of-speechTagging,POSTagging)是指在給定的語(yǔ)境中確定句子中各詞的詞性詞性標(biāo)注的主要難點(diǎn)在于歧義性,即一個(gè)詞可能在不同的上下文中具有不同的詞性。兼類(lèi)詞多為常用詞,而且越是常用詞,其用法就越多北京大學(xué)計(jì)算語(yǔ)言學(xué)研究院200萬(wàn)字語(yǔ)料庫(kù)統(tǒng)計(jì),發(fā)現(xiàn)兼類(lèi)詞所占比例僅有11%,但是出現(xiàn)的次數(shù)卻達(dá)到了47%Brown語(yǔ)料庫(kù)的統(tǒng)計(jì)也發(fā)現(xiàn)超過(guò)80%的詞通常只有一個(gè)詞性還沒(méi)有一個(gè)被廣泛認(rèn)可的統(tǒng)一詞性劃分標(biāo)準(zhǔn),在不同的語(yǔ)料集中所采用的劃分粒度和標(biāo)記符號(hào)也都不盡相同2.4詞性標(biāo)注592.4詞性標(biāo)注60利用詞典和搭配規(guī)則針對(duì)詞語(yǔ)和上下文進(jìn)行分析,從而得到句子中每個(gè)詞語(yǔ)詞性BrillTagger在Brown語(yǔ)料庫(kù)上僅使用71個(gè)規(guī)則就得到接近95%的分析準(zhǔn)確率初始化:對(duì)于詞典中包含的詞語(yǔ),根據(jù)詞語(yǔ)最常使用的詞性設(shè)置初始值;對(duì)于詞典中沒(méi)有的
單詞根據(jù)詞性分析結(jié)果設(shè)置初始值(例如:以大寫(xiě)字母開(kāi)頭的設(shè)置為專有名詞)。規(guī)則轉(zhuǎn)換:根據(jù)補(bǔ)丁規(guī)則對(duì)初始標(biāo)注進(jìn)行轉(zhuǎn)換,補(bǔ)丁規(guī)則包含以下三類(lèi):
(a)如果某單詞詞性為a,并且其所在上下文為C,那么將其詞性轉(zhuǎn)換為b;
(b)如果某單詞詞性為a,并且其具有詞匯屬性P,那么將其詞性轉(zhuǎn)換為b;
(c)如果某單詞詞性為a,并且其周邊范圍R內(nèi)有一個(gè)詞匯
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 魯教版地理六年級(jí)下冊(cè)6.1《位置和范圍》聽(tīng)課評(píng)課記錄3
- 【部編人教版】八年級(jí)上冊(cè)歷史聽(tīng)課評(píng)課記錄 第11課 北洋政府的黑暗統(tǒng)治
- 浙教版數(shù)學(xué)七年級(jí)上冊(cè)5.2《解法》聽(tīng)評(píng)課記錄
- 環(huán)境監(jiān)測(cè)承包協(xié)議書(shū)
- 人教版地理八年級(jí)上冊(cè)《第一節(jié) 交通運(yùn)輸》聽(tīng)課評(píng)課記錄1
- 滬教版數(shù)學(xué)八年級(jí)下冊(cè)20.2《一次函數(shù)的圖象與性質(zhì)》聽(tīng)評(píng)課記錄1
- 湘教版數(shù)學(xué)九年級(jí)下冊(cè)《1.5 二次函數(shù)的應(yīng)用》聽(tīng)評(píng)課記錄1
- 六年級(jí)科學(xué)斜面聽(tīng)評(píng)課記錄
- 新北師大版數(shù)學(xué)一年級(jí)下冊(cè)《采松果》聽(tīng)評(píng)課記錄
- 蘇科版數(shù)學(xué)九年級(jí)上冊(cè)聽(tīng)評(píng)課記錄 用一元二次方程解決問(wèn)題
- 北京理工大學(xué)應(yīng)用光學(xué)課件(大全)李林
- 國(guó)家綜合性消防救援隊(duì)伍消防員管理規(guī)定
- 河南省三門(mén)峽市各縣區(qū)鄉(xiāng)鎮(zhèn)行政村村莊村名居民村民委員會(huì)明細(xì)
- 2023年全國(guó)各地高考英語(yǔ)試卷:完形填空匯編(9篇-含解析)
- 五年級(jí)上冊(cè)數(shù)學(xué)習(xí)題課件 簡(jiǎn)便計(jì)算專項(xiàng)整理 蘇教版 共21張
- 疼痛科的建立和建設(shè)
- 運(yùn)動(dòng)技能學(xué)習(xí)PPT課件
- 第六編元代文學(xué)
- 高考語(yǔ)文古詩(shī)詞必背重點(diǎn)提綱
- 超星爾雅學(xué)習(xí)通《大學(xué)生心理健康教育(蘭州大學(xué)版)》章節(jié)測(cè)試含答案
- 2020譯林版高中英語(yǔ)選擇性必修二單詞默寫(xiě)表
評(píng)論
0/150
提交評(píng)論