多粒度分詞演示系統(tǒng)_第1頁
多粒度分詞演示系統(tǒng)_第2頁
多粒度分詞演示系統(tǒng)_第3頁
多粒度分詞演示系統(tǒng)_第4頁
多粒度分詞演示系統(tǒng)_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

蘇州大學(xué)本科生畢業(yè)設(shè)計(jì)(論文)蘇州大學(xué)本科生畢業(yè)設(shè)計(jì)(論文)蘇州大學(xué)本科生畢業(yè)設(shè)計(jì)(論文)蘇州大學(xué)本科生畢業(yè)設(shè)計(jì)(論文)AbstractTOC\o"1-5"\h\z前言 3\o"CurrentDocument"第1章緒論 4\o"CurrentDocument"1.1研究背景 4\o"CurrentDocument"1.2分詞概述 5\o"CurrentDocument"1.3本文的主要工作 6\o"CurrentDocument"第2章基于詞典匹配和動態(tài)規(guī)劃樹狀解碼的多粒度分詞算法 8\o"CurrentDocument"2.1算法實(shí)現(xiàn) 8\o"CurrentDocument"2.2優(yōu)化 10\o"CurrentDocument"2.3評價(jià) 10\o"CurrentDocument"第3章基于神經(jīng)網(wǎng)絡(luò)分類模型和動態(tài)規(guī)劃序列解碼的多粒度分詞方法 13133.1介紹13\o"CurrentDocument"3.2模型搭建 14\o"CurrentDocument"3.3模型訓(xùn)練 16\o"CurrentDocument"3.4模型結(jié)果處理 17\o"CurrentDocument"3.5評價(jià) 19\o"CurrentDocument"第4章多粒度分詞演示系統(tǒng)構(gòu)建 22\o"CurrentDocument"4.1后端程序 22\o"CurrentDocument"4.2網(wǎng)頁前端 23\o"CurrentDocument"4.3效果展示 24\o"CurrentDocument"第5章總結(jié)與展望 27\o"CurrentDocument"5.1本文總結(jié) 27\o"CurrentDocument"5.2后續(xù)工作展望 27\o"CurrentDocument"致謝 29\o"CurrentDocument"參考文獻(xiàn) 30附錄 32蘇州大學(xué)本科生畢業(yè)設(shè)計(jì)(論文)蘇州大學(xué)本科生畢業(yè)設(shè)計(jì)(論文)#4.2網(wǎng)頁前端網(wǎng)頁前端采用了HTML5+Ajax+JavaScript來編寫。HTML超級文本標(biāo)記語言是標(biāo)準(zhǔn)通用標(biāo)記語言下的一個(gè)應(yīng)用, 也是一種規(guī)范,一種標(biāo)準(zhǔn),它通過標(biāo)記符號來標(biāo)記要顯示的網(wǎng)頁中的各個(gè)部分。簡單來講,我們只需要一個(gè)文本框供用戶輸入文本, 一個(gè)按鈕點(diǎn)擊后產(chǎn)生結(jié)果,和一個(gè)畫布來展示結(jié)果。Ajax(AsynchronousJavaScriptandXML)異步的JavaScript和XML,是指一種創(chuàng)建交互式網(wǎng)頁應(yīng)用的網(wǎng)頁開發(fā)技術(shù)。傳統(tǒng)的前端與后臺的交互方法不得不讓整個(gè)頁面刷新,這樣做讓用戶體驗(yàn)大大下降,而 Ajax是一種用于創(chuàng)建快速動態(tài)網(wǎng)頁的技術(shù),在無需重新加載整個(gè)網(wǎng)頁的情況下,它能夠更新部分網(wǎng)頁,通過在后臺與服務(wù)器進(jìn)行少量數(shù)據(jù)交換,Ajax可以使網(wǎng)頁實(shí)現(xiàn)異步更新。以本文為例,單擊按鈕后,瀏覽器就利用Ajax技術(shù)異步地把數(shù)據(jù)傳到后臺服務(wù)器,而本身這個(gè)頁面不受任何影響,但服務(wù)器把數(shù)據(jù)回發(fā)給瀏覽器時(shí),瀏覽器就可以完成指定動作,比如在下方畫出圖像,無需重新加載整個(gè)頁面。最后我們還要用JavaScript語言來畫出樹的形狀。根據(jù)需求,圖形中應(yīng)當(dāng)只有簡單的點(diǎn)、線和圓等形狀,所以本文沒有采用第三方 js圖形庫,直接用html提供的canvas元素來動態(tài)地繪制。算法4:畫出樹狀圖1:確定整個(gè)樹的根節(jié)點(diǎn)位置2:input:tree,根節(jié)點(diǎn)位置3:function(tree,root_x,root_y):4:iftreeisnotleaf::5: forsubtreeintree::6 確定subtree的根節(jié)點(diǎn)位置7: 畫出根節(jié)點(diǎn),并與上一層根節(jié)點(diǎn)相連8: subtree遞歸調(diào)用9: endfor要畫一棵樹必然要遍歷該棵樹,遍歷的順序決定了畫節(jié)點(diǎn)的順序。我們以先序遍歷為模板來作圖,首先確定整棵樹根節(jié)點(diǎn)的位置,然后從該位置為起點(diǎn)遞歸地遍歷子樹。每次遞歸時(shí)要確定根節(jié)點(diǎn)的位置,而根節(jié)點(diǎn)的水平位置應(yīng)該位于該子樹所有葉子節(jié)點(diǎn)的中間,縱向位置由每層的高度決定。所以先計(jì)算該子樹的葉子節(jié)點(diǎn)的個(gè)數(shù), 然后取中間位置,在累加上前面子樹所有

葉子數(shù)量的間距就是該子樹根節(jié)點(diǎn)的橫坐標(biāo)。縱坐標(biāo)就是上一層根節(jié)點(diǎn)的縱坐標(biāo)加上每一層高度。畫出根節(jié)點(diǎn)后,再遞歸地畫子樹。如果是葉子節(jié)點(diǎn)(遇到list長度為1),遞歸結(jié)束。上一頁算法4列出了畫出樹狀圖的偽代碼,圖4.2展示了畫出一棵樹的結(jié)果。圖4.2:樹示意圖4.3效果展示服務(wù)器上運(yùn)行服務(wù)器程序后,在瀏覽器的地址欄輸入:http://localhost:5000/demo,如果遠(yuǎn)程訪問,則把localhost改為對應(yīng)IP。圖4.3是初始界面。多粒度分詞Demo圖4.3:演示系統(tǒng)初始界面(以谷歌瀏覽器為例)在文本框內(nèi)輸入想要分詞的句子,本文以“我是中國人”和“全國各地醫(yī)學(xué)界專

家走出人民大會堂”為例,點(diǎn)擊分析按鈕,下方會顯示出結(jié)果,各個(gè)標(biāo)簽的含義見2.1節(jié)。結(jié)果如圖4.4和圖4.5所示。圖4.4:“我是中國人”的分詞結(jié)果圖4.5:“全國各地醫(yī)學(xué)界專家走出人民大會堂”的分詞結(jié)果圖4.4:“我是中國人”的分詞結(jié)果圖4.5:“全國各地醫(yī)學(xué)界專家走出人民大會堂”的分詞結(jié)果該演示系統(tǒng)還支持JSON格式的API,只要在網(wǎng)頁端輸入http://localhost:5000/api?text^是中國人,則會返回分詞結(jié)果的JSON數(shù)據(jù)格式,也就是前文寫到的嵌套列表。本文在圖 4.6中貼出了python語言的調(diào)用格式實(shí)例fromurllibimp。r七requestfromurllib.parseinpor1:quoteimpcrtstring+ext='我是中國人,url^base='http://localhasT:&OQG/api?text=url=tirl_base十texturl-quoteurljsa_&=string.printableresponse^request.LLrlopen(tirL).read()response-response.decode(Fu_f-8')printresponse圖4.6:python3調(diào)用API示例第5章總結(jié)與展望本章節(jié)主要總結(jié)并分析了兩種多粒度分詞方法的優(yōu)點(diǎn)和缺點(diǎn),在此基礎(chǔ)上,以ANN模型實(shí)現(xiàn)的演示系統(tǒng)也存在不足。所以提出了幾種方法來進(jìn)一步提高準(zhǔn)確率,優(yōu)化演示系統(tǒng)的顯示結(jié)果。5.1本文總結(jié)本文先嘗試用兩種方法實(shí)現(xiàn)多粒度分詞,并且在同一個(gè)測試集上評價(jià)。 CKY算法通過查字典給每個(gè)句子成分定義一個(gè)分值,然后通過動態(tài)規(guī)劃算法找出分值最大的一棵樹。另一種方法則是運(yùn)用了人工神經(jīng)網(wǎng)絡(luò)的強(qiáng)大功能, 把多粒度分詞看成是一個(gè)序列標(biāo)注任務(wù),直接找到每個(gè)字對應(yīng)的MWS標(biāo)簽來構(gòu)成一棵樹。根據(jù)實(shí)驗(yàn)結(jié)果我們可以得到以下結(jié)論:(1) CKY解碼方法受詞典和自定義的標(biāo)簽分值影響較大,在測試集上效果一般。但結(jié)果比較穩(wěn)定,算法簡單。(2) 多粒度分詞可以和單粒度分詞一樣轉(zhuǎn)化為序列標(biāo)注任務(wù)來解決。(3)前饋神經(jīng)網(wǎng)絡(luò)模型能夠有效地解決多粒度分詞問題, 在測試集上的表現(xiàn)遠(yuǎn)好于CKY解碼算法。但該模型對于訓(xùn)練集中未出現(xiàn)的詞比如人名,地名較敏感,結(jié)果不穩(wěn)定,同時(shí)模型訓(xùn)練耗時(shí)間,占用大量資源。最后本文通過調(diào)用實(shí)現(xiàn)的神經(jīng)網(wǎng)絡(luò)模型,實(shí)現(xiàn)了一個(gè)多粒度分詞演示系統(tǒng),根據(jù)用戶的輸入正確的顯示樹狀結(jié)構(gòu)。5.2后續(xù)工作展望該演示系統(tǒng)采用的是前饋神經(jīng)網(wǎng)絡(luò)模型。雖然該模型已經(jīng)達(dá)到95%的F值,但是仍存在以下幾點(diǎn)問題:它依靠一個(gè)固定大小的上下文窗口來獲取前后特征,無法獲取更長久的記憶信息,而且有時(shí)候上下文信息也會成為干擾噪音;分詞的結(jié)果容易受未出現(xiàn)的詞如人名地名的影響而出錯(cuò);英文等非中文字符結(jié)果異常;句子太長導(dǎo)致顯示結(jié)果難看。因此,后續(xù)工作可以分為如下幾點(diǎn):(1)進(jìn)一步提高準(zhǔn)確率,避免使用上下文窗口這樣的工具。為此可以嘗試選用更復(fù)雜的模型,比如循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(RecurrentNeuralNetwork)。[17]循環(huán)神經(jīng)網(wǎng)絡(luò)已被用于包括語言模型[18]和語音識別[19]在內(nèi)的各種任務(wù)中,并產(chǎn)生良好的結(jié)果。或者可以選擇長短時(shí)記憶LSTM(Long-ShortTermMemory)模型及雙向LSTM模型[20],它可以在特定時(shí)間范圍內(nèi)有效利用過去的特征 (通過正向狀態(tài))和未來的特征(通過反向狀態(tài))。雙向LSTM模型已經(jīng)在單粒度中文分詞領(lǐng)域取得卓越的效果 [21]。(2) 嘗試對非中文字符及句子進(jìn)行處理,盡可能不影響中文結(jié)果,甚至能正確分出詞語。例如可以單獨(dú)選擇英文語料進(jìn)行模型的訓(xùn)練。(3) 調(diào)整演示系統(tǒng)的顯示結(jié)果,避免一個(gè)句子或者文本太長,而使得整棵樹太寬??梢愿鶕?jù)句子長度動態(tài)的拉高每層之間的距離,平衡整棵樹的高度和寬度。致謝回顧畢業(yè)設(shè)計(jì)這一段時(shí)間,首先要感謝的是李正華老師。在準(zhǔn)備階段,李老師積極地引導(dǎo)我進(jìn)行相關(guān)調(diào)研,協(xié)助我制定畢業(yè)設(shè)計(jì)的計(jì)劃。由于我沒有任何自然語言處理的基礎(chǔ),李老師由淺入深地指導(dǎo)我編寫分詞算法,并且提供相關(guān)資料,讓我在學(xué)習(xí)過程中體會到了逐漸深入的樂趣。整個(gè)畢設(shè)過程中,每當(dāng)我遇到難題時(shí),他總是不遺余力地提出指導(dǎo)性意見;每當(dāng)我犯錯(cuò)時(shí),他也會嚴(yán)格的指出。非常感謝李老師每周都從百忙之中抽出時(shí)間來監(jiān)督我一周的學(xué)習(xí)情況,作為我未來研究生階段的導(dǎo)師,也感謝他帶我入門。其次我要感謝人類語言技術(shù)實(shí)驗(yàn)室的每一位成員,尤其是龔晨師姐。她在我畢業(yè)設(shè)計(jì)階段也提供了莫大的幫助。第一次寫多粒度分詞算法時(shí)她及時(shí)地幫助我分析問題,提供各類數(shù)據(jù)和資料。結(jié)果有問題時(shí),也總是不厭其煩地協(xié)助我找錯(cuò)誤。在第一次做神經(jīng)網(wǎng)絡(luò)模型的時(shí)候,沒有經(jīng)驗(yàn)的我多次向龔晨學(xué)姐探討問題,包括模型的訓(xùn)練評價(jià)等等各個(gè)細(xì)節(jié)都給我講解了清楚。也感謝實(shí)驗(yàn)室及李老師給我提供合適的編程環(huán)境。另外也要感謝我的同班同學(xué),尤其是趙俊杰同學(xué)。他在深度學(xué)習(xí)方面掌握了許多知識,經(jīng)常不厭其煩地給予我?guī)椭?。還有張宇同學(xué),我的舍友錢昊等等,我們在一起互相監(jiān)督,互相激勵(lì),共同前行。有問題一起討論解決,沒有他們我將寸步難行,謝謝他們陪我度過這愉快的四年時(shí)光。最后,我要感謝我的父母。除了謝謝他們在經(jīng)濟(jì)上支持我完成大學(xué)時(shí)光甚至未來的研究生階段,每周父母都會慰問我生活情況和學(xué)習(xí)情況,鼓勵(lì)我好好學(xué)習(xí),這在精神上給了我非常大的幫助。因此在這里鄭重的感謝父母。參考文獻(xiàn)張黎,徐蔚然?中文分詞研究[J].軟件,2012,33(12):103-108.SproatR,GaleW,ShihC,etal.Astochasticfinite-stateword-segmentationalgorithmforChinese[J].ComputationalLinguistics,1996,22(3):377-404.黃昌寧,趙海.中文分詞十年回顧[J].中文信息學(xué)報(bào),2007,21(3):8-19.何國斌,趙晶璐.基于最大匹配的中文分詞概率算法研究[J].計(jì)算機(jī)工程,2010,36(5):173-175⑸ZhangHP.ModelofChineseWordsRoughSegmentationBasedonN-Shortest-PathsMethod[J].JournalofChineseInformationProcessing,2002,16(5):1-7.XueN.Chinesewordsegmentationascharactertagging[J].ComputationalLinguisticsandChineseLanguageProcessing,2003,8(1):29-47.張梅山,鄧知龍,車萬翔,劉挺.統(tǒng)計(jì)與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[J].中文信息學(xué)報(bào),2012,26(02):8-12.ZhengX,ChenH,XuT.DeeplearningforChinesewordsegmentationandPOStagging[C]//ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.2013.PeiW,GeT,ChangB.Max-MarginTensorNeuralNetworkforChineseWordSegmentation[C]〃MeetingoftheAssociationforComputationalLinguistics.2014:293-303.MaJ,HinrichsE.AccurateLinear-TimeChineseWordSegmentationviaEmbeddingMatching[C]〃TheMeetingoftheAssociationforComputationalLinguisticsandthe,InternationalJointConferenceonNaturalLanguageProcessing.2015:247-252GongC,LiZ,ZhangM,etal.Multi-GrainedChineseWordSegmentation[C]〃ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.2017:692-703.梁喜濤顧磊沖文分詞與詞性標(biāo)注研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2015,25(02):175-180.吳建源.基于BP神經(jīng)網(wǎng)絡(luò)的中文分詞算法研究[J].廣東培正學(xué)院論叢,2011,30⑷:33-37.Jin,Zhihui,Tanakalshii,etal.UnsupervisedsegmentationofChinesetextbyuseofbranchingentropy[C]〃ACL2006,InternationalConferenceonComputationalLinguisticsand,MeetingoftheAssociationforComputationalLinguistics,ProceedingsoftheConference,Sydney,Australia,17-21July.DBLP,2006:625-638.FengH,ChenK,DengX,etal.AccessorvarietycriteriaforChinesewordextraction[J].ComputationalLinguistics,2004,30(1):75-93.SrivastavaN,HintonG,KrizhevskyA,etal.Dropout:asimplewaytopreventneuralnetworksfromoverfitting[J].JournalofMachineLearningResearch,2014,15(1):1929-1958.MikolovT,KarafiatM,BurgetL,etal.RecurrentneuralnetworkbasedIanguagemodel[C]〃INTERSPEECH2010,ConferenceoftheInternationalSpeechCommunicationAssociation,Makuhari,Chiba,Japan,September.DBLP,2010:10451048.MikolovT,DeorasA,PoveyD,etal.StrategiesfortraininglargescaleneuralnetworkIanguagemodels[C]〃AutomaticSpeechRecognitionandUnderstanding.IEEE,2012:196-201.GravesA.2005SpecialIssue:FramewisephonemeclassificationwithbidirectionalLSTMandotherneuralnetworkarchitectures[M].ElsevierScieneeLtd.2005.ChenX,QiuX,ZhuC,etal.LongShort-TermMemoryNeuralNetworksforChineseWordSegmentation[C].

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論