下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、河北農(nóng)業(yè)大學(xué)計算機檢索技術(shù)論文姓名:張曉騰專業(yè):計算機科學(xué)與技術(shù) 1101班學(xué)號:2011614530226 指導(dǎo)教師:趙洋摘要問答技術(shù)是自然語言處理領(lǐng)域中一個非常熱門的研究方向,它綜合運用了各種自然語言 處理技術(shù)。本文充分結(jié)合了漢語語言的特點以及計算語言學(xué)的技術(shù),對問答系統(tǒng)中信息檢索 模塊進(jìn)行了深入分析,指出了在實際的使用問答系統(tǒng)的時候,用戶的回答質(zhì)量參差不齊。關(guān)鍵詞:問答系統(tǒng),信息檢索,文檔質(zhì)量,語言模型,最大熵獨創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。據(jù) 我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的 研究成果。
2、1緒論隨著科學(xué)技術(shù)發(fā)展,尤其是信息技術(shù)突飛猛進(jìn),一方面人們在理論上的信息擁有量不斷 膨脹不斷豐富,一方面人們對信息的需求也與日俱增,對信息的質(zhì)量和相關(guān)度的要求也越來 越高,現(xiàn)有的檢索系統(tǒng),無論是受限領(lǐng)域的檢索還是互聯(lián)網(wǎng)搜索引擎,一般都是基于關(guān)鍵 字檢索。1. 2本文的主要工作及篇章結(jié)構(gòu)本文首先對問答系統(tǒng)的背景和研究現(xiàn)狀做出了闡述,然后介紹了中文問答系統(tǒng)的體系結(jié)構(gòu)。從功能和技術(shù)兩個角度對現(xiàn)有問答系統(tǒng)進(jìn)行劃分,并分析各種系統(tǒng)的特及優(yōu) 缺點。然后從系統(tǒng)框架、系統(tǒng)資源以及自然語言本身對基于自然語言的中文問答系統(tǒng)進(jìn)行了 詳細(xì)的介紹,與傳統(tǒng)的搜索引擎做了一個橫向的對比。緊接著對問答系統(tǒng)一個核心環(huán)節(jié)(信 息
3、檢索環(huán)節(jié))的四個模型進(jìn)行了分析,通過將文檔質(zhì)量融入到檢索模型中對現(xiàn)有的檢索模型 做出了改進(jìn),最后通過試驗驗證了這種改進(jìn)的有效性。本文篇章結(jié)構(gòu)如下:第一章介紹了問答系統(tǒng)的相關(guān)背景知識以及研究現(xiàn)狀。第二章分析了中文問答系統(tǒng)的體系結(jié)構(gòu)。第三章闡述了基于自然語言處理的中文問答系統(tǒng)的系統(tǒng)結(jié)構(gòu),還介紹了自然語言處理 第四章分析了四種傳統(tǒng)的檢索模型以及基于語言模型的檢索模型的優(yōu)缺點。第五章結(jié)論2中文問答系統(tǒng)的概述21中文問答系統(tǒng)體系結(jié)構(gòu)中文問答系統(tǒng)除了需要具有一般問答系統(tǒng)的功能處理外,還需要考慮中文的特性,在自 然語言處理中,中文在語法語義語用等諸方面都存在有別于西文的特性,比如分詞處理和詞 性標(biāo)注上面。因
4、此,國外的先進(jìn)技術(shù)往往不能直接應(yīng)用,只有將國外成熟的技術(shù)模型與中文 信息處理相結(jié)合,才能取得較好的結(jié)果。2.2問答系統(tǒng)分類現(xiàn)有問答系統(tǒng)的分類,大致可以分為:聊天機器人、基于知識庫的問答系統(tǒng)、問答式檢 索系統(tǒng)以及基于自由文本的問答系統(tǒng)。2. 2。1聊天機器人2. 2. 2基于知識庫的問答系統(tǒng)2. 2. 3問答式檢索系統(tǒng)2. 2. 4基于自由文本的問答系統(tǒng)2 . 3問答系統(tǒng)技術(shù)分類目前的問答按技術(shù)分為以下幾類:基于事實性問題問答技術(shù)、基于問答模式匹配的問答 技術(shù)和基于自然語言處理的問答技術(shù),分別介紹如下。2. 3. 1基于事實-性問題的問答技術(shù)2.3.2基于問答模式匹配的問答技術(shù)2.3.3基于自然
5、語言處理的問答技術(shù)3基于自然語言處理的中文問答系統(tǒng)概述3. 1系統(tǒng)框架系統(tǒng)主要包括五個部分:問題理解、信息檢索、信息處理、答案抽取、問題理解 (QuestionAnalysis);信息檢索(Information Retrieval);信息處理(Inforraation Processing);答案抽取(Answer Extraction).3. 2系統(tǒng)資源基于自然語言的問答系統(tǒng),其實現(xiàn)需要自然語言處理、知識聚類、數(shù)據(jù)挖掘等技術(shù)支撐。在充分利用這些技術(shù)的同時,也必須建立相應(yīng)的系統(tǒng)資源。3. 3自然語言處理.自然語言處理的任務(wù)是對語言的字、詞、句、篇章的語音形式和書面形式進(jìn)行輸入、輸 出、統(tǒng)計、
6、檢索、識別、分析、理解和生成。研究的核心問題是語言的自動理解(Language Understanding)和自動生成(Language Generation)。所以,計算語言學(xué)理論的任務(wù)是描述 和解釋自然語言的現(xiàn)象和規(guī)律,建立形式化的語言模型,并且提供相應(yīng)的算法,使其得以在 計算機上實現(xiàn)。自然語言處理的應(yīng)用目標(biāo)是使人與計算機之間用自然語言進(jìn)行交流。具體說 是建立各種處理自然語言的計算機應(yīng)用軟件系統(tǒng)。一般來說,科學(xué)研究轉(zhuǎn)化為產(chǎn)品的過程是 從理論研究、應(yīng)用研究到應(yīng)用技術(shù)。在我國的語言處理領(lǐng)域,人們也一直向往著能從某種語 言理論衍生出相應(yīng)的處理漢語的應(yīng)用系統(tǒng)。然而,由于學(xué)科發(fā)展的局限性和漢語本身的
7、復(fù)雜 性。4信息檢索41傳統(tǒng)的檢索模型傳統(tǒng)的信息檢索,主要是起源于圖書的管理學(xué),早期通過人員的手動編制,對每筆資料 定義其索引字(indexterm),用數(shù)個最符合文件內(nèi)容的關(guān)鍵詞來代表其整體含義,而用戶只 能透過關(guān)鍵詞的輸入來進(jìn)書名或文件的檢索:時至今日,檢索模型主要衍生有幾大類:布爾 模型(Boolean Model)、模糊邏輯模型(Fuzzy LogicModel)、向量模(Vector Model)及概率 模型(Probability Model)。42基于語言模型的信息檢索1統(tǒng)計語言模型。語言建模技術(shù)要解決的問題是,對于一個服從某個未知概率分布P的語言L,如何根據(jù)給 定的樣本集估計P
8、因此通過語言模型可以決定哪一個詞序列的可能性更大或是已知若干個 詞,預(yù)測下一個詞。語言模型首先在語音識別中提出,后來陸續(xù)用到光學(xué)字符識別、手寫字 識別、機器翻譯、信息檢索等領(lǐng)域。語言模型最常用的是N元模型,如果用變量w代表一個文 本中順序排列的11個詞,即W-wlW2 Wn,則統(tǒng)計語言模型的任務(wù)是給出任意詞序列w在文本 中出現(xiàn)的概率P(w)。2語言模型中的平滑技術(shù)。加1 平滑(Additive smoothing); Good. Turing估計;退化法(Backing-offsmoothingmodel;線性插值法(L inear Interpolated smoothing model)3
9、基于語言模型的以模型的概念。最近幾年提出的語言模型檢索系統(tǒng)將語音識別領(lǐng)域的語言模型技術(shù)引入信息檢索領(lǐng)域 來改善檢索系統(tǒng)的性能。Ponte和CroR在1998年首先提出基于語言模型的信息檢索系統(tǒng),他 們根據(jù)詞匯的分布規(guī)律為文檔集合中的每篇文檔構(gòu)建一元語言模型,查詢條件在概念上被理 解為由文檔的語言模型通過隨機過程生成的語言實例,而文檔與查詢條件的相關(guān)度評價標(biāo)準(zhǔn) 就是由文檔語言模型生成查詢條件概率的大小,生成概率越大也就是說該文檔和查詢條件越 相關(guān)。Miller等人將檢索過程看作是一個隱馬爾可夫隨機過程,通過將文檔語言模型和一般 語言模型平滑處理相結(jié)合來計算查詢條件和文檔的相關(guān)度,這個方法在TREC評測中獲得很好 的性能。語言模型檢索方法因為其比較堅實的數(shù)學(xué)理論基礎(chǔ),簡潔的概念模型和實際評測中 相對于傳統(tǒng)的向量空間模型能夠獲得更好的檢索效果等優(yōu)勢因素逐漸引起相關(guān)研究人員的5.1結(jié)論本文對中文問答系統(tǒng)做出較為全面具體的總結(jié)與回顧,特別是在問答系統(tǒng)的關(guān)鍵模塊之 一信息檢索模塊中提出了自己的一些想法。張曉騰二0一二年十月參考文獻(xiàn)【1】全球互聯(lián)網(wǎng)狀況統(tǒng)計.http:/www. clickz. com / stats【2】英國莫里(MORD調(diào)查公司.htip:/ www. mori. corn /【3】D. Moldovan et a1.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年倉儲調(diào)味品調(diào)料存儲服務(wù)合同
- 2025年家用電器擔(dān)保協(xié)議
- 2025年家電修理技能合作協(xié)議
- 2025年品牌推廣策略合約
- 2025年代理商區(qū)塊鏈技術(shù)協(xié)議
- 2025年農(nóng)村房產(chǎn)過戶協(xié)議
- 2025年環(huán)境資源贈與合同
- 工地電工2025年度勞動合同規(guī)范范本14篇
- 2024裝修合同中的采購合同范本
- 2025版塑料回收利用項目投資合作合同范本3篇
- GB/T 44888-2024政務(wù)服務(wù)大廳智能化建設(shè)指南
- 2023-2024學(xué)年江西省萍鄉(xiāng)市八年級(上)期末物理試卷
- 四則混合運算100道題四年級上冊及答案
- 四川省高職單招電氣技術(shù)類《電子基礎(chǔ)》歷年考試真題試題庫(含答案)
- 中級半導(dǎo)體分立器件和集成電路裝調(diào)工技能鑒定考試題庫(含答案)
- 2024年江西生物科技職業(yè)學(xué)院單招職業(yè)技能測試題庫帶解析答案
- 橋本甲狀腺炎-90天治療方案
- (2024年)安全注射培訓(xùn)課件
- 2024版《建設(shè)工程開工、停工、復(fù)工安全管理臺賬表格(流程圖、申請表、報審表、考核表、通知單等)》模版
- 部編版《道德與法治》六年級下冊教材分析萬永霞
- 酒店人防管理制度
評論
0/150
提交評論