中文信息過(guò)濾_第1頁(yè)
中文信息過(guò)濾_第2頁(yè)
中文信息過(guò)濾_第3頁(yè)
中文信息過(guò)濾_第4頁(yè)
中文信息過(guò)濾_第5頁(yè)
已閱讀5頁(yè),還剩19頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

中文信息抽取專題蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院信息抽取概述含義從一段文本中抽取指定的事件、事實(shí)等信息,形成結(jié)構(gòu)化的數(shù)據(jù)并填入數(shù)據(jù)庫(kù)中供用戶查詢使用的過(guò)程。從文本中抽取用戶感興趣的事件、實(shí)體和關(guān)系被抽取的信息以結(jié)構(gòu)化的形式描述存儲(chǔ)到數(shù)據(jù)庫(kù)中為情報(bào)分析、檢測(cè)、比價(jià)購(gòu)物、自動(dòng)文摘、文本分類等各種應(yīng)用提供服務(wù)信息抽取應(yīng)用災(zāi)害預(yù)防部門(mén)從自然災(zāi)害的新聞報(bào)道中抽取出災(zāi)害的類型、時(shí)間、地點(diǎn)、人員傷亡、經(jīng)濟(jì)損失等情況從病人的醫(yī)療記錄中抽取出癥狀、診斷記錄和檢驗(yàn)結(jié)果稅務(wù)分析不同企業(yè)交稅記錄、發(fā)現(xiàn)異常模型和趨勢(shì)。。。信息抽取與文本理解信息抽取需要一定程度的理解只關(guān)心有限的感興趣的事實(shí)信息不關(guān)心文本意義的細(xì)微差別不關(guān)心作者的寫(xiě)作意圖等深層理解問(wèn)題信息抽取只能算一種淺層的文本理解信息抽取可以看作信息檢索的進(jìn)一步深化信息抽取實(shí)例課本P252從新聞中抽取出相關(guān)信息信息抽取與信息檢索密切相關(guān)但又存在差異功能不同檢索:從文檔集合中找文檔子集抽?。簭奈谋局蝎@取用戶感興趣的事實(shí)信息處理技術(shù)不同檢索:通常利用統(tǒng)計(jì)與關(guān)鍵詞等技術(shù)抽?。航柚谧匀徽Z(yǔ)言處理技術(shù)使用領(lǐng)域不同檢索:通常領(lǐng)域無(wú)關(guān)抽取:通常領(lǐng)域相關(guān)中文信息抽取的特殊性詞典、詞語(yǔ)切分和詞性標(biāo)注句法與語(yǔ)義分析句法成分的識(shí)別與標(biāo)引、關(guān)鍵字抽取、檢索特征集的抽取、索引等句群分析與篇章表示歷史與現(xiàn)狀20世紀(jì)60年代起步LinguisticString紐約大學(xué)大規(guī)模的英語(yǔ)計(jì)算語(yǔ)法從醫(yī)療領(lǐng)域的X光報(bào)告和出院記錄抽取信息格式RogerSchank耶魯大學(xué)故事理解期望驅(qū)動(dòng)與數(shù)據(jù)驅(qū)動(dòng)歷史與現(xiàn)狀(續(xù))20世紀(jì)80年代商業(yè)應(yīng)用ATRANS自動(dòng)處理銀行壞賬JASPER通過(guò)新聞分析公司收入和盈利SCISOR分析公司合并與盈利蓬勃發(fā)展MUC會(huì)議MessageUnderstandingConference美國(guó)國(guó)防高級(jí)研究計(jì)劃委員會(huì)資助評(píng)測(cè)信息抽取系統(tǒng)87-98進(jìn)行了7次中文信息抽取起步中文起步晚主要研究工作中文命名實(shí)體的識(shí)別參加MUC-7評(píng)測(cè)臺(tái)灣國(guó)立大學(xué)新加坡肯特崗數(shù)字實(shí)驗(yàn)室信息抽取系統(tǒng)的評(píng)測(cè)召回率準(zhǔn)確率F指數(shù)召回率和準(zhǔn)確率的加權(quán)幾何平均信息抽取任務(wù)(一)命名實(shí)體NE最主要的任務(wù)命名實(shí)體是文本中基本的信息元素,是正確理解文本的基礎(chǔ)狹義:指現(xiàn)實(shí)世界中具體或抽象的實(shí)體如人、組織、公司、地點(diǎn)等廣義:還可以包含時(shí)間、數(shù)量表達(dá)式等確切含義,根據(jù)具體應(yīng)用來(lái)確定信息抽取任務(wù)(二)模板元素TE模板元素又稱為實(shí)體的屬性通過(guò)槽(Slots)描述了命名實(shí)體的基本信息為命名實(shí)體建立各種屬性槽從而更加清楚地描述命名實(shí)體槽Slots名稱類別描述符種類信息抽取任務(wù)(三)共指CR不同的命名實(shí)體表達(dá)了相同的含義,這些實(shí)體之間的關(guān)系就是共指,也稱為等價(jià)概念共指任務(wù)在于抽取關(guān)于共指表達(dá)的信息包括那些已在命名實(shí)體和模板元素任務(wù)中作了標(biāo)記的對(duì)于某個(gè)命名實(shí)體的所有表述抽取方法:基于句法、基于“優(yōu)先知識(shí)”、基于簡(jiǎn)單共現(xiàn)、基于統(tǒng)計(jì)、基于決策樹(shù)、基于聚類、基于記憶的學(xué)習(xí)MBL、基于HNC理論信息抽取任務(wù)(四)模板關(guān)系TE模板元素之間的各種關(guān)系,又稱為事實(shí)法拉利-舒馬赫雇傭關(guān)系研究方法基于知識(shí)庫(kù)的方法基于特征的機(jī)器學(xué)習(xí)方法基于kernel的方法Bootstrapping方法信息抽取任務(wù)(五)場(chǎng)景模板ST又稱事件,是指實(shí)體發(fā)生的事件主要研究點(diǎn)模板的獲取手工寫(xiě)模板自動(dòng)獲取主流研究方向研究核心基于抽取事件動(dòng)詞來(lái)將其轉(zhuǎn)化為模板。首先抽取事件動(dòng)詞以及其主語(yǔ)動(dòng)賓形成候選模板,對(duì)候選模板排序,然后為事件動(dòng)詞建立域本體論,最后對(duì)其分類信息抽取系統(tǒng)的構(gòu)建方法知識(shí)工程方法基于規(guī)則的方法靠手工編制規(guī)則使系統(tǒng)能處理特定只是領(lǐng)域的信息抽取問(wèn)題性能好、易開(kāi)發(fā)缺乏人才、開(kāi)發(fā)過(guò)程耗時(shí)信息抽取系統(tǒng)的構(gòu)建方法(續(xù))自動(dòng)訓(xùn)練方法通過(guò)學(xué)習(xí)已經(jīng)標(biāo)記好的語(yǔ)料獲取規(guī)則通過(guò)學(xué)習(xí)已經(jīng)標(biāo)記好的語(yǔ)料庫(kù)獲取規(guī)則,任何對(duì)該領(lǐng)域比較熟悉的人都可以根據(jù)事先的約定的規(guī)范標(biāo)記語(yǔ)料庫(kù)。經(jīng)過(guò)訓(xùn)練的系統(tǒng)能夠處理沒(méi)見(jiàn)過(guò)的新文本。開(kāi)發(fā)速度快于知識(shí)工程需要足夠數(shù)量的訓(xùn)練數(shù)據(jù),才能保證其處理質(zhì)量通用信息抽取結(jié)構(gòu)Hobbs1993通用體系結(jié)構(gòu)文本分塊預(yù)處理過(guò)濾預(yù)分析分析片段組合語(yǔ)義解釋詞匯消歧共指消解或篇章處理模板生成BareBones結(jié)構(gòu)Hobbs結(jié)構(gòu)的簡(jiǎn)化版本由Applet和Israel提出符號(hào)化詞匯和詞法處理句法分析領(lǐng)域分析信息抽取中的自然語(yǔ)言處理技術(shù)命名實(shí)體識(shí)別句法分析文章分析和推理知識(shí)理解信息抽取技術(shù)基于規(guī)則的抽取技術(shù)信息抽取系統(tǒng)模型詞法分析命名實(shí)體識(shí)別部分句法分析場(chǎng)景模板匹配共指分析推理與事件整合隱馬爾可夫模型HMMHiddenMarkovModel一種隨機(jī)的有限狀態(tài)自動(dòng)機(jī)容易建立、無(wú)需大規(guī)模的詞典集和規(guī)則集

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論