Web新聞人物追蹤系統(tǒng)的設(shè)計與實現(xiàn)課件_第1頁
Web新聞人物追蹤系統(tǒng)的設(shè)計與實現(xiàn)課件_第2頁
Web新聞人物追蹤系統(tǒng)的設(shè)計與實現(xiàn)課件_第3頁
Web新聞人物追蹤系統(tǒng)的設(shè)計與實現(xiàn)課件_第4頁
Web新聞人物追蹤系統(tǒng)的設(shè)計與實現(xiàn)課件_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

Web新聞人物追蹤系統(tǒng)的設(shè)計與實現(xiàn)姓名:學(xué)號:00448160院系:信息科學(xué)技術(shù)學(xué)院專業(yè):計算機科學(xué)與技術(shù)指導(dǎo)教師: 1謝謝觀賞2019-9-11Web新聞人物追蹤系統(tǒng)的設(shè)計與實現(xiàn)姓名:謝謝觀賞提綱引言動機難點相關(guān)研究指代消解實體關(guān)系抽取具體工作文本中關(guān)鍵詞的提取人物指代消解時間指代消解簡歷型網(wǎng)頁/段落的判定人物蹤跡追蹤系統(tǒng)的實現(xiàn)總結(jié)22019-9-11謝謝觀賞提綱引言22019-9-11謝謝觀賞引言32019-9-11謝謝觀賞引言32019-9-11謝謝觀賞引言-動機廣泛的需求還沒有搜索引擎正式提供關(guān)于人物的搜索服務(wù)展示W(wǎng)ebdigest小組長期工作成果的展示平臺作為天網(wǎng)的一部分42019-9-11謝謝觀賞引言-動機廣泛的需求42019-9-11謝謝觀賞引言-難點胡錦濤主席將于5月6日至10日對日本進行5天的國事訪問。除東京外,他還將訪問橫濱和奈良,并從大阪啟程回國

時間指代消解,人物指代消解吳儀 中共中央政治局委員,國務(wù)院副總理。 女,漢族,1938年11月生,湖北武漢人,1962年4月加入中國共產(chǎn)黨,1962年8月參加工作,北京石油學(xué)院石油煉制系煉油工程專業(yè)畢業(yè),大學(xué)學(xué)歷,高級工程師。

1956年至1962年西北工學(xué)院國防系、北京石油學(xué)院石油煉制系煉油工程專業(yè)學(xué)習(xí)。1962年至1965年蘭州煉油廠車間技術(shù)員、政治部辦公室干事。1965年至1967年石油工業(yè)部生產(chǎn)技術(shù)司生產(chǎn)處技術(shù)員。

簡歷型網(wǎng)頁的判斷52019-9-11謝謝觀賞引言-難點胡錦濤主席將于5月6日至10日對日本進行5謝謝觀賞相關(guān)研究62019-9-11謝謝觀賞相關(guān)研究62019-9-11謝謝觀賞相關(guān)研究-指代消解-人物指代消解Borrow的STUDENT系統(tǒng):利用有限的啟發(fā)式規(guī)則Winograd的SHRDLU系統(tǒng):基于語法位置Wilks的Preferencesemantics系統(tǒng):利用簡單的語義知識的四級指代消解系統(tǒng)Hobbs算法:基于句法分析,通過搜索句法樹,尋找先行詞IdoDagan和AlonItai:利用共現(xiàn)模式從大規(guī)模語料庫中自動獲取約束Mitkov:有限知識方法,應(yīng)用一系列規(guī)則Soon:利用機器學(xué)習(xí),構(gòu)造一個分類器判斷是否是指代關(guān)系72019-9-11謝謝觀賞相關(guān)研究-指代消解-人物指代消解Borrow的ST謝謝觀賞相關(guān)研究-指代消解-時間指代消解InderjeetMani,George:一個時間消解的框架。 處理中文需要解決更多問題 借鑒:判斷一些不需要消解的情況使用分類器解決,選擇基準(zhǔn)時間時的思想82019-9-11謝謝觀賞相關(guān)研究-指代消解-時間指代消解Inderjeet謝謝觀賞相關(guān)研究-實體關(guān)系抽取Brin1998,Agichtein2000:先確定關(guān)系類別,然后基于關(guān)系對與描述模式在自然語言文本中的出現(xiàn)規(guī)律,自動學(xué)習(xí)語義化關(guān)系模式來找到關(guān)系對。Etzioni2004:根據(jù)關(guān)系的種子實例對自動生成關(guān)系抓取模板,并且能給每個新發(fā)現(xiàn)關(guān)系對一個屬于該類型的置信度。TakaakiHasegawa2004:基于實體對在文本中的共現(xiàn)定義關(guān)系,并利用共現(xiàn)文本對關(guān)系進行聚類、標(biāo)注。YutakaMatsuo2006:以一組科技論文網(wǎng)站和論文作者的主頁等半結(jié)構(gòu)化數(shù)據(jù)為研究對象,以此來發(fā)現(xiàn)作者之間的關(guān)系92019-9-11謝謝觀賞相關(guān)研究-實體關(guān)系抽取Brin1998,Agich謝謝觀賞具體工作102019-9-11謝謝觀賞具體工作102019-9-11謝謝觀賞具體工作-文本中關(guān)鍵詞的提取JianguoXiao2007: 一個詞W的重要程度由兩部分因素組成,一個是其他詞Ai(Ai!=W)的重要程度以及W和Ai的關(guān)系緊密程度,另外一個是W所在句子的重要程度以及W和這個句子的關(guān)系緊密程度。 同樣,一句話S的重要程度也有兩部分組成,一個是其他句子Bi(Bi!=S)的重要程度以及它和S的相似程度,另外一個是S所包含的詞的重要程度以及他們同這句話的關(guān)系。112019-9-11謝謝觀賞具體工作-文本中關(guān)鍵詞的提取JianguoXiao謝謝觀賞具體工作-文本中關(guān)鍵詞的提取詞語與詞語之間的關(guān)系

互信息(472978篇網(wǎng)頁,1308327個詞語,64312933對無序詞對)句子與句子之間的關(guān)系cosin值詞語與句子之間的關(guān)系一個迭代的過程計算每個句子和每個詞語的關(guān)鍵程度122019-9-11謝謝觀賞具體工作-文本中關(guān)鍵詞的提取詞語與詞語之間的關(guān)系互謝謝觀賞具體工作-人名指代消解-人名性別判定人名性別判定 獲得一個人名性別列表,總共包含5901個不同的姓名,通過統(tǒng)計每個名字對應(yīng)的所有人的性別,簡單地對這些名字的人的性別作出判斷,得到了一個判斷擁有名字N的人的性別的一個表。 問題:所獲得的名字的數(shù)量遠(yuǎn)遠(yuǎn)不能涵蓋新聞網(wǎng)頁中出現(xiàn)的人名,以至于在指代消解的時候,無法確定人物的性別,使得消解出錯。這一塊有待在今后工作中的改進。132019-9-11謝謝觀賞具體工作-人名指代消解-人名性別判定人名性別判定13謝謝觀賞具體工作-人名指代消解-姓名縮寫消解3月22日凌晨,巴勒斯坦哈馬斯(伊斯蘭抵抗運動)精神領(lǐng)袖艾哈邁德·亞辛的汽車遭以色列直升機導(dǎo)彈襲擊,亞辛及其兩名保鏢身亡。

解決方法:簡單的替換142019-9-11謝謝觀賞具體工作-人名指代消解-姓名縮寫消解3月22日凌晨,謝謝觀賞

具體工作-人名指代消解-流程152019-9-11謝謝觀賞 具體工作-人名指代消解-流程152019-9-謝謝觀賞具體工作-人名指代消解-評測隨機選取了20篇網(wǎng)頁,其中包含“他”和“她”共36個,是共消解36個,正確消解29個,精度是81%,召回度是100%。錯誤分析3個,人名識別接識別問題,如果接口能夠正確識別,精度應(yīng)該是89%2個,尋找先行人名錯誤2個,先行詞并沒有以人物姓名的形式出現(xiàn)在網(wǎng)頁中,而是以一些名詞或者“姓+名詞”的形式出現(xiàn),比如“司機”,“張醫(yī)生”,162019-9-11謝謝觀賞具體工作-人名指代消解-評測隨機選取了20篇網(wǎng)頁,其謝謝觀賞具體工作-時間指代消解-難點哪些需要消解? 對海量網(wǎng)頁中詞頻排名前1000的詞進行了統(tǒng)計和分析,得到了一些模式,并且整理了里面的能夠明確消解的時間詞語

“今天”,“今日”,“當(dāng)天”,“當(dāng)日”,“當(dāng)晚”,“今天上午”,“今晚”,“今天下午”,“當(dāng)天下午”,“當(dāng)天晚上”,“同一天”,“今夜”,“今年”,“下半年”,“上半年”,“今年上半年”,“今年下半年”,“今夏”,“今秋”,“今冬”,“今年夏天”,“同年”,“今年秋季”,“上周”,“本周”,“本月”,“下周”,“月底”,“周末”,“上周末”,“當(dāng)月”,“本月底”,“去年”,“上一年”,“上年”,“昨日”,“昨天”,“昨晚”,“昨天下午”,“昨天上午”,“昨日下午”,“昨日上午”,“前一天”,“昨天晚上”,“昨夜”,“明日”,“次日”,“明天”,“前天”,“明年”,“次年”,“前年”,“下月”,“上月”,“上個月”,“年底”,“今年年底”,“年終”,“年末”,“今年底”,“年初”,“今年年初”,“今年初”,“去年底”,“去年年底”,xxxx-xx-xx,xxxx.xx.xx,xx年,xx月,xx日,(x代表一個阿拉伯?dāng)?shù)字)

172019-9-11謝謝觀賞具體工作-時間指代消解-難點哪些需要消解?17201謝謝觀賞具體工作-時間指代消解-難點“九八年”,“2000年”

中文數(shù)字以及全角阿拉伯?dāng)?shù)字轉(zhuǎn)換成半角阿拉伯?dāng)?shù)字“1946年1月到8月”,“4月1日、7日、8日”

時間段、并列時間的處理引用中的時間不處理基準(zhǔn)時間的確定

一套規(guī)則是否是未來時間

考慮時間間隔“今天的中國”

是否需要消解182019-9-11謝謝觀賞具體工作-時間指代消解-難點“九八年”,“2000年謝謝觀賞

具體工作-時間指代消解-流程192019-9-11謝謝觀賞 具體工作-時間指代消解-流程192019-9-1謝謝觀賞具體工作-時間指代消解-評測隨機選取了50篇網(wǎng)頁,包含在消解范圍內(nèi)的時間詞248個,消解了242個,正確消解了223個,精度是92%,漏掉了6個,召回度是97%。錯誤的原因消解了不應(yīng)該消解的時間,有4個基準(zhǔn)時間判斷錯誤,有6個其余錯誤包括時間間隔處理的問題、接口識別的問題等還有一些詞不在本模塊規(guī)定的可消解范圍內(nèi),由于它的一部分屬于可消解詞,以至于被消解,如“農(nóng)歷三月等”。漏掉的原因4個因為接口沒有將這個時間識別出來,2個被簡單的認(rèn)為不應(yīng)該消解。202019-9-11謝謝觀賞具體工作-時間指代消解-評測隨機選取了50篇網(wǎng)頁,包謝謝觀賞具體工作-簡歷型網(wǎng)頁/段落的判定判斷簡歷型網(wǎng)頁判斷簡歷型段落 均根據(jù)調(diào)研情況制定一些規(guī)則,按照對人名、時間以及其他的統(tǒng)計數(shù)據(jù)作出判斷212019-9-11謝謝觀賞具體工作-簡歷型網(wǎng)頁/段落的判定判斷簡歷型網(wǎng)頁212謝謝觀賞具體工作-簡歷型網(wǎng)頁/段落的判定-評測使用了409篇網(wǎng)頁,共有67個簡歷網(wǎng)頁判斷簡歷型網(wǎng)頁精度:得到58篇簡歷的網(wǎng)頁,正確56篇,精度為97%。錯誤分析:一篇是講的憲法的歷史,期間提到了很多時間,而且除了開始出現(xiàn)了一個人名外,之后都沒有提到人,這些都符合了判斷簡歷型網(wǎng)頁的條件。另外一篇中本沒有提到人,但人名識別接口錯誤的識別出了一個人名,同時符合判定的其他標(biāo)準(zhǔn)召回度:83%錯誤分析:2篇,人名識別接口沒有識別出人名;2篇,簡歷中人名出現(xiàn)過多;5篇是在處理特殊網(wǎng)頁(每句一段),沒有正確找打句子開始的時間;1篇是將非特殊網(wǎng)頁判斷成了特殊網(wǎng)頁;1篇是因為簡歷過長,沒有考慮。222019-9-11謝謝觀賞具體工作-簡歷型網(wǎng)頁/段落的判定-評測使用了409篇謝謝觀賞具體工作-簡歷型網(wǎng)頁/段落的判定-評測判斷簡歷型段落,數(shù)據(jù)集同上精度:識別出26個簡歷型段落,20個正確,精度是77%錯誤分析:有些段落比較短,一些閾值不適合導(dǎo)致的,同時召回度也不理想,最后在構(gòu)建系統(tǒng)的時候,暫時沒有用到簡歷型段落232019-9-11謝謝觀賞具體工作-簡歷型網(wǎng)頁/段落的判定-評測判斷簡歷型段落謝謝觀賞具體工作-人物蹤跡系統(tǒng)的實現(xiàn)-數(shù)據(jù)集網(wǎng)頁來源:2007年Webdigest小組所抓取的網(wǎng)頁。選取上排名前100的新聞網(wǎng)頁作為種子,并且按4層抓取。從10月1日開始持續(xù)了30天,總計20,000,000篇網(wǎng)頁。處理過程:使用Parasize項目的工具進行消重、去噪使用本文的模塊對網(wǎng)頁處理。句子為單位,進行提取蹤跡現(xiàn)在得到的數(shù)據(jù): 總共得到403456條人物蹤跡,23415條同時包含地點信息,作為現(xiàn)在系統(tǒng)可以查詢的數(shù)據(jù)。242019-9-11謝謝觀賞具體工作-人物蹤跡系統(tǒng)的實現(xiàn)-數(shù)據(jù)集網(wǎng)頁來源:200謝謝觀賞具體工作-人物蹤跡系統(tǒng)的實現(xiàn)-模塊和功能模塊:查詢模塊,和地圖展示模塊功能:輸入:一個人名輸出:他/她的所有蹤跡,包含人物、時間、地點

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論