文本知識格提取小組匯報內(nèi)容ppt課件_第1頁
文本知識格提取小組匯報內(nèi)容ppt課件_第2頁
文本知識格提取小組匯報內(nèi)容ppt課件_第3頁
文本知識格提取小組匯報內(nèi)容ppt課件_第4頁
文本知識格提取小組匯報內(nèi)容ppt課件_第5頁
已閱讀5頁,還剩7頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、文本知識格提取小組匯報內(nèi)容陳瑛 王嘉煒 凱秋雯2021.11.16對1975年到2021年的SIGMOD論文,利用PDFBox包進(jìn)展部分函數(shù)的改寫,實現(xiàn)文本知識格的提取與優(yōu)化文本知識格的范疇:定義(Definition)、算法(Algorithm)、舉例(Example)、命題Proposition、引理(Lemma)、定理(Theorem)小組義務(wù)識別一切以Algorithm為算法識別一切以Proposition為開頭的命題識別一切以Definition開頭的定義識別一切以Example為開頭的例子詳細(xì)義務(wù)定義算法舉例命題錯誤舉例現(xiàn)階段問題與處理思緒010102020303如何識別文本知識格

2、的末尾識別末尾標(biāo)識符句號等等如何消除存儲到txt時產(chǎn)生的亂碼可以只思索保證普通文本的正確性,特殊符號不思索如何消除分頁導(dǎo)致的文本分割圖像可分開截取后進(jìn)展拼接可以因防止轉(zhuǎn)換產(chǎn)生亂碼;另可以將論文首先轉(zhuǎn)換為txt格式,識別出文本后在PDF中進(jìn)展查找與截取可行思緒尋覓除了PDFBox之外的其他可用java包并進(jìn)展比對與選擇將pdf轉(zhuǎn)為word或txt以后進(jìn)展識別,然后將文本單獨存儲為圖片將pdf轉(zhuǎn)化為word以后亂碼較少,將pdf轉(zhuǎn)化為txt不會出現(xiàn)分頁的問題機(jī)器學(xué)習(xí)方法進(jìn)展提取時間富余的話比較考驗規(guī)那么的完善性。但由于時間比較緊張,短期無法到達(dá)預(yù)期01010202030311.1612.2011.3012.31進(jìn)度安排數(shù)據(jù)校正,保證數(shù)據(jù)的正確性學(xué)習(xí)相關(guān)代碼,找出現(xiàn)存問題,尋覓更優(yōu)的識別規(guī)那么,設(shè)計相應(yīng)算法1.25提取初步結(jié)果,并對算法進(jìn)展進(jìn)一步的修正探求其他方法學(xué)習(xí)代碼,了解代碼,并勝利運轉(zhuǎn)搜集整理原始代碼運轉(zhuǎn)結(jié)果,統(tǒng)計提取的勝利率,對

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論