




已閱讀5頁,還剩10頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
精品文檔 1歡迎下載 北京郵電大學北京郵電大學 學年第學年第 1 1 學期實驗報告學期實驗報告 課程名稱 課程名稱 數據倉庫與數據挖掘數據倉庫與數據挖掘 實驗名稱 實驗名稱 文本的分類文本的分類 實驗完成人 實驗完成人 姓名 姓名 學號 學號 支持向量樣本集具有一定的魯棒性 有些成功的應用中 SVM 方法對核的選取不敏感 4 44 4 性能評估方法性能評估方法 在性能評估中 我們采用的是計算分類器對于不同分類的準確 率和召回率 4 4 14 4 1 準確率準確率 Precision Precision 準確率 指的是在所有被判斷為正確的文檔中 有多大比例是 確實正確的 例如 我們把文件分類這樣四類 精品文檔 8歡迎下載 A 系統(tǒng)檢測到的相關的文檔 B 系統(tǒng)檢測到的不相關的文檔 C 系統(tǒng)沒有檢測到的相關的文檔 D 系統(tǒng)沒有檢測到的不相關的文檔 那么我們的計算公式為 P AAB 準確率 4 4 24 4 2 召回率召回率 Recall Recall 召回率 指的是在所有確實正確的文檔中 有多大比例被我們 判斷為正確 例如 我們繼續(xù)參照上述的例子 那么我們的計算公式為 AAC 召回率R 根據上述的兩個公式 我們計算出每一類的準確率和召回率 進行比較 今兒對分類器的分類效果進行評估 5 5 實驗過程 實驗過程 5 15 1 文本分類語料庫的采集文本分類語料庫的采集 我們直接使用搜狗語料庫的新聞預料 共有十個類別 每個類別取 精品文檔 9歡迎下載 2000 篇作為訓練集 另取 2000 篇作為測試集 這樣我們就獲得了 20000 篇的訓練集和 20000 篇的測試集 5 25 2 數據預處理數據預處理 5 2 15 2 1 文本格式預處理文本格式預處理 原始的新聞按文件夾劃分類別 同一個類別在同一個文件夾下 每篇新聞占一個文件 首先我們把所有文章整理到一個文件中 并 標上類型號 這樣便于后期處理 5 2 25 2 2 分詞和去停用詞處理分詞和去停用詞處理 對語料庫進行分詞處理階段 我們采用中科院研發(fā)的漢語分詞 軟件 NLPIR 我們?yōu)榱藢Υ罅康奈谋具M行分詞 在 NLPIR 中又添加了一個批 處理函數 對 NLPIR 進行調用 對大量文本進行分詞處理 通過更 改 NLPIR 的參數 我們獲取了帶有詞性標注的大量分詞后的文本文 件 然后我們利用模式匹配的方法把所有分名詞過濾掉 然后根據 停用詞表除去停用詞 5 35 3 特征提取和表達特征提取和表達 5 3 15 3 1 特征詞提取特征詞提取 本次實驗我們采用信息增益法進行特征詞提取 提取特征詞 精品文檔 10歡迎下載 1000 個 將分詞 取名詞 去停用詞后的每篇文章統(tǒng)一整理到一篇文本 中 每篇文章作為一行記錄出現 這樣便于采用信息增益法計算每 個單詞的信息增益值 它是一個基于嫡的評價方法 涉及較多的數 學理論和復雜的嫡理論公式 定義為某特征在文檔中出現前后的信 息嫡之差 根據訓練數據 計算出各個單詞的信息增益 刪除信息 增益很小的詞 其余的按照信息增益從大到小排序 信息增益評估函數被定義為 IG t P t P Ci t log P Ci t P Ci P tn P Ci tn logP Ci t P i 式中 P Ci t 表示文本中出現特征 t 時 文本屬于 Ci 類的概 率 P Ci tn 表示文本中不出現單詞 t 時 文本屬于 Ci 類 的概率 P Ci 表示類別出現的概率 P t 表示 t 在整個文本訓練集中出 現的概率 計算完每個單詞的信息增益值后 采用堆排序方法選取前 5000 個單詞作為特征詞 即詞典 5 3 25 3 2 建立文本向量建立文本向量 根據提取的特征詞采用 TF IDF 法建立文本向量 TF IDF 是一種加權技術 它通過統(tǒng)計的方法來計算和表達某個 精品文檔 11歡迎下載 關鍵詞在文本中的重要程度 TF IDF 是由兩部分組成 一部分是 TF Token Frequency 表示一個詞在文檔中出現的次數 即詞頻 另一部分是 IDF Inverse Document Frequency 表示某個詞出現 在多少個文本中 或者解釋為有多少個文本包含了這個詞 即逆向 文檔頻率 通常由公式 IDFt log 1 D Dt 其中 D 表示文 檔總數 Dt 表示包含關鍵詞 t 的文檔數量 根據上述原理 我們把訓練集轉化為 libsvm 所支持的向量格式 LIBSVM 的訓練集格式如下 lable1 index1 featureValue1 index2 featureValue2 index3 featureValue3 lable2 index1 featureValue1 index2 featureValue2 index3 featureValue3 對應到文本分類上就是 類別 ID 特征序號 特征值 TFIDF 值 5 45 4 訓練過程訓練過程 我們利用 libsvm 提供的 grid py 工具對訓練集進行參數尋優(yōu) 并得 到參數 c 128 0 g 3 0517578125e 05 然后利用這組參數對訓 精品文檔 12歡迎下載 練集進行訓練 得到模型文件 5 55 5 測試過程測試過程 我們對測試集進行同樣的分詞與去停用詞等操作 然后根據訓 練得到的模型文件 對其進行預測 然后 分析預測輸出文件和初 始的測試文件 得到相關統(tǒng)計數據 5 65 6 實驗結果和性能評估實驗結果和性能評估 訓練集 20000 篇 測試集 20000 篇 特征提取后字典大小 1000 詞 訓練時間 92 7s 測試時間 80s 平均準確率 83 具體準確率與召回率如圖 5 1 所示 精品文檔 13歡迎下載 軍事文化教育經濟女性體育汽車娛樂軍事IT 0 0 1 0 2 0 3 0 4 0 5 0 6 0 7 0 8 0 9 1 準確率 召回率 圖 5 1 預測結果準確率與召回率 預測結果混淆矩陣如圖 5 2 所示 軍事文化教育經濟女性體育汽車娛樂軍事 IT 軍事 0352185000182411 文化 440192338365694518 教育 2333016253323836 經濟 11160202433 女性 48564420033162818 體育 345517401970 汽車 28141571021017 娛樂 17701722927019 軍事 26681915616225013 IT173870152012337120 精品文檔 14歡迎下載 6 6 實驗總結實驗總結 通過這次實驗
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)療系統(tǒng)技術服務合同
- 木工承包協(xié)議合同
- 個人擔保貸款合同樣本
- 智能機器人開發(fā)生產合同
- 濰坊護理職業(yè)學院《教師職業(yè)道德與職業(yè)規(guī)范(含教育政策與法規(guī))》2023-2024學年第二學期期末試卷
- 江南影視藝術職業(yè)學院《微生物資源與應用》2023-2024學年第二學期期末試卷
- 甘肅機電職業(yè)技術學院《國家公園與地質公園概論》2023-2024學年第二學期期末試卷
- 9獵人海力布 教學設計-2024-2025學年五年級上冊語文統(tǒng)編版
- 鄭州電子商務職業(yè)學院《體育游戲組織與編創(chuàng)》2023-2024學年第二學期期末試卷
- 皖南醫(yī)學院《軟件項目》2023-2024學年第二學期期末試卷
- 一年級下期開學第一課
- 舞臺燈光設計與光影藝術考核試卷
- 第10輯:句子表達效果(原句vs改句)解題指導-2023年高考語文一輪復習修辭手法與句子表達效果專練
- 2024年輔警招考時事政治考題及答案(100題)
- 2024年中考數學《二次函數的實際應用》真題含解析版
- GB 30254-2024高壓三相籠型異步電動機能效限定值及能效等級
- 非物質文化遺產拓印 課件
- 空氣動力學數值方法:有限元法(FEM):邊界條件處理與應用
- 教科版科學三年級下冊《 各種各樣的運動 》課件
- 部編版八年級物理(上冊)期末試卷(帶答案)
- NB-T10342-2019水電站調節(jié)保證設計導則
評論
0/150
提交評論