1、 1228 計(jì) 算 機(jī) 學(xué) 報 2005 年 (續(xù) 表 樣本集 Func. 5 Func. 6 Func. 7 Func. 8 Func. 9 Func. 10 樣本數(shù) :1000 文件大小 :37 . 8 KB 0 . 033 0 . 034 0 . 043 0 . 041 0 . 039 0 . 032 樣本數(shù) :10000 文件大小 :375 KB 0 . 112 0 . 121 0 . 090 0 . 010 0 . 098 0 . 090 運(yùn)行時間 ( s 樣本數(shù) :100000 文件大小 :3 . 67MB 0 . 761 0 . 741 0 . 791 0 . 781 0 . 7
2、61 0 . 754 樣本數(shù) :1000000 文件大小 :36 . 7MB 6 . 643 6 . 599 6 . 810 6 . 792 6 . 629 6 . 781 樣本數(shù) :10000000 文件大小 :367MB 64 . 943 64 . 221 68 . 794 67 . 943 66 . 982 64 . 943 注 :表中每格的運(yùn)行時間均為 10 次平均 . 圖2 Benchmark2 樣本數(shù)在 10 6 107 時 , Sta FSOS 的耗時曲線 圖 3 Realworld 上 ,StaFSOS 組件與 GRSR 組件的性能比較 第 3 類數(shù)據(jù)集來源于真實(shí)保險單的信用評
3、定 , 使用基于 Sta FSOS 和 GRSR 算法的 COM 組件在 相同的硬件平臺上進(jìn)行實(shí)驗(yàn) . 原始特征集有 20 個特 征 , 兩個類別 . 用基于粗糙集的特征選擇算法 GRSR 18 ( 這是 目前較快的一種特征選擇算法 的 COM 組件得到 的結(jié)果為 Checki n g ( 1 , D u ration ( 2 , Pu r pose ( 4 , A m ount ( 5 , I nst al l p ( 8 , P ropert y ( 12 , A ge ( 13 . 用 Sta FSOS 算法的 COM 組件在 = 85 % ,= 7 . 5 %時得到的結(jié)果為 Check
4、i n g ( 1 , D u ration ( 2 , H istor y ( 3 , A mount ( 5 , M ari t al ( 9 , A ge ( 13 , Ot her ( 14 . 可以看出 GRSR 和 Sta FSOS 的結(jié)果中 Chec2 ki n g ( 1 , D u ration ( 2 , A m ount ( 5 , A ge ( 13 4 個特 征是完全一致的 . 大多數(shù)相關(guān)領(lǐng)域?qū)<艺J(rèn)為 : Chec2 ki n g ( 1 , D u ration ( 2 , H istory ( 3 , Pu r pose ( 4 , A 2 mount ( 5 ,
5、 A ge ( 13 是這個數(shù)據(jù)集的目標(biāo)特征集 , 因 此 Sta FSOS 基本保留了對分類最為重要的特征 ,準(zhǔn) 確 性 是 有 保 證 的 . 在 數(shù) 據(jù) 集 較 小 時 , GRSR 和 Sta FSOS 都能很快得出結(jié)果 ; 而當(dāng)數(shù)據(jù)集較大時 , Sta FSOS 要明顯地快于 GRSR ( 詳見圖 3 , 圖中所有 情形下的執(zhí)行時間均是 100 次的平均值 . 在 14 個實(shí)驗(yàn)中雖然和值設(shè)置有些變化 . 但 是的意義容易理解 , 容易設(shè)定 , 因此條件 不變 , 而條件 可以變?yōu)?:將所有的特征按 SCD 測度值從 大到小排序輸出 , 前 n 項(xiàng)就是所要的 n 個特征 . 相應(yīng) 在
6、Sta FSOS 算法的第 6 步按特征的 SCD 值排序即 可 . 此時 Sta FSOS 變得更加靈活 . 5 結(jié)束語 本文的基本結(jié)論 : 我們提出了一種描述特征與 類別相關(guān)度的 SCD 測度 , 并給出了相關(guān)理論和證 明 ,根據(jù)這個測度構(gòu)造的 Sta FSOS 算法在實(shí)驗(yàn)中結(jié) 果準(zhǔn)確 ,效率很高 , 是一種 I/ O 線性的可伸縮特征 選擇算法 , 適于面向大數(shù)據(jù)量的數(shù)據(jù)挖掘 . 參 1 2 考 文 獻(xiàn) Dash M. , Liu H. . Feat ure selection for classification. Intelli2 gent Data Analysis , 1997
7、, 1 (3 : 131156 Siedklecki W. , Sklansky J . . On automatic feat ure selection. International Journal of Pattern Recognition and Aritifical In2 telligence , 1988 , 2 : 197220 3 Sheinvald J . , Do m B. , Niblack W. . A modelling app roach to feat ure selection. In : Proceedings of t he 10t h Internat
8、ional Conference on Pattern Recognition , 1990 , 1 : 535539 4 Almuallim H. , Dietterich T. G. . Learning wit h many irrele2 vant feat ures. In : Proceedings of t he 9t h National Conference on Artificial Intelligence , Cambridge , Massachusett s , 1992 , 547552 5 Narendra P. M. , Fukunaga K. . A bra
9、nch and bound algorit hm © 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved. 7期 張 巍等 : 分類問題的一種可伸縮特征選擇算法 1229 for feat ure selection. IEEE Transactions on Co mp uters , 1977 , C 226 (9 : 917922 6 Kira K. , Rendell L . A. . The feat ure selection problem : t radi2 tional met
10、 hods and a new algorit hm. In : Proceedings of t he 9t h National Conference on Artificial Intelligence , 1992 , 129134 7 Cardie C. . U sing decision t rees to improve case2based learning In : Proceedings of t he 10t h International Conference on Ma2 chine Learning , 1993 , 2532 8 Ucciardi A. N. ,
11、Go se E. E. . A co mparison of seven techniques for choo sing subset s of pattern recognition. IEEE Transactions on Computers , 1971 , C 220 : 10231031 9 Liu H. , Setiono R. . A p robabilistic approach to feat ure selec2 tion : A filter solution. In : Proceedings of International Confer2 ence on Mac
12、hine Learning , 1996 , 319327 10 Liu H. , Setiono R. . Feat ure selection and classification : A probabilistic wrapper approach , In : Proceedings of t he 9t h In2 ternational Conference on Indust rial and Engineering Applica2 tions of A I and ES , 1996 , 284292 11 Kohavi R. . Feat ure subset select
13、ion using t he wrapper met h2 od : Overfitting and dynamic search space topology. In : Pro2 ceedings of AAA I Fall Sympo sium on Relevance , 1994 , 109 113 12 13 Han J . , Kamber M. . Data Mining Concept s and Techniques. Morgan Kauf mann , 2000 Skowron R. A. , Suraj Z. . Discovery of concurrent dat
14、a f rom experimental data tables : A rough set app roach. Instit ute of Co mp uter Science , Warsaw Universit y of Technology , Re2 search Report , 1995 14 Zhong N. , Dong J . . U sing rough set s wit h heuristics for fea2 t ure selection. Journal of Intelligent Information Systems , 2001 , 16 : 199
15、214 15 Swiniarski R. W. , Skowron A. . Rough set met hods in feat ure 22 21 20 19 18 17 16 selection and recognition. Pattern Recgnization Letters , 2003 , 24 : 833849 Zhang Xiang2De , Zhang Wei , Liu Yu2Rong. The greedy2 roughset att ribute reducing algorit hms for classification min2 ing. Journal
16、of Nort heastern Universit y ( Nat ural Science , 2001 , 22 (5 : 580583 (in Chinese ( 張祥德 ,張 巍 ,劉玉蓉 . 數(shù)據(jù)挖掘分類問題的貪婪粗糙集約 簡算法 . 東北大學(xué)學(xué)報 , 2001 , 22 (5 : 580583 Pedrycz W. , Vukovichc G. . Feat ure analysis t hrough informa2 tion granulation and f uzzy set s. Pat tern Recognition , 2002 , 35 : 825834 Fan
17、Jin2Song , Fang Ting2Jian. Analysis and evaluation on main factors for feat ure selection and abst raction. Co mputer Engi2 neering and Applications , 2001 , 37 (13 : 9599 ( 范勁松 ,方廷健 . 特征選擇和提取要素的分析及其評價 . 計(jì)算 機(jī)工程與應(yīng)用 , 2001 , 37 (13 : 9599 He Jin2Song , Shi Ze 2Sheng. Met hod of feat ure selection usin
18、g signal analysis. Journal of Universit y of Science and Technolo2 gy of China , 2001 , 31 (1 : 7478 , 56 (in Chinese ( 何勁松 ,施澤生 . 特征選擇方法中信號分析方法的研究 . 中國 科技大學(xué)學(xué)報 , 2001 , 31 (1 : 7478 , 56 Li H. X. , Xu L . D. . Feat ure space t heory : A mat hematical foundation for data mining. Knowledge Based Syste
19、m , 2001 , 14 : 253257 Zhou Guang2 Ya , Zhao Wen , Zhao Zhen2Quan. Multivariate Statistical Met hod. Changchun : Jilin Universit y Press , 1988 (in Chinese ( 周光亞 ,趙 文 ,趙振全 . 多元統(tǒng)計(jì)方法 . 長春 : 吉林大學(xué)出版 社 ,1988 Agrawal R. , Imielinski T. , Swami A. . Database mining : A performance perspective. IEEE Transac
20、tions on Knowledge and Data Engineering , 1993 , 5 (6 : 914925 ZHANG Wei , born in 1975 , Ph.D. His main research interest s include data mining and statistical analysis , data driven technology , scalable T TS sys2 tem. ZOU Xiang , born in 1977 , Ph.D. His research interest s include data mining ,
21、dist ributed system. WU Xiao2 Ru , bo rn in 1972 , Ph. D. . His research inter2 est s include speech recognition and T TS , data driven tech2 nology. Background This wo rk is f rom t he p roject of Scalable Speech Syt he2 sis ( Text to Speech System , which is supported by t he Na2 tio nal High Technology Research and Develop m
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
- 專項(xiàng)13 現(xiàn)代文閱讀(解析版)
- 揚(yáng)州中學(xué)2025屆高三寒假自主檢測(二)物理試卷及答案
- 6.2《密度》說課稿 2025年初中 人教版物理八年級上冊
- 房屋委托還款協(xié)議
- 倉庫安全管理檢討書
- 建筑工程轉(zhuǎn)讓居間
- 親子活動中心居間協(xié)議
- 智能家居控制系統(tǒng)工廠
- 安防監(jiān)控監(jiān)測系統(tǒng)
- 農(nóng)業(yè)生產(chǎn)性經(jīng)營主體培育作業(yè)指導(dǎo)書
- JJG 393-2018便攜式X、γ輻射周圍劑量當(dāng)量(率)儀和監(jiān)測儀
- 建筑物電子信息系統(tǒng)防雷技術(shù)規(guī)范(局部修訂條文)
- 《護(hù)士條例》全文
- 華住會酒店員工手冊
- 鐵嶺衛(wèi)生職業(yè)學(xué)院單招參考試題庫(含答案)
- 塔斯汀營銷分析
- 市紀(jì)委跟班學(xué)習(xí)工作總結(jié)
- 腦梗死一病一品
- 【部編版】三年級語文下冊第9課《古詩三首》精美課件
- 2024社會工作者《社會工作實(shí)務(wù)(初級)》考試題庫及答案
- 護(hù)士在醫(yī)療事故中的法律責(zé)任與應(yīng)對