特征選擇技術(shù)在大數(shù)據(jù)背景下的挑戰(zhàn)_第1頁
特征選擇技術(shù)在大數(shù)據(jù)背景下的挑戰(zhàn)_第2頁
特征選擇技術(shù)在大數(shù)據(jù)背景下的挑戰(zhàn)_第3頁
特征選擇技術(shù)在大數(shù)據(jù)背景下的挑戰(zhàn)_第4頁
特征選擇技術(shù)在大數(shù)據(jù)背景下的挑戰(zhàn)_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

-.z.特征選擇技術(shù)在大數(shù)據(jù)背景下的挑戰(zhàn)1介紹在一個(gè)增長(zhǎng)的時(shí)代數(shù)據(jù)復(fù)雜性和體積和大數(shù)據(jù)的出現(xiàn),特征選擇扮演一個(gè)關(guān)鍵的角色在幫助降低高維機(jī)器學(xué)習(xí)問題。我們討論最近的起源和特征選擇的重要性和輪廓的奉獻(xiàn)在一系列應(yīng)用程序中,從DNA微陣列分析人臉識(shí)別。近年來大量數(shù)據(jù)集的創(chuàng)立,顯然,這些只會(huì)繼續(xù)增長(zhǎng)的規(guī)模和數(shù)量。這個(gè)新的大數(shù)據(jù)場(chǎng)景特征選擇的研究人員提供了機(jī)遇和挑戰(zhàn),隨著越來越多的需要還可伸縮的有效的特征選擇方法,考慮到現(xiàn)有的方法可能不夠充分?!按髷?shù)據(jù)〞現(xiàn)象展現(xiàn)在我們面前,其轉(zhuǎn)型自然是毫無疑問的。黎明之間的時(shí)間總共2003人類生成5艾字節(jié)的數(shù)據(jù),到2008年這一數(shù)字已經(jīng)增加了兩倍,至14.7艾字節(jié)?,F(xiàn)在5eb的數(shù)據(jù)產(chǎn)生每2相互產(chǎn)量持續(xù)上升的步伐。因?yàn)轶w積、速度數(shù)據(jù)的多樣性和復(fù)雜性不斷增加,機(jī)器學(xué)習(xí)技術(shù)已經(jīng)成為不可或缺的為了從大量的否則無意義的數(shù)據(jù)中提取有用的信息。特征選擇是一個(gè)機(jī)器學(xué)習(xí)的技巧(FS),即屬性,允許一個(gè)問題是明確的選擇,雖然無關(guān)緊要或冗余數(shù)據(jù)將被忽略。特征選擇方法傳統(tǒng)上被歸類為過濾方法,包裝方法或嵌入的方法[1],盡管新方法,結(jié)合現(xiàn)有的方法或基于其他機(jī)器學(xué)習(xí)技術(shù)處理不斷出現(xiàn)的挑戰(zhàn)今天的數(shù)據(jù)集。在過去的幾年里,特征選擇已成功應(yīng)用在不同的場(chǎng)景中涉及大量的數(shù)據(jù),如DNA微陣列分析、圖像分類、人臉識(shí)別、文本分類。但是,大數(shù)據(jù)的出現(xiàn)為研究者提出了前所未有的挑戰(zhàn)。本文概述了特征選擇研究的熱點(diǎn),旨在鼓勵(lì)科學(xué)界尋求和承受最近出現(xiàn)的新機(jī)遇和挑戰(zhàn)。本文的其余局部組織如下。第二局部解釋了為什么特征選擇最重要的現(xiàn)在,第三節(jié)簡(jiǎn)要描述了特征選擇的歷史和評(píng)論最先進(jìn)的方法,第四局部回憶最近的應(yīng)用,第五節(jié)描述了特征選擇的研究人員需要滿足新興挑戰(zhàn)在未來幾年,最后,第六節(jié)總結(jié)了紙。2特征選擇的必要性近年來,大多數(shù)企業(yè)和組織以一種系統(tǒng)化的方式存儲(chǔ)大量的數(shù)據(jù),但沒有明確其潛在有用性的想法。此外,互聯(lián)網(wǎng)的日益普及產(chǎn)生了許多不同的格式的數(shù)據(jù)(文本、多媒體等)和許多不同的來源(系統(tǒng)、傳感器、移動(dòng)設(shè)備等)。能夠從這些數(shù)據(jù)中提取有用的信息,我們需要新的分析和處理工具。這些數(shù)據(jù)已經(jīng)生成最后幾來我們繼續(xù)每天生成的字節(jié)構(gòu)造[2]。大的大數(shù)據(jù)量和超高維度現(xiàn)在各種機(jī)器學(xué)習(xí)應(yīng)用領(lǐng)域的循環(huán)特性,文本挖掘、信息檢索等[3]。溫伯格etal。[4],例如,協(xié)作的垃圾過濾任務(wù)進(jìn)展了一項(xiàng)研究有16萬億獨(dú)特的特性,而譚etal.[3]的研究是基于廣泛的合成和數(shù)以百萬的真實(shí)數(shù)據(jù)集的數(shù)據(jù)點(diǎn)Oe1014T特性。大型的數(shù)據(jù)集提出了一個(gè)有趣的挑戰(zhàn)為研究社區(qū);引用Donoho等。[5]“我們的任務(wù)是找到一個(gè)海里撈針,梳理相關(guān)信息大量堆過剩〞。超高維度意味著巨大的存需求和培訓(xùn)的高計(jì)算本錢。泛化能力也被稱為“維度〞的詛咒。根據(jù)Donohoetal.[5],貝爾曼在1957年創(chuàng)造了這個(gè)五彩繽紛的詞來形容的困難優(yōu)化通過詳盡的列舉產(chǎn)品空間[6]。這個(gè)術(shù)語是指時(shí)出現(xiàn)的各種現(xiàn)象分析和組織數(shù)據(jù)在高維空間中(與成百上千的維度)不發(fā)生在低維的設(shè)置。數(shù)據(jù)集通常是由一個(gè)矩陣的行記錄實(shí)例(或樣品)和列的屬性(或特性)代表手邊的問題。為了解決維數(shù)問題,找到“窄〞的數(shù)據(jù)集可以概括矩陣在*種意義上接近于原始。因?yàn)檫@些窄矩陣有一個(gè)小數(shù)量的樣品和/或特性,它們可以更有效的利用比原來的矩陣。找到這些狹窄的矩陣的過程稱為降維。超高維度不僅帶來難以忍受的存需求和高計(jì)算本錢的培訓(xùn),而且惡化的泛化能力,因?yàn)椤霸{咒維度〞的問題。根據(jù)[5],1957年貝爾曼[6]創(chuàng)造了豐富多彩的項(xiàng)維度的詛咒,在優(yōu)化的難度通過詳盡的列舉產(chǎn)品的空間。這種現(xiàn)象出現(xiàn)在分析和組織不發(fā)生在低維的數(shù)據(jù)在高維空間的設(shè)置。任何數(shù)據(jù)集通常是由一個(gè)矩陣的行記錄的實(shí)例或樣本和列的屬性/功能要求代表手邊的問題。因此,解決維數(shù)問題的詛咒,數(shù)據(jù)集可以總結(jié)為發(fā)現(xiàn)“窄〞矩陣,在*種意義上接近于原始。這些狹窄的矩陣只有少量的樣品和/或少量的屬性,因此可以更有效地比原來的大矩陣。找到這些狹窄的矩陣的過程稱為降維。特征提取是一種降維技術(shù),解決了問題,找到最緊湊和豐富的功能對(duì)于一個(gè)給定的問題,提高數(shù)據(jù)存儲(chǔ)和處理效率。特征提取的步驟分解為建立和選擇。功能施工方法補(bǔ)充人類專家在“原始〞數(shù)據(jù)轉(zhuǎn)換成一組有用的功能使用預(yù)處理變換過程如標(biāo)準(zhǔn)化、規(guī)化,離散化,信號(hào)增強(qiáng),局部特征提取。一些施工方法不改變空間維度,而其他擴(kuò)大,減少或兩者兼而有之。不喪失信息是至關(guān)重要的在施工階段的特征;第二,Elisseeff[7]建議最好總是寧可過于包容而不是丟棄有用的信息的風(fēng)險(xiǎn)。增加功能看似合理但這是要付出代價(jià)的:模式的維度的增加帶來損失的風(fēng)險(xiǎn)相關(guān)信息的可能無關(guān)緊要,嘈雜的或冗余的特性。特征選擇方法的目標(biāo)是減少數(shù)量的初始特征,選擇一個(gè)子集保存足夠的信息來獲得令人滿意的結(jié)果。在一個(gè)社會(huì),需要處理大量的數(shù)據(jù)和特性在各種各樣的學(xué)科,目前迫切需要解決必不可少的特征選擇問題。要理解,研究人員所面臨的挑戰(zhàn),下一節(jié)將簡(jiǎn)要描述特征選擇的起源和最近的奉獻(xiàn)。3一個(gè)簡(jiǎn)短的歷史特征選擇的過程被定義為檢測(cè)相關(guān)特性和丟棄不相關(guān)和冗余特性獲取的目標(biāo)特性的一個(gè)子集,準(zhǔn)確地描述一個(gè)給定的最低性能退化的問題[1]。從理論上講,有大量的輸入特性似乎是可取的,但維度不僅是一種在的詛咒的高維數(shù)據(jù)的問題,但更多的聯(lián)合數(shù)據(jù)和算法的應(yīng)用問題。出于這個(gè)原因,研究人員開場(chǎng)在預(yù)處理階段選擇特性,試圖將他們的數(shù)據(jù)轉(zhuǎn)換成一個(gè)低維的形式。第一個(gè)特征選擇的研究可以追溯到1960年代[8]。休斯[9]使用一種通用的參數(shù)模型來研究貝葉斯分類器的精度的函數(shù)特性,得出結(jié)論如下:“測(cè)量選擇,不像興旺技術(shù)。提出了減少和組合相反,它們是說明了一個(gè)框架,用于進(jìn)一步的調(diào)查〞。此后,特征選擇的研究提出了許多挑戰(zhàn),一些研究者高度疑心進(jìn)展;在“米勒博士的論文討論〞[10],例如,RL的管理者說:“如果沒有解決變量消除高速計(jì)算的幫助下經(jīng)過兩年的工作,則也許是時(shí)候?qū)⒔裹c(diǎn)轉(zhuǎn)移到其他問題〞。在1990年代,著名的進(jìn)步是在特征選擇用來解決機(jī)器學(xué)習(xí)問題(11-13)。如今,特征選擇是成認(rèn)起到至關(guān)重要的作用在減少實(shí)際問題的維數(shù),可以在越來越多的出版物在這個(gè)問題(1、7、14、15)。開發(fā)的新的特征選擇方法在過去幾個(gè)decades-classified過濾器、包裝或嵌入方法是基于特征選擇算法之間的關(guān)系和歸納學(xué)習(xí)方法用來推斷模型[1]。特征選擇方法也可以根據(jù)個(gè)人評(píng)價(jià)和子集分類評(píng)價(jià)方法[16];former-also稱為特性排名評(píng)估的特征通過分配權(quán)重根據(jù)相關(guān)性,而后者產(chǎn)生候選特征子集基于一個(gè)特定的搜索策略隨后評(píng)估的一些措施。鑒于其能力提高學(xué)習(xí)算法的性能,特征選擇吸引了機(jī)器學(xué)習(xí)領(lǐng)域的興趣越來越濃,在集群等過程(17、18),回歸(19、20)和分類(12、21),是否監(jiān)視或無監(jiān)視??捎玫谋姸嗵卣鬟x擇算法,一些已成為研究人員中非常流行。表1簡(jiǎn)要列出了最常用的特征選擇方法,說明他們是否單變量或多變量,是否返回一個(gè)排名或子集,原出版參考和計(jì)算復(fù)雜性(其中n是樣本的數(shù)量和m是功能)的數(shù)量。這些廣泛使用的方法是特征選擇的藝術(shù)的狀態(tài)。多元方法通常比單變量方法來獲得更好的結(jié)果,但在更大的計(jì)算本錢。沒有統(tǒng)一的方法,因?yàn)槊總€(gè)更適合特定類型的問題。以前的工作[32],我們回憶了一些先進(jìn)的算法的性能在一個(gè)人工控制的情況下,檢查他們的效率在處理等問題之間的冗余特性,非線性、噪聲的輸入和輸出和更多的功能比樣品(如發(fā)生在DNA微陣列分類)。表2總結(jié)了我們的結(jié)論(星號(hào)意味著更好的適合一個(gè)給定的問題)。注意,版本的SVM-RFE線性和非線性核進(jìn)展了測(cè)試,但后者(SVM-RFE-nl)不是申請(qǐng)計(jì)算與成千上萬的理由一個(gè)場(chǎng)景功能。ReliefF,一個(gè)很好的選擇獨(dú)立問題的特殊性,著稱的強(qiáng)健和能夠處理不完整和嘈雜的數(shù)據(jù)。它可以被應(yīng)用在大多數(shù)情況下,較低的偏見,包括之間的交互特性,可以捕捉當(dāng)?shù)匾蕾嚻渌椒赡苄〗鉙VM-RFE也表現(xiàn)良好,雖然其計(jì)算復(fù)雜度可以防止使用非常高維數(shù)據(jù)集,特別是當(dāng)使用非線性的核。mRMR也表現(xiàn)可承受除了與大量數(shù)據(jù)集的特性。盡管該產(chǎn)品的研發(fā)得到了去除冗余的概念,mRMR無法丟棄冗余特性實(shí)驗(yàn)的人造DNA微陣列數(shù)據(jù)集,冗余是一個(gè)成認(rèn)的問題。最后,可憐的相關(guān)性和冗余的結(jié)果得到與慢性疲勞綜合癥、一致性、互動(dòng)與流行的畜欄InfoGain評(píng)估數(shù)據(jù)集,它有四個(gè)二進(jìn)制值預(yù)測(cè)和類,所需的額外特性相關(guān)的類標(biāo)簽75%。這四個(gè)方法選擇相關(guān)功能但丟棄的四個(gè)真正相關(guān)的特性。然而,它們非常有效地不選擇冗余特征與成千上萬的面對(duì)場(chǎng)景特性[32]??梢钥吹?現(xiàn)有特征選擇方法有其優(yōu)缺點(diǎn)。請(qǐng)注意,計(jì)算時(shí)間不是我們之前考慮的分析[32]。然而,如今這個(gè)因素起著至關(guān)重要的作用在大數(shù)據(jù)問題。一般來說,單變量方法有一個(gè)重要的可伸縮性優(yōu)勢(shì),但代價(jià)無視功能依賴和有辱人格的分類性能。相比之下,多元技術(shù)提高分類性能,但其計(jì)算負(fù)擔(dān)往往意味著他們不能被應(yīng)用到大數(shù)據(jù)。很明顯,特征選擇研究人員需要適應(yīng)現(xiàn)有的方法或提出新的為了應(yīng)對(duì)大數(shù)據(jù)的爆炸帶來的挑戰(zhàn)(第5局部中討論)。4最近的奉獻(xiàn)人們不斷地開發(fā)出新的特征選擇方法有廣泛的套件提供應(yīng)研究人員。下面我們?cè)u(píng)估最近的事態(tài)開展在解決高維問題等領(lǐng)域的集群(33、34),回歸第35-37()和分類(38、39)。使用不同的功能類型和組合成為今天的許多真實(shí)的應(yīng)用程序的標(biāo)準(zhǔn),導(dǎo)致爆炸一個(gè)名副其實(shí)的特性給出計(jì)算和信息技術(shù)的飛速開展[2]。傳統(tǒng)上,由于處理非常高維數(shù)據(jù)的必要性,大多數(shù)新特征選擇方法過濾方法。盡管如此,嵌入的方法增加了流行在過去的幾年里,因?yàn)樗鼈冊(cè)试S同時(shí)特征選擇和分類(40-42)。至于包裝方法,這些得到的關(guān)注更少,由于沉重的計(jì)算負(fù)擔(dān)和過度擬合的高風(fēng)險(xiǎn)樣本的數(shù)量是不夠的。還有一個(gè)趨勢(shì)結(jié)合算法,以混合的形式方法[43-46]或合奏[47-51]。除了我們自己的審查[32],說在前面的小節(jié)中,其他作品回憶了使用最廣泛的特征選擇方法,過去的幾年里。莫利納等。[52]評(píng)估根本特征選擇算法的性能在控制的情況下,考慮到數(shù)據(jù)集的相關(guān)性,無關(guān)和冗余。Saeys等。[53]創(chuàng)造了一個(gè)經(jīng)典的根本分類特征選擇技術(shù),討論他們?cè)谏镄畔W(xué)的應(yīng)用程序使用。華等。[54]在設(shè)置一些根本的特征選擇方法相比涉及成千上萬的特性,使用基于模型的合成數(shù)據(jù)和實(shí)際數(shù)據(jù)。布朗etal。[55]提供了一個(gè)統(tǒng)一框架理論特征選擇的信息,帶來了近二十年的研究啟發(fā)式過濾標(biāo)準(zhǔn)在一個(gè)單一的理論的保護(hù)傘之下。最后,加西亞etal。[56]專用的數(shù)據(jù)預(yù)處理的書一章討論特征選擇和分析其主要方面和方法。另一個(gè)觀點(diǎn)是專注于特定的問題時(shí),獲得與研究人員應(yīng)用不同的特征選擇技術(shù),以提高性能。在這種情況下,方法是高度依賴于手頭的問題。最具代表性的應(yīng)用程序下面討論。4.1。應(yīng)用程序特征選擇方法目前被應(yīng)用于不同領(lǐng)域的問題。下面我們描述的一些最受歡送的應(yīng)用推廣這些方法的使用。。微陣列分析DNA微陣列基因表達(dá)差異的用于收集信息組織和細(xì)胞樣本,可以用于疾病診斷或區(qū)分特定類型的腫瘤。樣本容量通常是小(通常少于100名患者)但原始數(shù)據(jù)測(cè)量基因表達(dá)集體的特性可能從6000年到60000年。在這種情況下,特征選擇不可防止地成為一個(gè)必不可少的預(yù)處理步驟。最早的在這一領(lǐng)域的研究工作,在2000年代[53],主要是單變量式(57-59),這是快速和可伸縮的,但忽略了特征依賴性。然而,一些與多元方法也嘗試,因?yàn)檫@些可以依賴模型特性,盡管他們是慢,可伸縮低于一元技術(shù)[32]。多變量篩選方法(60-63)和使用更復(fù)雜的技術(shù),如包裝和嵌入式方法[64-67]。一個(gè)完整的回憶最新的特征選擇方法用于微陣列數(shù)據(jù)可以在[68],這說明自2008年以來許多奉獻(xiàn)屬于過濾器一類,主要是基于信息理論(見圖1)。包裝器方法在很大程度上防止了由于沉重的計(jì)算資源的消費(fèi)和過度擬合的高風(fēng)險(xiǎn)。盡管嵌入式方法沒有收到關(guān)注嬰兒的微陣列數(shù)據(jù)分類,近年來出現(xiàn)了幾點(diǎn)建議。最后,值得注意的是,最近的文獻(xiàn)提醒了傾向于結(jié)合算法混合或合奏方法(圖1中表示為“其他〞)。。圖像分類影像分類已成為一個(gè)熱門研究領(lǐng)域,鑒于需求有效的方法對(duì)圖像分類進(jìn)展分類。圖像特征的數(shù)值屬性通常是分析來確定自己屬于哪一類。與最近圖像捕獲和儲(chǔ)存和互聯(lián)網(wǎng)技術(shù)的進(jìn)步,大量的圖像數(shù)據(jù)已成為向公眾開放,從智能手機(jī)照片收藏甚至視頻數(shù)據(jù)庫。自圖像處理通常需要大量的計(jì)算機(jī)存和權(quán)力,特征選擇所需的功能可以幫助減少為了能夠正確分類的圖像。盡管數(shù)據(jù)證明的爆炸特征選擇適當(dāng)?shù)募夹g(shù)來處理數(shù)以百萬計(jì)的圖像,需要清楚地知道哪些特性提取每個(gè)像素出現(xiàn)幾十年前。這個(gè)領(lǐng)域的一個(gè)常見問題是,文學(xué)是指許多模型從一個(gè)給定的圖像,提取紋理特征,如馬爾可夫隨機(jī)域和同現(xiàn)的特性。然而,隨著Ohanian杜布指出[69],沒有普遍的最正確特征子集。出于這個(gè)原因,特征選擇的任務(wù)必須是特定于每個(gè)問題,以決定使用哪種類型的特性。Jain和Zongker[70]隨后也試圖確定合成孔徑雷達(dá)圖像的分類錯(cuò)誤率可以減少通過特征選擇一組18特性來自四個(gè)不同的紋理模型為每個(gè)像素。最近,幾個(gè)過濾器被應(yīng)用于特征提取與五種不同的紋理分析技術(shù)[71],盡管如此,在這種情況下,作者并沒有則多感興趣使用哪個(gè)紋理特征,而是在減少計(jì)算時(shí)間必要提取特征。當(dāng)特征提取和加工的數(shù)量降低,所需的時(shí)間也減少了在一致,這通??梢詫?shí)現(xiàn)用最小的性能下降。特征選擇也適用于自動(dòng)圖像標(biāo)注。提出了兩種加權(quán)特征選擇算法(72、73)幫助聚類算法處理大量數(shù)據(jù)的維度和實(shí)現(xiàn)擴(kuò)展到大量的關(guān)鍵詞。高etal。[74]和金[75]引入了一個(gè)解決方案基于分層特征選擇算法解決問題的自動(dòng)特征提取和圖像分類器訓(xùn)練和特征子集的選擇,使用多分辨率網(wǎng)格框架和增強(qiáng)算法支持向量機(jī)在高維特征空間中,分別。陸等。[76]后提出了一個(gè)遺傳算法包裝器方法來選擇MPEG-7特征描述符。與此同時(shí),小和魯格[77]提出了一種非參數(shù)密度估計(jì)算法評(píng)估方法的特征子集。最近,馬云等。[78]提出了一種新穎的方法,基于sparsity-based模型,共同選擇最相關(guān)的特征從所有數(shù)據(jù)點(diǎn)同時(shí)發(fā)現(xiàn)共享子空間的原始特性(有利于多標(biāo)記學(xué)習(xí))。。人臉識(shí)別識(shí)別人臉是一個(gè)復(fù)雜的視覺識(shí)別的問題。在過去的幾十年里,人臉識(shí)別已成為最活潑的研究領(lǐng)域之一,由于其眾多的商業(yè)和法律應(yīng)用程序。一個(gè)常見的應(yīng)用程序是確定或驗(yàn)證一個(gè)人從數(shù)字圖像或video-sourced框架通過比擬選定的面部特征的圖像與面部特征數(shù)據(jù)庫。在這個(gè)領(lǐng)域一個(gè)重要的問題是確定哪些圖像特性最信息用于識(shí)別目的。不幸的是,這不是簡(jiǎn)單的任務(wù),因?yàn)榇嬖谌哂鄬?duì)象圖像;此外,面部數(shù)據(jù)庫包含大量特性但減少數(shù)量的樣本。特征選擇算法對(duì)人臉識(shí)別最近被建議作為一種方法來解決這些問題。特征選擇的過濾方法是一種常見的選擇,主要是由于其低計(jì)算本錢與包裝或嵌入方法。etal。[79]提出的方法基于物理意義的廣義費(fèi)舍爾則為了選擇最歧視特性識(shí)別。陸等。[76]提出了一個(gè)新穎的方法來選擇一個(gè)子集包含最根本的原始特性的信息;叫主特征分析(PFA),它類似于主成分分析(PCA)方法。德·馬托斯etal。[80]介紹了人臉識(shí)別的方法基于離散余弦變換(DCT)系數(shù)的選擇。最近,etal。[81]引入了一個(gè)新的彩色人臉識(shí)別方法,使用順序向前浮動(dòng)搜索(設(shè)定觸發(fā)器)獲得一組最優(yōu)顏色組件用于識(shí)別目的。同樣值得注意的是,一些提出的方法基于進(jìn)化計(jì)算技術(shù)被證明是成功的在這個(gè)領(lǐng)域(82-85)。。文本分類文本分類的目標(biāo)是對(duì)文檔進(jìn)展分類為固定數(shù)量的預(yù)定義的類別或標(biāo)簽。這個(gè)問題已經(jīng)成為垃圾檢測(cè)特別相關(guān)的互聯(lián)網(wǎng)應(yīng)用和購物和拍賣。每一個(gè)獨(dú)特的詞在文檔中被認(rèn)為是一個(gè)特性。然而,因?yàn)檫@意味著輸入特性遠(yuǎn)比例如(通常超過一個(gè)數(shù)量級(jí)),有必要選擇詞匯的一小局部,所以允許學(xué)習(xí)算法減少計(jì)算,存儲(chǔ)和/或帶寬需求。預(yù)處理階段通常是應(yīng)用特征選擇之前消除難得單詞和單詞形式,如復(fù)數(shù)和動(dòng)詞結(jié)合合并到一樣的術(shù)語。有幾種方法可以表示特性值,例如,一個(gè)布爾值來指示如果存在一個(gè)詞或缺失或包括詞的出現(xiàn)次數(shù)計(jì)數(shù)。即使這個(gè)預(yù)處理步驟中,在文檔中可能的單詞數(shù)量,可能仍然很高,所以特征選擇是至關(guān)重要的。許多技術(shù)已經(jīng)開發(fā)和應(yīng)用于近年來這個(gè)問題。福爾曼[86]提出了一種新穎的特征選擇度量,叫做bi-normal別離(bn),它是一個(gè)有用的啟發(fā)式增加使用時(shí)可伸縮性與包裝技術(shù)的文本分類。金等。[87]幾種新穎的特征選擇方法應(yīng)用于集群數(shù)據(jù),而Dasguptaetal。[88]提出了一種無監(jiān)視特征選擇策略,從理論上保證了泛化能力的分類函數(shù)的分類函數(shù)基于的所有特性。福爾曼[89]進(jìn)展一系列的過濾器應(yīng)用于二進(jìn)制、多級(jí)和分層的文本分類問題,尤其關(guān)注可伸縮性。Ug?是烏斯[43]隨后提出一個(gè)兩階段的文本分類特征選擇方法使用InfoGain,PCA和遺傳算法,獲得較高的分類效果有兩個(gè)經(jīng)典的基準(zhǔn)數(shù)據(jù)集。商等。[90]最近提出了一個(gè)新穎的指標(biāo)稱為全球信息增益(演出),防止了冗余自然,還介紹了一種有效的全球信息增益特征選擇方法稱為最大化(MGIG),已被證明是有效的特征選擇的文本域。最近,Baccianella等。[91]提出了六個(gè)小說專門為順序設(shè)計(jì)的文本分類特征選擇方法。可以看到,大多數(shù)機(jī)器學(xué)習(xí)方法可以利用的特征選擇預(yù)處理的目的,因?yàn)樗ǔL岣吣J阶R(shí)別的精度,降低了計(jì)算本錢。我們的簡(jiǎn)短回憶了特征選擇的應(yīng)用程序更受歡送,但文學(xué)作品描述了許多更多的應(yīng)用領(lǐng)域,包括入侵檢測(cè)[92][93]和機(jī)械故障診斷。5熱點(diǎn):特征選擇下一個(gè)什么"這篇文章開場(chǎng)提到的,計(jì)算機(jī)技術(shù)的不斷進(jìn)步使研究人員和工程師收集數(shù)據(jù)速度越來越快。解決的挑戰(zhàn),分析這些數(shù)據(jù),特征選擇成為一個(gè)必要的預(yù)處理步驟,需要適應(yīng)和改良能夠處理高維數(shù)據(jù)。我們已經(jīng)強(qiáng)調(diào)了需要特征選擇和討論最近的奉獻(xiàn)在幾個(gè)不同的應(yīng)用領(lǐng)域。然而,在新的大數(shù)據(jù)的場(chǎng)景中,一個(gè)重要的挑戰(zhàn)正在崛起,代表當(dāng)前特征選擇研究的熱點(diǎn)。5.1。數(shù)以百萬計(jì)的尺寸在新的大數(shù)據(jù)的時(shí)代,機(jī)器學(xué)習(xí)方法需要能夠處理數(shù)據(jù)的空前的規(guī)模。類似于大數(shù)據(jù),“大維度〞一詞被創(chuàng)造是指到達(dá)空前數(shù)量的功能水平呈現(xiàn)現(xiàn)有機(jī)器學(xué)習(xí)方法[2]缺乏。廣泛使用UCI機(jī)器學(xué)習(xí)庫[94]說明,在1980年代,的最大維度數(shù)據(jù)僅為100。到了1990年代,這一數(shù)字已經(jīng)增加到超過1500,到2009年,超過300萬人。如果我們關(guān)注UCI數(shù)據(jù)集的屬性的數(shù)量,13多5000的特性和大多數(shù)有一個(gè)樣本/特性比低于0a水平,可能阻礙任何學(xué)習(xí)過程。記憶,圖2顯示了數(shù)量的特征維數(shù)最高的數(shù)據(jù)集包含在UCI機(jī)器學(xué)習(xí)庫在過去的七年。流行LIBSVM數(shù)據(jù)庫中的[95]的最大數(shù)據(jù)維數(shù)約為62000在1990年代,增加到大約1600萬在2000年代和超過29個(gè)百萬在2010年代;類似地,現(xiàn)有的92數(shù)據(jù)集有超過5000的特性和11比樣本數(shù)據(jù)集有很多更多的功能。7的數(shù)據(jù)集包含在這兩個(gè)存儲(chǔ)庫在過去的9年數(shù)百萬的維數(shù)的順序。除了這些通用存儲(chǔ)庫,還有其他與特定的高維度問題,如上述DNA微陣列分類[68]和圖像分析(96、97)。在這種情況下,現(xiàn)有先進(jìn)的特征選擇方法是面對(duì)關(guān)鍵的挑戰(zhàn)可能對(duì)性能產(chǎn)生負(fù)面的影響。作為一個(gè)例子,翟等。[2]指出,超過一天的計(jì)算工作先進(jìn)的SVM-RFE和牛皮癬mRMR功能選擇器來處理數(shù)據(jù)單核苷酸多態(tài)性(SNP)一百萬特性組成的數(shù)據(jù)集。此外,許多先進(jìn)的特征選擇方法是基于算法設(shè)計(jì)計(jì)算兩兩相關(guān)。的影響在處理一百萬特性計(jì)算機(jī)需要處理一萬億的相關(guān)性。這種問題帶來了機(jī)器學(xué)習(xí)的研究人員面臨的一個(gè)巨大挑戰(zhàn),仍然需要解決。5.2。可伸縮性大多數(shù)現(xiàn)有的學(xué)習(xí)算法是數(shù)據(jù)集的大小是小得多,但現(xiàn)在不同的解決方案所需的小規(guī)模和大規(guī)模學(xué)習(xí)問題。小規(guī)模的學(xué)習(xí)問題受到通常的appro*imation-estimation權(quán)衡,但這代價(jià)是更復(fù)雜的大規(guī)模學(xué)習(xí)問題,不僅因?yàn)榫纫矊W(xué)習(xí)算法的計(jì)算復(fù)雜度。此外,由于大多數(shù)算法被設(shè)計(jì)根據(jù)假設(shè)數(shù)據(jù)集將被表示成一個(gè)駐留存表,這些算法是無用的整個(gè)數(shù)據(jù)集時(shí)并不適合在主存。數(shù)據(jù)集大小因此擴(kuò)大機(jī)器學(xué)習(xí)算法的一個(gè)原因。然而,還有其他的設(shè)置,研究人員能找到機(jī)器學(xué)習(xí)任務(wù)的規(guī)模令人生畏的[98],例如:1模型和算法復(fù)雜性:高精度的學(xué)習(xí)算法要么依賴于復(fù)雜的,非線性的模型,或采用計(jì)算昂貴的子例程。2推理時(shí)間限制:應(yīng)用程序涉及傳感、機(jī)器人導(dǎo)航、語音識(shí)別等,需要在實(shí)時(shí)預(yù)測(cè)。3預(yù)測(cè)瀑布:應(yīng)用程序需要順序、相互依存的預(yù)測(cè)有一個(gè)高度復(fù)雜的聯(lián)合輸出空間。4模型選擇和參數(shù)掃描:優(yōu)化學(xué)習(xí)算法hyper-parameters和評(píng)估統(tǒng)計(jì)學(xué)意義需要多個(gè)學(xué)習(xí)處決。鑒于所有這些原因,擴(kuò)大學(xué)習(xí)算法是一個(gè)熱門問題。情況下在點(diǎn)車間“帕斯卡大規(guī)模學(xué)習(xí)挑戰(zhàn)〞25日舉行的國(guó)際會(huì)議上機(jī)器學(xué)習(xí)(ICML08)和“大學(xué)習(xí)〞研討會(huì)舉行的2011年會(huì)議的神經(jīng)信息處理鑒于所有這些原因,擴(kuò)大學(xué)習(xí)算法是一個(gè)熱門問題。情況下在點(diǎn)車間“帕斯卡大規(guī)模學(xué)習(xí)挑戰(zhàn)〞25日舉行的國(guó)際會(huì)議上機(jī)器學(xué)習(xí)(ICML08)和“大學(xué)習(xí)〞研討會(huì)舉行的2011年會(huì)議(NIPS2011)神經(jīng)信息處理系統(tǒng)的根底。擴(kuò)大是可取的,因?yàn)樵黾恿擞?xùn)練集的大小通常增加算法[99]的準(zhǔn)確性。擴(kuò)大學(xué)習(xí)算法的問題與其說是一個(gè)加速的一個(gè)緩慢的算法之一,將一個(gè)行不通的算法轉(zhuǎn)化為實(shí)用的一個(gè)。今天,有一個(gè)共識(shí)在機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘社區(qū)數(shù)據(jù)量提供了一個(gè)直接的挑戰(zhàn)與可伸縮性問題[2]。關(guān)鍵的一點(diǎn)是很少有多快可以運(yùn)行在一個(gè)特定的問題,而是大問題你可以如何處理[100]。可伸縮性的影響被定義為訓(xùn)練集的大小增加算法的計(jì)算性能的準(zhǔn)確性,訓(xùn)練時(shí)間和分配的存。這樣的挑戰(zhàn)是要找到一個(gè)平衡在這些標(biāo)準(zhǔn)——換句話說,獲得“足夠好〞的解決方案盡可能“快速〞和“有效〞。如上所述,這個(gè)問題變得非常關(guān)鍵的情況下有時(shí)間和空間約束作為發(fā)生在實(shí)時(shí)應(yīng)用程序處理大型數(shù)據(jù)集,無與倫比的計(jì)算問題需要學(xué)習(xí)和初始原型需要迅速實(shí)現(xiàn)的解決方案。類似于實(shí)例的選擇,其目的是在丟棄多余的,即[101],冗余的或無關(guān)緊要的,樣本,特征選擇可以擴(kuò)展機(jī)器學(xué)習(xí)算法通過減少輸入維數(shù),因此算法運(yùn)行時(shí)。然而,當(dāng)處理一個(gè)數(shù)據(jù)集包含大量特性和樣本,特征選擇方法的可伸縮性也假設(shè)至關(guān)重要。因?yàn)榇蠖鄶?shù)現(xiàn)有特征選擇技術(shù)是為了處理小規(guī)模的數(shù)據(jù),他們的效率可能會(huì)降低,如果不是完全下降,高維數(shù)據(jù)。圖3顯示了運(yùn)行時(shí)響應(yīng)修改特性和樣本的數(shù)量為四個(gè)著名的特征選擇士兵方法應(yīng)用于SD1數(shù)據(jù)集,一個(gè)模擬DNA微陣列數(shù)據(jù)的合成數(shù)據(jù)集[102]。在這種情況下,特征選擇的研究人員需要關(guān)注不僅在選擇的準(zhǔn)確性,而且在其他方面。其中一個(gè)因素是穩(wěn)定,定義為結(jié)果的敏感性訓(xùn)練集的變化。其他重要的因素,可伸縮性,指的是特征選擇應(yīng)對(duì)越來越大訓(xùn)練集。一些研究已發(fā)表關(guān)于過濾器的行為在小訓(xùn)練集與大量的特性(55103-105)和更少的問題上可伸縮性[106]。什么研究主要集中在可伸縮性存在于特定的應(yīng)用程序[107],修改現(xiàn)有的方法[108],實(shí)例的組合和特征選擇策略[109]和在線[110]和[111]平行方法。最近的一篇論文譚等。[3]描述了一種新的自適應(yīng)特性的擴(kuò)展方法合成和真正的大數(shù)據(jù)集,基于組特征選擇和多個(gè)核的學(xué)習(xí),它能使可伸縮性大數(shù)據(jù)場(chǎng)景。一般來說,盡管大多數(shù)經(jīng)典的單變量特征選擇方法(每個(gè)特性單獨(dú)考慮)有一個(gè)重要的優(yōu)勢(shì)的可伸縮性,他們無視功能依賴性,因此可能比其他表現(xiàn)較差的特征選擇技術(shù)。多元技術(shù),相比之下,可能會(huì)提高性能,但降低本錢的可伸縮性[112]。特征選擇方法的可伸縮性是如此關(guān)鍵,從科學(xué)界更值得關(guān)注。之一,通常采用處理可伸縮性問題的解決方案是將數(shù)據(jù)分發(fā)到多個(gè)處理器,在下一節(jié)中討論。5.3。分布式特征選擇傳統(tǒng)上,特征選擇是應(yīng)用于一個(gè)集中的方式,即。,一個(gè)單一的學(xué)習(xí)模型用于解決一個(gè)給定的問題。然而,由于現(xiàn)在數(shù)據(jù)可能分布,特征選擇可以利用并發(fā)處理多個(gè)子集序列或。有幾種方法可以分配一個(gè)特征選擇的任務(wù)[113](注:實(shí)時(shí)處理將在5.4節(jié)討論):是在一個(gè)非常大的數(shù)據(jù)集的數(shù)據(jù)。數(shù)據(jù)可以分布在多個(gè)處理器,一個(gè)一樣的特征選擇算法可以在每個(gè)運(yùn)行和結(jié)果的總和。(2)不同數(shù)據(jù)集的數(shù)據(jù)可能在不同的位置(例如的不同局部,在一個(gè)公司,甚至在不同的合作組織)。至于前面的情況下,一個(gè)一樣的特征選擇算法可以運(yùn)行在每個(gè)結(jié)果的總和。(3)大量數(shù)據(jù)可能抵達(dá)一個(gè)連續(xù)的無限流。如果數(shù)據(jù)流到一個(gè)處理器,可以由不同的處理器處理不同局部并行代理。如果數(shù)據(jù)流到不同的處理器,他們可以處理如上所述。(4)數(shù)據(jù)集不是特別大,但不同的特征選擇方法需要應(yīng)用學(xué)習(xí)看不見的實(shí)例并結(jié)合結(jié)果(通過*種投票系統(tǒng))。整個(gè)數(shù)據(jù)集可以在一個(gè)處理器,通過一樣或不同的特征選擇方法,訪問數(shù)據(jù)的全部或局部。最后一個(gè)方法,稱為整體學(xué)習(xí),最近收到很大的關(guān)注[114]。這種方法的興趣是由于這一事實(shí),因?yàn)楦叻讲钍翘卣鬟x擇方法的問題,一個(gè)可能的解決方案是使用一個(gè)方法基于組合方法(115年,51)。個(gè)人選擇器選擇器在一個(gè)被稱為基地。如果根本選擇器都是一樣的,整體的稱為均勻。整體特征選擇是在兩個(gè)步驟來完成的。首先,一組選擇器是應(yīng)用不同的特性,沒有普遍的原則優(yōu)化技術(shù),可能有多個(gè)類似的特性,區(qū)分?jǐn)?shù)據(jù)的子集。第二,每個(gè)特性選擇器產(chǎn)生的輸出是排名隨后通過共識(shí)聚合特性,選擇最常見的特征選擇,等[116]。如前所述,大多數(shù)現(xiàn)有的特征選擇方法是不會(huì)規(guī)模有效地處理數(shù)以百萬計(jì)的功能;事實(shí)上,他們甚至可能變得不適用。一個(gè)可能的解決方案可能是分發(fā)數(shù)據(jù),在每個(gè)分區(qū)上運(yùn)行特征選擇,然后合并結(jié)果。分區(qū)數(shù)據(jù)分布的兩種主要方法是由樣本特性(垂直)或(水平)。分布式學(xué)習(xí)已經(jīng)被用于擴(kuò)大規(guī)模數(shù)據(jù)集太大的批量學(xué)習(xí)樣本(117-119)。雖然分布式學(xué)習(xí)是不常見的,有一些開展關(guān)于數(shù)據(jù)分布特性[120121]。一個(gè)提議是一個(gè)分布式的方法,數(shù)據(jù)分區(qū)既垂直和水平[122]。另一個(gè)是分布式并行特征選擇方法,該方法可以在分布式形式和執(zhí)行并行讀取數(shù)據(jù)特征選擇在對(duì)稱多處理模式通過多線程和大規(guī)模并行處理[111]。然而,當(dāng)處理大維度的數(shù)據(jù)集時(shí),研究人員必須分區(qū)的必要性的特性。在DNA微陣列數(shù)據(jù)的情況下,小樣本大小結(jié)合大維度防止水平分區(qū)的使用。然而,前面提到的垂直分區(qū)方法不考慮一些這些數(shù)據(jù)集的特性,如高之間的冗余特性,所描述的方法完成Sharma等。[123]和Bolon-Canedoetal。[124],后者計(jì)算本錢要低得多。幾個(gè)例進(jìn)展分布式學(xué)習(xí)在過去的十年里出現(xiàn)了。MapReduce[125]就是這樣一種流行的編程模型有一個(gè)關(guān)聯(lián)的實(shí)現(xiàn)與并行處理和生成大型數(shù)據(jù)集,在集群的分布式算法。Hadoop開發(fā)的切割和Cafarella[126]2005年,是一組算法的分布式存儲(chǔ)和分布式處理非常大的數(shù)據(jù)集在計(jì)算機(jī)集群;這是由商品硬件和基于MapReduce處理局部。最近開發(fā)Apache火花[127],一種快速、通用發(fā)動(dòng)機(jī)對(duì)于大規(guī)模數(shù)據(jù)處理,在機(jī)器學(xué)習(xí)研究人員由于迭代過程的適用性。興旺在Apache火花式MLib[128],創(chuàng)立一個(gè)可擴(kuò)展的機(jī)器學(xué)習(xí)庫包含算法。雖然它已經(jīng)包含許多學(xué)習(xí)算法支持向量機(jī)和樸素貝葉斯分類和k-means聚類等,到目前為止,它不包括特征選擇算法。這對(duì)機(jī)器學(xué)習(xí)的研究人員提出了挑戰(zhàn),也提供了一個(gè)時(shí)機(jī)來啟動(dòng)研究的一個(gè)新行。另一個(gè)開放的研究是使用圖形處理單元(gpu)分發(fā),從而加速計(jì)算的特征選擇算法。與許多應(yīng)用物理模擬、信號(hào)處理、金融模型,神經(jīng)網(wǎng)絡(luò),和無數(shù)的其他領(lǐng)域一樣,通常運(yùn)行在gpu并行算法實(shí)現(xiàn)了在類似CPU100*加速算法。現(xiàn)在的挑戰(zhàn)是利用GPU的能力適應(yīng)現(xiàn)有最先進(jìn)的特征選擇方法能夠有效、準(zhǔn)確地處理數(shù)以百萬計(jì)的特性。5.4。實(shí)時(shí)處理數(shù)據(jù)被收集在一個(gè)前所未有的快節(jié)奏,相應(yīng)地,需要迅速處理。社交媒體網(wǎng)絡(luò)和便攜設(shè)備主導(dǎo)我們的日常和我們需要復(fù)雜的方法,能夠?qū)崟r(shí)處理大量的數(shù)據(jù),例如:垃圾檢測(cè)和視頻/圖像檢測(cè)[2]。古典批學(xué)習(xí)算法不能處理連續(xù)數(shù)據(jù)流流動(dòng),需要在線方法。在線學(xué)習(xí)[129],不斷修改和精煉的過程模型中參加新的數(shù)據(jù)按需,已成為一個(gè)熱門領(lǐng)域在過去的幾年里,因?yàn)樗鉀Q重要問題的過程(如發(fā)生在時(shí)間。,股票價(jià)值由于其歷史和其他外部因素)。映射過程實(shí)時(shí)更新,隨著越來越多的樣品。在線學(xué)習(xí)還可以用于非常大規(guī)模的數(shù)據(jù)集,因?yàn)橐粋€(gè)可能的解決方案可能是學(xué)習(xí)數(shù)據(jù)順序的方式。在線特征選擇沒有得到同樣的關(guān)注在線學(xué)習(xí)[129]。盡管如此,一些研究存在描述試圖選擇相關(guān)特性在一個(gè)場(chǎng)景,在該場(chǎng)景中,出現(xiàn)新的樣品和新特性。Zhangetal。[130]提出了增量特征子集選擇算法,原始的布爾矩陣技術(shù),有效地選擇有用的特性對(duì)于給定的目標(biāo)數(shù)據(jù)。然而,特征選擇方法的效率與增量沒有測(cè)試機(jī)器學(xué)習(xí)算法。Katakisetal。[131]提出了一個(gè)動(dòng)態(tài)特征空間的想法,即特征選擇從最初的培訓(xùn)文檔隨后被認(rèn)為是由學(xué)習(xí)者在系統(tǒng)操作。然而,可能隨時(shí)間變化的特性,初步訓(xùn)練集通常不是在*些應(yīng)用程序中可用。Katakis等。[131]結(jié)合增量特征選擇與他們所謂的基于功能的學(xué)習(xí)算法在高維數(shù)據(jù)流處理在線學(xué)習(xí)。這個(gè)框架是應(yīng)用于概念漂移的特殊情況[132]固有的文本數(shù)據(jù)流(即。隨著時(shí)間的推移,新的預(yù)測(cè)單詞的外觀)。這種方法的問題是,特點(diǎn)是認(rèn)為離散值。珀金斯等。[133]描述了一個(gè)新穎的和靈活的方法,叫做嫁接,對(duì)選擇適宜的特征作為不可或缺的一局部學(xué)習(xí)正規(guī)化的預(yù)測(cè)學(xué)習(xí)框架。什么使嫁接適合大問題是,它在增量迭代的方式運(yùn)作,逐步建立一套功能而使用梯度下降訓(xùn)練預(yù)測(cè)模型。帕金斯和賽爾[134]解決問題的特性可用一次而不是從一開場(chǎng),他們的方法,稱為在線特征選擇(OFS),假設(shè),不管出于什么原因,它是不值得等待,直到所有特性學(xué)習(xí)開場(chǎng)之前就已經(jīng)到達(dá)。他們由此衍生出一個(gè)“足夠好〞映射函數(shù)從輸入到輸出基于特性見過這么日期的一個(gè)子集。OFS在圖像處理領(lǐng)域的潛力是演示了通過應(yīng)用邊緣檢測(cè)問題的[135]。一個(gè)有前途的替代方法,稱為網(wǎng)絡(luò)流特征選擇(OSFS),選擇和冗余功能[136]密切相關(guān)。在另一個(gè)方法中,兩種小說在線特征選擇方法使用相關(guān)性選擇動(dòng)態(tài)特性;冗余是后來才考慮,當(dāng)這些特性通過流媒體,但訓(xùn)練例子的數(shù)量仍是固定的[137]。最后,文學(xué)包含許多研究指在線特征選擇和分類。一個(gè)是一個(gè)在線學(xué)習(xí)算法對(duì)特征提取和分類,實(shí)現(xiàn)對(duì)影響聲學(xué)信號(hào)榛子仁[138]。另一個(gè),維和Ullman[139],提出分類圖像進(jìn)展特征選擇,雖然他們的方法只使用一個(gè)小的子集訓(xùn)練數(shù)據(jù)在每個(gè)階段。另一個(gè)描述在線特征選擇執(zhí)行基于權(quán)重分配給每個(gè)分類器輸入[140]。網(wǎng)上可以看到,特征選擇是處理主要是在個(gè)體根底上,即。一步,通過篩面的特性獨(dú)立的在線機(jī)器學(xué)習(xí)步驟,或通過執(zhí)行在線沒有后續(xù)在線分類特征選擇。因此,實(shí)現(xiàn)實(shí)時(shí)分析和對(duì)高維數(shù)據(jù)集的預(yù)測(cè)仍然是一個(gè)挑戰(zhàn)對(duì)計(jì)算智能移動(dòng)平臺(tái)上。現(xiàn)在的問題是要找到能夠修改的靈活的特征選擇方法選擇特征子集作為新的訓(xùn)練樣本的到來。也希望這些方法執(zhí)行在一個(gè)動(dòng)態(tài)的特征空間,將最初是空的,但新信息到達(dá)時(shí)(如添加特性。、文檔的文本分類應(yīng)用程序)。5.5。功能本錢本文中我們可以看到,盡管新的特征選擇方在開發(fā)中,但大多數(shù)更關(guān)注移除不相關(guān)和冗余功能的本錢而不是獲取輸入功能。相關(guān)的本錢與功能是不同的概念。例如,一個(gè)模式在醫(yī)學(xué)診斷由可觀測(cè)的病癥(如年齡和性別),沒有本錢,以及測(cè)試的結(jié)果,相關(guān)的本錢和風(fēng)險(xiǎn);作為一個(gè)例子,侵入性手術(shù)探查是昂貴得多比血液測(cè)試[141]和高風(fēng)險(xiǎn)。特征提取風(fēng)險(xiǎn)的另一個(gè)例子是由巴哈蒙德etal。[142],動(dòng)物測(cè)定在現(xiàn)存動(dòng)物評(píng)估肉牛的優(yōu)點(diǎn)是必要的。另一個(gè)本錢是相關(guān)的計(jì)算問題。在醫(yī)學(xué)成像領(lǐng)域,從醫(yī)學(xué)圖像特征提取可以計(jì)算代價(jià)高昂;此外,在紋理分析技術(shù)稱為[143]共生特性,提取每個(gè)特性的計(jì)算本錢的變化意味著不同的計(jì)算時(shí)間。在實(shí)時(shí)應(yīng)用中,空間復(fù)雜度是可以忽略不計(jì),而時(shí)間復(fù)雜度[144]是至關(guān)重要的。圖5顯示了一些例如cost.1的特性正如一位可能會(huì)注意到,功能有一個(gè)關(guān)聯(lián)的本錢可以在許多實(shí)際的應(yīng)用程序。然而,這并沒有為機(jī)器學(xué)習(xí)研究人員關(guān)注的焦點(diǎn)。大局部的作品只考慮錯(cuò)誤分類本錢,收到這是懲罰,而決定一個(gè)對(duì)象屬于一個(gè)類,它不是真正的一個(gè)[145]。有一些試圖平衡特性的奉獻(xiàn)和他們的本錢。例如,在分類、弗里德曼[146]包括正則化項(xiàng)傳統(tǒng)線性判別分析(LDA);左邊的本錢函數(shù)計(jì)算誤差和右側(cè)術(shù)語與k正則化參數(shù)加權(quán),提供一個(gè)框架,根據(jù)k值不同的正則化解決方案。相關(guān)特征提取,你etal。[147]提出了一個(gè)標(biāo)準(zhǔn)選擇核參數(shù)基于最大化類間散射和最小化在類散射。一般分類框架應(yīng)用人臉識(shí)別提出了萊特等。[148]研究特征提取和強(qiáng)健性閉塞獲得稀疏表示。這種方法,而不是測(cè)量特性和類之間的相關(guān)性,評(píng)價(jià)表示錯(cuò)誤。盡管前面的分類和特征提取的嘗試,有少數(shù)作品特征選擇中處理這個(gè)問題。在1990年代早期,Feddemaetal。[144]開發(fā)方法為圖像特征的自動(dòng)選擇一個(gè)機(jī)器人。對(duì)于這個(gè)選擇過程,他們雇了一個(gè)加權(quán)準(zhǔn)則,考慮本錢的計(jì)算特性,即。的時(shí)間和空間復(fù)雜性特征提取過程。幾年后,和Honavar[141]提出了一種遺傳算法進(jìn)展特征子集選擇、設(shè)計(jì)適應(yīng)度函數(shù)的根底上的兩個(gè)標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)在分類精度和分類本錢(本錢定義為測(cè)量所需的特定功能的價(jià)值分類,風(fēng)險(xiǎn),等等)。黃和王[149]使用遺傳算法的特征選擇和支持向量機(jī)的參數(shù)優(yōu)化,使用分類精度,選擇特性和功能本錢作為標(biāo)準(zhǔn)來設(shè)計(jì)適應(yīng)度函數(shù)?;旌咸卣髯蛹x擇基于蟻群優(yōu)化方法和人工神經(jīng)網(wǎng)絡(luò)也被描述[150],啟發(fā)式的,使螞蟻選擇特性的逆本錢參數(shù)。最近,提出了一種新的通用框架,包括添加新術(shù)語特征選擇的評(píng)價(jià)函數(shù)方法,功能本錢考慮[151]。最后,徐etal。[152]檢查測(cè)試時(shí)間CPU本錢的兩個(gè)主要組件,即分類器的評(píng)估本錢和特征提取本錢,并展示了如何平衡這些本錢與分類精度。雖然減少了本錢的問題與特征選擇在過去的幾年里,收到了一些關(guān)注小說的特征選擇方法,可以處理大規(guī)模和實(shí)時(shí)應(yīng)用迫切需要計(jì)算本錢必須預(yù)算和占。機(jī)器學(xué)習(xí)研究的新時(shí)機(jī)與最先進(jìn)的算法的準(zhǔn)確性,同時(shí)降低計(jì)算本錢。5.6??梢暬涂山忉屝越陙?一些降維技術(shù)開發(fā)了數(shù)據(jù)可視化和預(yù)處理。然而,盡管目標(biāo)可能是更好的可視化,大多數(shù)技術(shù)的限制被可視化的功能轉(zhuǎn)換的原始特性[153-155]。因此,當(dāng)模型解釋能力是很重要的,降維的特征選擇是首選的技術(shù)。一個(gè)只是一樣好它的特性,特性的原因產(chǎn)生了并將繼續(xù)發(fā)揮優(yōu)勢(shì)作用模型的可解釋性。用戶有一個(gè)雙重的可解釋性和透明度的必要性在特征選擇和模型創(chuàng)立過程:(i)他們需要更多的互動(dòng)模型可視化,在那里他們可以改變輸入?yún)?shù)更好的未來與模型和可視化交互場(chǎng)景和(2)他們需要更多的互動(dòng)特征選擇過程中,使用交互式可視化,他們有權(quán)遍歷不同的特征子集,而不是綁定到一個(gè)特定的子集選擇算法。一些近期作品

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論