特征選擇技術在大數(shù)據(jù)背景下的挑戰(zhàn)

上傳人：q*** IP屬地：安徽上傳時間：2023-10-21 格式：DOC 頁數(shù)：13 大?。?0.50KB 積分：20 舉報 版權申訴

已閱讀5頁，還剩8頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

-.z.特征選擇技術在大數(shù)據(jù)背景下的挑戰(zhàn)1介紹在一個增長的時代數(shù)據(jù)復雜性和體積和大數(shù)據(jù)的出現(xiàn),特征選擇扮演一個關鍵的角色在幫助降低高維機器學習問題。我們討論最近的起源和特征選擇的重要性和輪廓的奉獻在一系列應用程序中,從DNA微陣列分析人臉識別。近年來大量數(shù)據(jù)集的創(chuàng)立,顯然,這些只會繼續(xù)增長的規(guī)模和數(shù)量。這個新的大數(shù)據(jù)場景特征選擇的研究人員提供了機遇和挑戰(zhàn),隨著越來越多的需要還可伸縮的有效的特征選擇方法,考慮到現(xiàn)有的方法可能不夠充分?！按髷?shù)據(jù)〞現(xiàn)象展現(xiàn)在我們面前,其轉型自然是毫無疑問的。黎明之間的時間總共2003人類生成5艾字節(jié)的數(shù)據(jù),到2008年這一數(shù)字已經(jīng)增加了兩倍,至14.7艾字節(jié)?，F(xiàn)在5eb的數(shù)據(jù)產(chǎn)生每2相互產(chǎn)量持續(xù)上升的步伐。因為體積、速度數(shù)據(jù)的多樣性和復雜性不斷增加,機器學習技術已經(jīng)成為不可或缺的為了從大量的否則無意義的數(shù)據(jù)中提取有用的信息。特征選擇是一個機器學習的技巧(FS),即屬性,允許一個問題是明確的選擇,雖然無關緊要或冗余數(shù)據(jù)將被忽略。特征選擇方法傳統(tǒng)上被歸類為過濾方法,包裝方法或嵌入的方法[1],盡管新方法,結合現(xiàn)有的方法或基于其他機器學習技術處理不斷出現(xiàn)的挑戰(zhàn)今天的數(shù)據(jù)集。在過去的幾年里,特征選擇已成功應用在不同的場景中涉及大量的數(shù)據(jù),如DNA微陣列分析、圖像分類、人臉識別、文本分類。但是,大數(shù)據(jù)的出現(xiàn)為研究者提出了前所未有的挑戰(zhàn)。本文概述了特征選擇研究的熱點,旨在鼓勵科學界尋求和承受最近出現(xiàn)的新機遇和挑戰(zhàn)。本文的其余局部組織如下。第二局部解釋了為什么特征選擇最重要的現(xiàn)在,第三節(jié)簡要描述了特征選擇的歷史和評論最先進的方法,第四局部回憶最近的應用,第五節(jié)描述了特征選擇的研究人員需要滿足新興挑戰(zhàn)在未來幾年,最后,第六節(jié)總結了紙。2特征選擇的必要性近年來,大多數(shù)企業(yè)和組織以一種系統(tǒng)化的方式存儲大量的數(shù)據(jù),但沒有明確其潛在有用性的想法。此外,互聯(lián)網(wǎng)的日益普及產(chǎn)生了許多不同的格式的數(shù)據(jù)(文本、多媒體等)和許多不同的來源(系統(tǒng)、傳感器、移動設備等)。能夠從這些數(shù)據(jù)中提取有用的信息,我們需要新的分析和處理工具。這些數(shù)據(jù)已經(jīng)生成最后幾來我們繼續(xù)每天生成的字節(jié)構造[2]。大的大數(shù)據(jù)量和超高維度現(xiàn)在各種機器學習應用領域的循環(huán)特性,文本挖掘、信息檢索等[3]。溫伯格etal。[4],例如,協(xié)作的垃圾過濾任務進展了一項研究有16萬億獨特的特性,而譚etal.[3]的研究是基于廣泛的合成和數(shù)以百萬的真實數(shù)據(jù)集的數(shù)據(jù)點Oe1014T特性。大型的數(shù)據(jù)集提出了一個有趣的挑戰(zhàn)為研究社區(qū);引用Donoho等。[5]“我們的任務是找到一個海里撈針,梳理相關信息大量堆過剩〞。超高維度意味著巨大的存需求和培訓的高計算本錢。泛化能力也被稱為“維度〞的詛咒。根據(jù)Donohoetal.[5],貝爾曼在1957年創(chuàng)造了這個五彩繽紛的詞來形容的困難優(yōu)化通過詳盡的列舉產(chǎn)品空間[6]。這個術語是指時出現(xiàn)的各種現(xiàn)象分析和組織數(shù)據(jù)在高維空間中(與成百上千的維度)不發(fā)生在低維的設置。數(shù)據(jù)集通常是由一個矩陣的行記錄實例(或樣品)和列的屬性(或特性)代表手邊的問題。為了解決維數(shù)問題,找到“窄〞的數(shù)據(jù)集可以概括矩陣在*種意義上接近于原始。因為這些窄矩陣有一個小數(shù)量的樣品和/或特性,它們可以更有效的利用比原來的矩陣。找到這些狹窄的矩陣的過程稱為降維。超高維度不僅帶來難以忍受的存需求和高計算本錢的培訓,而且惡化的泛化能力,因為“詛咒維度〞的問題。根據(jù)[5],1957年貝爾曼[6]創(chuàng)造了豐富多彩的項維度的詛咒,在優(yōu)化的難度通過詳盡的列舉產(chǎn)品的空間。這種現(xiàn)象出現(xiàn)在分析和組織不發(fā)生在低維的數(shù)據(jù)在高維空間的設置。任何數(shù)據(jù)集通常是由一個矩陣的行記錄的實例或樣本和列的屬性/功能要求代表手邊的問題。因此,解決維數(shù)問題的詛咒,數(shù)據(jù)集可以總結為發(fā)現(xiàn)“窄〞矩陣,在*種意義上接近于原始。這些狹窄的矩陣只有少量的樣品和/或少量的屬性,因此可以更有效地比原來的大矩陣。找到這些狹窄的矩陣的過程稱為降維。特征提取是一種降維技術,解決了問題,找到最緊湊和豐富的功能對于一個給定的問題,提高數(shù)據(jù)存儲和處理效率。特征提取的步驟分解為建立和選擇。功能施工方法補充人類專家在“原始〞數(shù)據(jù)轉換成一組有用的功能使用預處理變換過程如標準化、規(guī)化,離散化,信號增強,局部特征提取。一些施工方法不改變空間維度,而其他擴大,減少或兩者兼而有之。不喪失信息是至關重要的在施工階段的特征;第二,Elisseeff[7]建議最好總是寧可過于包容而不是丟棄有用的信息的風險。增加功能看似合理但這是要付出代價的:模式的維度的增加帶來損失的風險相關信息的可能無關緊要,嘈雜的或冗余的特性。特征選擇方法的目標是減少數(shù)量的初始特征,選擇一個子集保存足夠的信息來獲得令人滿意的結果。在一個社會,需要處理大量的數(shù)據(jù)和特性在各種各樣的學科,目前迫切需要解決必不可少的特征選擇問題。要理解,研究人員所面臨的挑戰(zhàn),下一節(jié)將簡要描述特征選擇的起源和最近的奉獻。3一個簡短的歷史特征選擇的過程被定義為檢測相關特性和丟棄不相關和冗余特性獲取的目標特性的一個子集,準確地描述一個給定的最低性能退化的問題[1]。從理論上講,有大量的輸入特性似乎是可取的,但維度不僅是一種在的詛咒的高維數(shù)據(jù)的問題,但更多的聯(lián)合數(shù)據(jù)和算法的應用問題。出于這個原因,研究人員開場在預處理階段選擇特性,試圖將他們的數(shù)據(jù)轉換成一個低維的形式。第一個特征選擇的研究可以追溯到1960年代[8]。休斯[9]使用一種通用的參數(shù)模型來研究貝葉斯分類器的精度的函數(shù)特性,得出結論如下:“測量選擇,不像興旺技術。提出了減少和組合相反,它們是說明了一個框架,用于進一步的調查〞。此后,特征選擇的研究提出了許多挑戰(zhàn),一些研究者高度疑心進展;在“米勒博士的論文討論〞[10],例如,RL的管理者說:“如果沒有解決變量消除高速計算的幫助下經(jīng)過兩年的工作,則也許是時候將焦點轉移到其他問題〞。在1990年代,著名的進步是在特征選擇用來解決機器學習問題(11-13)。如今,特征選擇是成認起到至關重要的作用在減少實際問題的維數(shù),可以在越來越多的出版物在這個問題(1、7、14、15)。開發(fā)的新的特征選擇方法在過去幾個decades-classified過濾器、包裝或嵌入方法是基于特征選擇算法之間的關系和歸納學習方法用來推斷模型[1]。特征選擇方法也可以根據(jù)個人評價和子集分類評價方法[16];former-also稱為特性排名評估的特征通過分配權重根據(jù)相關性,而后者產(chǎn)生候選特征子集基于一個特定的搜索策略隨后評估的一些措施。鑒于其能力提高學習算法的性能,特征選擇吸引了機器學習領域的興趣越來越濃,在集群等過程(17、18),回歸(19、20)和分類(12、21),是否監(jiān)視或無監(jiān)視?？捎玫谋姸嗵卣鬟x擇算法,一些已成為研究人員中非常流行。表1簡要列出了最常用的特征選擇方法,說明他們是否單變量或多變量,是否返回一個排名或子集,原出版參考和計算復雜性(其中n是樣本的數(shù)量和m是功能)的數(shù)量。這些廣泛使用的方法是特征選擇的藝術的狀態(tài)。多元方法通常比單變量方法來獲得更好的結果,但在更大的計算本錢。沒有統(tǒng)一的方法,因為每個更適合特定類型的問題。以前的工作[32],我們回憶了一些先進的算法的性能在一個人工控制的情況下,檢查他們的效率在處理等問題之間的冗余特性,非線性、噪聲的輸入和輸出和更多的功能比樣品(如發(fā)生在DNA微陣列分類)。表2總結了我們的結論(星號意味著更好的適合一個給定的問題)。注意,版本的SVM-RFE線性和非線性核進展了測試,但后者(SVM-RFE-nl)不是申請計算與成千上萬的理由一個場景功能。ReliefF,一個很好的選擇獨立問題的特殊性,著稱的強健和能夠處理不完整和嘈雜的數(shù)據(jù)。它可以被應用在大多數(shù)情況下,較低的偏見,包括之間的交互特性,可以捕捉當?shù)匾蕾嚻渌椒赡苄〗鉙VM-RFE也表現(xiàn)良好,雖然其計算復雜度可以防止使用非常高維數(shù)據(jù)集,特別是當使用非線性的核。mRMR也表現(xiàn)可承受除了與大量數(shù)據(jù)集的特性。盡管該產(chǎn)品的研發(fā)得到了去除冗余的概念,mRMR無法丟棄冗余特性實驗的人造DNA微陣列數(shù)據(jù)集,冗余是一個成認的問題。最后,可憐的相關性和冗余的結果得到與慢性疲勞綜合癥、一致性、互動與流行的畜欄InfoGain評估數(shù)據(jù)集,它有四個二進制值預測和類,所需的額外特性相關的類標簽75%。這四個方法選擇相關功能但丟棄的四個真正相關的特性。然而,它們非常有效地不選擇冗余特征與成千上萬的面對場景特性[32]?？梢钥吹?現(xiàn)有特征選擇方法有其優(yōu)缺點。請注意,計算時間不是我們之前考慮的分析[32]。然而,如今這個因素起著至關重要的作用在大數(shù)據(jù)問題。一般來說,單變量方法有一個重要的可伸縮性優(yōu)勢,但代價無視功能依賴和有辱人格的分類性能。相比之下,多元技術提高分類性能,但其計算負擔往往意味著他們不能被應用到大數(shù)據(jù)。很明顯,特征選擇研究人員需要適應現(xiàn)有的方法或提出新的為了應對大數(shù)據(jù)的爆炸帶來的挑戰(zhàn)(第5局部中討論)。4最近的奉獻人們不斷地開發(fā)出新的特征選擇方法有廣泛的套件提供應研究人員。下面我們評估最近的事態(tài)開展在解決高維問題等領域的集群(33、34),回歸第35-37()和分類(38、39)。使用不同的功能類型和組合成為今天的許多真實的應用程序的標準,導致爆炸一個名副其實的特性給出計算和信息技術的飛速開展[2]。傳統(tǒng)上,由于處理非常高維數(shù)據(jù)的必要性,大多數(shù)新特征選擇方法過濾方法。盡管如此,嵌入的方法增加了流行在過去的幾年里,因為它們允許同時特征選擇和分類(40-42)。至于包裝方法,這些得到的關注更少,由于沉重的計算負擔和過度擬合的高風險樣本的數(shù)量是不夠的。還有一個趨勢結合算法,以混合的形式方法[43-46]或合奏[47-51]。除了我們自己的審查[32],說在前面的小節(jié)中,其他作品回憶了使用最廣泛的特征選擇方法,過去的幾年里。莫利納等。[52]評估根本特征選擇算法的性能在控制的情況下,考慮到數(shù)據(jù)集的相關性,無關和冗余。Saeys等。[53]創(chuàng)造了一個經(jīng)典的根本分類特征選擇技術,討論他們在生物信息學的應用程序使用。華等。[54]在設置一些根本的特征選擇方法相比涉及成千上萬的特性,使用基于模型的合成數(shù)據(jù)和實際數(shù)據(jù)。布朗etal。[55]提供了一個統(tǒng)一框架理論特征選擇的信息,帶來了近二十年的研究啟發(fā)式過濾標準在一個單一的理論的保護傘之下。最后,加西亞etal。[56]專用的數(shù)據(jù)預處理的書一章討論特征選擇和分析其主要方面和方法。另一個觀點是專注于特定的問題時,獲得與研究人員應用不同的特征選擇技術,以提高性能。在這種情況下,方法是高度依賴于手頭的問題。最具代表性的應用程序下面討論。4.1。應用程序特征選擇方法目前被應用于不同領域的問題。下面我們描述的一些最受歡送的應用推廣這些方法的使用。。微陣列分析DNA微陣列基因表達差異的用于收集信息組織和細胞樣本,可以用于疾病診斷或區(qū)分特定類型的腫瘤。樣本容量通常是小(通常少于100名患者)但原始數(shù)據(jù)測量基因表達集體的特性可能從6000年到60000年。在這種情況下,特征選擇不可防止地成為一個必不可少的預處理步驟。最早的在這一領域的研究工作,在2000年代[53],主要是單變量式(57-59),這是快速和可伸縮的,但忽略了特征依賴性。然而,一些與多元方法也嘗試,因為這些可以依賴模型特性,盡管他們是慢,可伸縮低于一元技術[32]。多變量篩選方法(60-63)和使用更復雜的技術,如包裝和嵌入式方法[64-67]。一個完整的回憶最新的特征選擇方法用于微陣列數(shù)據(jù)可以在[68],這說明自2008年以來許多奉獻屬于過濾器一類,主要是基于信息理論(見圖1)。包裝器方法在很大程度上防止了由于沉重的計算資源的消費和過度擬合的高風險。盡管嵌入式方法沒有收到關注嬰兒的微陣列數(shù)據(jù)分類,近年來出現(xiàn)了幾點建議。最后,值得注意的是,最近的文獻提醒了傾向于結合算法混合或合奏方法(圖1中表示為“其他〞)。。圖像分類影像分類已成為一個熱門研究領域,鑒于需求有效的方法對圖像分類進展分類。圖像特征的數(shù)值屬性通常是分析來確定自己屬于哪一類。與最近圖像捕獲和儲存和互聯(lián)網(wǎng)技術的進步,大量的圖像數(shù)據(jù)已成為向公眾開放,從智能手機照片收藏甚至視頻數(shù)據(jù)庫。自圖像處理通常需要大量的計算機存和權力,特征選擇所需的功能可以幫助減少為了能夠正確分類的圖像。盡管數(shù)據(jù)證明的爆炸特征選擇適當?shù)募夹g來處理數(shù)以百萬計的圖像,需要清楚地知道哪些特性提取每個像素出現(xiàn)幾十年前。這個領域的一個常見問題是,文學是指許多模型從一個給定的圖像,提取紋理特征,如馬爾可夫隨機域和同現(xiàn)的特性。然而,隨著Ohanian杜布指出[69],沒有普遍的最正確特征子集。出于這個原因,特征選擇的任務必須是特定于每個問題,以決定使用哪種類型的特性。Jain和Zongker[70]隨后也試圖確定合成孔徑雷達圖像的分類錯誤率可以減少通過特征選擇一組18特性來自四個不同的紋理模型為每個像素。最近,幾個過濾器被應用于特征提取與五種不同的紋理分析技術[71],盡管如此,在這種情況下,作者并沒有則多感興趣使用哪個紋理特征,而是在減少計算時間必要提取特征。當特征提取和加工的數(shù)量降低,所需的時間也減少了在一致,這通?？梢詫崿F(xiàn)用最小的性能下降。特征選擇也適用于自動圖像標注。提出了兩種加權特征選擇算法(72、73)幫助聚類算法處理大量數(shù)據(jù)的維度和實現(xiàn)擴展到大量的關鍵詞。高etal。[74]和金[75]引入了一個解決方案基于分層特征選擇算法解決問題的自動特征提取和圖像分類器訓練和特征子集的選擇,使用多分辨率網(wǎng)格框架和增強算法支持向量機在高維特征空間中,分別。陸等。[76]后提出了一個遺傳算法包裝器方法來選擇MPEG-7特征描述符。與此同時,小和魯格[77]提出了一種非參數(shù)密度估計算法評估方法的特征子集。最近,馬云等。[78]提出了一種新穎的方法,基于sparsity-based模型,共同選擇最相關的特征從所有數(shù)據(jù)點同時發(fā)現(xiàn)共享子空間的原始特性(有利于多標記學習)。。人臉識別識別人臉是一個復雜的視覺識別的問題。在過去的幾十年里,人臉識別已成為最活潑的研究領域之一,由于其眾多的商業(yè)和法律應用程序。一個常見的應用程序是確定或驗證一個人從數(shù)字圖像或video-sourced框架通過比擬選定的面部特征的圖像與面部特征數(shù)據(jù)庫。在這個領域一個重要的問題是確定哪些圖像特性最信息用于識別目的。不幸的是,這不是簡單的任務,因為存在冗余對象圖像;此外,面部數(shù)據(jù)庫包含大量特性但減少數(shù)量的樣本。特征選擇算法對人臉識別最近被建議作為一種方法來解決這些問題。特征選擇的過濾方法是一種常見的選擇,主要是由于其低計算本錢與包裝或嵌入方法。etal。[79]提出的方法基于物理意義的廣義費舍爾則為了選擇最歧視特性識別。陸等。[76]提出了一個新穎的方法來選擇一個子集包含最根本的原始特性的信息;叫主特征分析(PFA),它類似于主成分分析(PCA)方法。德·馬托斯etal。[80]介紹了人臉識別的方法基于離散余弦變換(DCT)系數(shù)的選擇。最近,etal。[81]引入了一個新的彩色人臉識別方法,使用順序向前浮動搜索(設定觸發(fā)器)獲得一組最優(yōu)顏色組件用于識別目的。同樣值得注意的是,一些提出的方法基于進化計算技術被證明是成功的在這個領域(82-85)。。文本分類文本分類的目標是對文檔進展分類為固定數(shù)量的預定義的類別或標簽。這個問題已經(jīng)成為垃圾檢測特別相關的互聯(lián)網(wǎng)應用和購物和拍賣。每一個獨特的詞在文檔中被認為是一個特性。然而,因為這意味著輸入特性遠比例如(通常超過一個數(shù)量級),有必要選擇詞匯的一小局部,所以允許學習算法減少計算,存儲和/或帶寬需求。預處理階段通常是應用特征選擇之前消除難得單詞和單詞形式,如復數(shù)和動詞結合合并到一樣的術語。有幾種方法可以表示特性值,例如,一個布爾值來指示如果存在一個詞或缺失或包括詞的出現(xiàn)次數(shù)計數(shù)。即使這個預處理步驟中,在文檔中可能的單詞數(shù)量,可能仍然很高,所以特征選擇是至關重要的。許多技術已經(jīng)開發(fā)和應用于近年來這個問題。福爾曼[86]提出了一種新穎的特征選擇度量,叫做bi-normal別離(bn),它是一個有用的啟發(fā)式增加使用時可伸縮性與包裝技術的文本分類。金等。[87]幾種新穎的特征選擇方法應用于集群數(shù)據(jù),而Dasguptaetal。[88]提出了一種無監(jiān)視特征選擇策略,從理論上保證了泛化能力的分類函數(shù)的分類函數(shù)基于的所有特性。福爾曼[89]進展一系列的過濾器應用于二進制、多級和分層的文本分類問題,尤其關注可伸縮性。Ug?是烏斯[43]隨后提出一個兩階段的文本分類特征選擇方法使用InfoGain,PCA和遺傳算法,獲得較高的分類效果有兩個經(jīng)典的基準數(shù)據(jù)集。商等。[90]最近提出了一個新穎的指標稱為全球信息增益(演出),防止了冗余自然,還介紹了一種有效的全球信息增益特征選擇方法稱為最大化(MGIG),已被證明是有效的特征選擇的文本域。最近,Baccianella等。[91]提出了六個小說專門為順序設計的文本分類特征選擇方法?？梢钥吹?大多數(shù)機器學習方法可以利用的特征選擇預處理的目的,因為它通常提高模式識別的精度,降低了計算本錢。我們的簡短回憶了特征選擇的應用程序更受歡送,但文學作品描述了許多更多的應用領域,包括入侵檢測[92][93]和機械故障診斷。5熱點:特征選擇下一個什么"這篇文章開場提到的,計算機技術的不斷進步使研究人員和工程師收集數(shù)據(jù)速度越來越快。解決的挑戰(zhàn),分析這些數(shù)據(jù),特征選擇成為一個必要的預處理步驟,需要適應和改良能夠處理高維數(shù)據(jù)。我們已經(jīng)強調了需要特征選擇和討論最近的奉獻在幾個不同的應用領域。然而,在新的大數(shù)據(jù)的場景中,一個重要的挑戰(zhàn)正在崛起,代表當前特征選擇研究的熱點。5.1。數(shù)以百萬計的尺寸在新的大數(shù)據(jù)的時代,機器學習方法需要能夠處理數(shù)據(jù)的空前的規(guī)模。類似于大數(shù)據(jù),“大維度〞一詞被創(chuàng)造是指到達空前數(shù)量的功能水平呈現(xiàn)現(xiàn)有機器學習方法[2]缺乏。廣泛使用UCI機器學習庫[94]說明,在1980年代,的最大維度數(shù)據(jù)僅為100。到了1990年代,這一數(shù)字已經(jīng)增加到超過1500,到2009年,超過300萬人。如果我們關注UCI數(shù)據(jù)集的屬性的數(shù)量,13多5000的特性和大多數(shù)有一個樣本/特性比低于0a水平,可能阻礙任何學習過程。記憶,圖2顯示了數(shù)量的特征維數(shù)最高的數(shù)據(jù)集包含在UCI機器學習庫在過去的七年。流行LIBSVM數(shù)據(jù)庫中的[95]的最大數(shù)據(jù)維數(shù)約為62000在1990年代,增加到大約1600萬在2000年代和超過29個百萬在2010年代;類似地,現(xiàn)有的92數(shù)據(jù)集有超過5000的特性和11比樣本數(shù)據(jù)集有很多更多的功能。7的數(shù)據(jù)集包含在這兩個存儲庫在過去的9年數(shù)百萬的維數(shù)的順序。除了這些通用存儲庫,還有其他與特定的高維度問題,如上述DNA微陣列分類[68]和圖像分析(96、97)。在這種情況下,現(xiàn)有先進的特征選擇方法是面對關鍵的挑戰(zhàn)可能對性能產(chǎn)生負面的影響。作為一個例子,翟等。[2]指出,超過一天的計算工作先進的SVM-RFE和牛皮癬mRMR功能選擇器來處理數(shù)據(jù)單核苷酸多態(tài)性(SNP)一百萬特性組成的數(shù)據(jù)集。此外,許多先進的特征選擇方法是基于算法設計計算兩兩相關。的影響在處理一百萬特性計算機需要處理一萬億的相關性。這種問題帶來了機器學習的研究人員面臨的一個巨大挑戰(zhàn),仍然需要解決。5.2?？缮炜s性大多數(shù)現(xiàn)有的學習算法是數(shù)據(jù)集的大小是小得多,但現(xiàn)在不同的解決方案所需的小規(guī)模和大規(guī)模學習問題。小規(guī)模的學習問題受到通常的appro*imation-estimation權衡,但這代價是更復雜的大規(guī)模學習問題,不僅因為精度也將學習算法的計算復雜度。此外,由于大多數(shù)算法被設計根據(jù)假設數(shù)據(jù)集將被表示成一個駐留存表,這些算法是無用的整個數(shù)據(jù)集時并不適合在主存。數(shù)據(jù)集大小因此擴大機器學習算法的一個原因。然而,還有其他的設置,研究人員能找到機器學習任務的規(guī)模令人生畏的[98],例如:1模型和算法復雜性:高精度的學習算法要么依賴于復雜的,非線性的模型,或采用計算昂貴的子例程。2推理時間限制:應用程序涉及傳感、機器人導航、語音識別等,需要在實時預測。3預測瀑布:應用程序需要順序、相互依存的預測有一個高度復雜的聯(lián)合輸出空間。4模型選擇和參數(shù)掃描:優(yōu)化學習算法hyper-parameters和評估統(tǒng)計學意義需要多個學習處決。鑒于所有這些原因,擴大學習算法是一個熱門問題。情況下在點車間“帕斯卡大規(guī)模學習挑戰(zhàn)〞25日舉行的國際會議上機器學習(ICML08)和“大學習〞研討會舉行的2011年會議的神經(jīng)信息處理鑒于所有這些原因,擴大學習算法是一個熱門問題。情況下在點車間“帕斯卡大規(guī)模學習挑戰(zhàn)〞25日舉行的國際會議上機器學習(ICML08)和“大學習〞研討會舉行的2011年會議(NIPS2011)神經(jīng)信息處理系統(tǒng)的根底。擴大是可取的,因為增加了訓練集的大小通常增加算法[99]的準確性。擴大學習算法的問題與其說是一個加速的一個緩慢的算法之一,將一個行不通的算法轉化為實用的一個。今天,有一個共識在機器學習和數(shù)據(jù)挖掘社區(qū)數(shù)據(jù)量提供了一個直接的挑戰(zhàn)與可伸縮性問題[2]。關鍵的一點是很少有多快可以運行在一個特定的問題,而是大問題你可以如何處理[100]?？缮炜s性的影響被定義為訓練集的大小增加算法的計算性能的準確性,訓練時間和分配的存。這樣的挑戰(zhàn)是要找到一個平衡在這些標準——換句話說,獲得“足夠好〞的解決方案盡可能“快速〞和“有效〞。如上所述,這個問題變得非常關鍵的情況下有時間和空間約束作為發(fā)生在實時應用程序處理大型數(shù)據(jù)集,無與倫比的計算問題需要學習和初始原型需要迅速實現(xiàn)的解決方案。類似于實例的選擇,其目的是在丟棄多余的,即[101],冗余的或無關緊要的,樣本,特征選擇可以擴展機器學習算法通過減少輸入維數(shù),因此算法運行時。然而,當處理一個數(shù)據(jù)集包含大量特性和樣本,特征選擇方法的可伸縮性也假設至關重要。因為大多數(shù)現(xiàn)有特征選擇技術是為了處理小規(guī)模的數(shù)據(jù),他們的效率可能會降低,如果不是完全下降,高維數(shù)據(jù)。圖3顯示了運行時響應修改特性和樣本的數(shù)量為四個著名的特征選擇士兵方法應用于SD1數(shù)據(jù)集,一個模擬DNA微陣列數(shù)據(jù)的合成數(shù)據(jù)集[102]。在這種情況下,特征選擇的研究人員需要關注不僅在選擇的準確性,而且在其他方面。其中一個因素是穩(wěn)定,定義為結果的敏感性訓練集的變化。其他重要的因素,可伸縮性,指的是特征選擇應對越來越大訓練集。一些研究已發(fā)表關于過濾器的行為在小訓練集與大量的特性(55103-105)和更少的問題上可伸縮性[106]。什么研究主要集中在可伸縮性存在于特定的應用程序[107],修改現(xiàn)有的方法[108],實例的組合和特征選擇策略[109]和在線[110]和[111]平行方法。最近的一篇論文譚等。[3]描述了一種新的自適應特性的擴展方法合成和真正的大數(shù)據(jù)集,基于組特征選擇和多個核的學習,它能使可伸縮性大數(shù)據(jù)場景。一般來說,盡管大多數(shù)經(jīng)典的單變量特征選擇方法(每個特性單獨考慮)有一個重要的優(yōu)勢的可伸縮性,他們無視功能依賴性,因此可能比其他表現(xiàn)較差的特征選擇技術。多元技術,相比之下,可能會提高性能,但降低本錢的可伸縮性[112]。特征選擇方法的可伸縮性是如此關鍵,從科學界更值得關注。之一,通常采用處理可伸縮性問題的解決方案是將數(shù)據(jù)分發(fā)到多個處理器,在下一節(jié)中討論。5.3。分布式特征選擇傳統(tǒng)上,特征選擇是應用于一個集中的方式,即。,一個單一的學習模型用于解決一個給定的問題。然而,由于現(xiàn)在數(shù)據(jù)可能分布,特征選擇可以利用并發(fā)處理多個子集序列或。有幾種方法可以分配一個特征選擇的任務[113](注:實時處理將在5.4節(jié)討論):是在一個非常大的數(shù)據(jù)集的數(shù)據(jù)。數(shù)據(jù)可以分布在多個處理器,一個一樣的特征選擇算法可以在每個運行和結果的總和。(2)不同數(shù)據(jù)集的數(shù)據(jù)可能在不同的位置(例如的不同局部,在一個公司,甚至在不同的合作組織)。至于前面的情況下,一個一樣的特征選擇算法可以運行在每個結果的總和。(3)大量數(shù)據(jù)可能抵達一個連續(xù)的無限流。如果數(shù)據(jù)流到一個處理器,可以由不同的處理器處理不同局部并行代理。如果數(shù)據(jù)流到不同的處理器,他們可以處理如上所述。(4)數(shù)據(jù)集不是特別大,但不同的特征選擇方法需要應用學習看不見的實例并結合結果(通過*種投票系統(tǒng))。整個數(shù)據(jù)集可以在一個處理器,通過一樣或不同的特征選擇方法,訪問數(shù)據(jù)的全部或局部。最后一個方法,稱為整體學習,最近收到很大的關注[114]。這種方法的興趣是由于這一事實,因為高方差是特征選擇方法的問題,一個可能的解決方案是使用一個方法基于組合方法(115年,51)。個人選擇器選擇器在一個被稱為基地。如果根本選擇器都是一樣的,整體的稱為均勻。整體特征選擇是在兩個步驟來完成的。首先,一組選擇器是應用不同的特性,沒有普遍的原則優(yōu)化技術,可能有多個類似的特性,區(qū)分數(shù)據(jù)的子集。第二,每個特性選擇器產(chǎn)生的輸出是排名隨后通過共識聚合特性,選擇最常見的特征選擇,等[116]。如前所述,大多數(shù)現(xiàn)有的特征選擇方法是不會規(guī)模有效地處理數(shù)以百萬計的功能;事實上,他們甚至可能變得不適用。一個可能的解決方案可能是分發(fā)數(shù)據(jù),在每個分區(qū)上運行特征選擇,然后合并結果。分區(qū)數(shù)據(jù)分布的兩種主要方法是由樣本特性(垂直)或(水平)。分布式學習已經(jīng)被用于擴大規(guī)模數(shù)據(jù)集太大的批量學習樣本(117-119)。雖然分布式學習是不常見的,有一些開展關于數(shù)據(jù)分布特性[120121]。一個提議是一個分布式的方法,數(shù)據(jù)分區(qū)既垂直和水平[122]。另一個是分布式并行特征選擇方法,該方法可以在分布式形式和執(zhí)行并行讀取數(shù)據(jù)特征選擇在對稱多處理模式通過多線程和大規(guī)模并行處理[111]。然而,當處理大維度的數(shù)據(jù)集時,研究人員必須分區(qū)的必要性的特性。在DNA微陣列數(shù)據(jù)的情況下,小樣本大小結合大維度防止水平分區(qū)的使用。然而,前面提到的垂直分區(qū)方法不考慮一些這些數(shù)據(jù)集的特性,如高之間的冗余特性,所描述的方法完成Sharma等。[123]和Bolon-Canedoetal。[124],后者計算本錢要低得多。幾個例進展分布式學習在過去的十年里出現(xiàn)了。MapReduce[125]就是這樣一種流行的編程模型有一個關聯(lián)的實現(xiàn)與并行處理和生成大型數(shù)據(jù)集,在集群的分布式算法。Hadoop開發(fā)的切割和Cafarella[126]2005年,是一組算法的分布式存儲和分布式處理非常大的數(shù)據(jù)集在計算機集群;這是由商品硬件和基于MapReduce處理局部。最近開發(fā)Apache火花[127],一種快速、通用發(fā)動機對于大規(guī)模數(shù)據(jù)處理,在機器學習研究人員由于迭代過程的適用性。興旺在Apache火花式MLib[128],創(chuàng)立一個可擴展的機器學習庫包含算法。雖然它已經(jīng)包含許多學習算法支持向量機和樸素貝葉斯分類和k-means聚類等,到目前為止,它不包括特征選擇算法。這對機器學習的研究人員提出了挑戰(zhàn),也提供了一個時機來啟動研究的一個新行。另一個開放的研究是使用圖形處理單元(gpu)分發(fā),從而加速計算的特征選擇算法。與許多應用物理模擬、信號處理、金融模型,神經(jīng)網(wǎng)絡,和無數(shù)的其他領域一樣,通常運行在gpu并行算法實現(xiàn)了在類似CPU100*加速算法?，F(xiàn)在的挑戰(zhàn)是利用GPU的能力適應現(xiàn)有最先進的特征選擇方法能夠有效、準確地處理數(shù)以百萬計的特性。5.4。實時處理數(shù)據(jù)被收集在一個前所未有的快節(jié)奏,相應地,需要迅速處理。社交媒體網(wǎng)絡和便攜設備主導我們的日常和我們需要復雜的方法,能夠實時處理大量的數(shù)據(jù),例如:垃圾檢測和視頻/圖像檢測[2]。古典批學習算法不能處理連續(xù)數(shù)據(jù)流流動,需要在線方法。在線學習[129],不斷修改和精煉的過程模型中參加新的數(shù)據(jù)按需,已成為一個熱門領域在過去的幾年里,因為它解決重要問題的過程(如發(fā)生在時間。,股票價值由于其歷史和其他外部因素)。映射過程實時更新,隨著越來越多的樣品。在線學習還可以用于非常大規(guī)模的數(shù)據(jù)集,因為一個可能的解決方案可能是學習數(shù)據(jù)順序的方式。在線特征選擇沒有得到同樣的關注在線學習[129]。盡管如此,一些研究存在描述試圖選擇相關特性在一個場景,在該場景中,出現(xiàn)新的樣品和新特性。Zhangetal。[130]提出了增量特征子集選擇算法,原始的布爾矩陣技術,有效地選擇有用的特性對于給定的目標數(shù)據(jù)。然而,特征選擇方法的效率與增量沒有測試機器學習算法。Katakisetal。[131]提出了一個動態(tài)特征空間的想法,即特征選擇從最初的培訓文檔隨后被認為是由學習者在系統(tǒng)操作。然而,可能隨時間變化的特性,初步訓練集通常不是在*些應用程序中可用。Katakis等。[131]結合增量特征選擇與他們所謂的基于功能的學習算法在高維數(shù)據(jù)流處理在線學習。這個框架是應用于概念漂移的特殊情況[132]固有的文本數(shù)據(jù)流(即。隨著時間的推移,新的預測單詞的外觀)。這種方法的問題是,特點是認為離散值。珀金斯等。[133]描述了一個新穎的和靈活的方法,叫做嫁接,對選擇適宜的特征作為不可或缺的一局部學習正規(guī)化的預測學習框架。什么使嫁接適合大問題是,它在增量迭代的方式運作,逐步建立一套功能而使用梯度下降訓練預測模型。帕金斯和賽爾[134]解決問題的特性可用一次而不是從一開場,他們的方法,稱為在線特征選擇(OFS),假設,不管出于什么原因,它是不值得等待,直到所有特性學習開場之前就已經(jīng)到達。他們由此衍生出一個“足夠好〞映射函數(shù)從輸入到輸出基于特性見過這么日期的一個子集。OFS在圖像處理領域的潛力是演示了通過應用邊緣檢測問題的[135]。一個有前途的替代方法,稱為網(wǎng)絡流特征選擇(OSFS),選擇和冗余功能[136]密切相關。在另一個方法中,兩種小說在線特征選擇方法使用相關性選擇動態(tài)特性;冗余是后來才考慮,當這些特性通過流媒體,但訓練例子的數(shù)量仍是固定的[137]。最后,文學包含許多研究指在線特征選擇和分類。一個是一個在線學習算法對特征提取和分類,實現(xiàn)對影響聲學信號榛子仁[138]。另一個,維和Ullman[139],提出分類圖像進展特征選擇,雖然他們的方法只使用一個小的子集訓練數(shù)據(jù)在每個階段。另一個描述在線特征選擇執(zhí)行基于權重分配給每個分類器輸入[140]。網(wǎng)上可以看到,特征選擇是處理主要是在個體根底上,即。一步,通過篩面的特性獨立的在線機器學習步驟,或通過執(zhí)行在線沒有后續(xù)在線分類特征選擇。因此,實現(xiàn)實時分析和對高維數(shù)據(jù)集的預測仍然是一個挑戰(zhàn)對計算智能移動平臺上?，F(xiàn)在的問題是要找到能夠修改的靈活的特征選擇方法選擇特征子集作為新的訓練樣本的到來。也希望這些方法執(zhí)行在一個動態(tài)的特征空間,將最初是空的,但新信息到達時(如添加特性。、文檔的文本分類應用程序)。5.5。功能本錢本文中我們可以看到,盡管新的特征選擇方在開發(fā)中,但大多數(shù)更關注移除不相關和冗余功能的本錢而不是獲取輸入功能。相關的本錢與功能是不同的概念。例如,一個模式在醫(yī)學診斷由可觀測的病癥(如年齡和性別),沒有本錢,以及測試的結果,相關的本錢和風險;作為一個例子,侵入性手術探查是昂貴得多比血液測試[141]和高風險。特征提取風險的另一個例子是由巴哈蒙德etal。[142],動物測定在現(xiàn)存動物評估肉牛的優(yōu)點是必要的。另一個本錢是相關的計算問題。在醫(yī)學成像領域,從醫(yī)學圖像特征提取可以計算代價高昂;此外,在紋理分析技術稱為[143]共生特性,提取每個特性的計算本錢的變化意味著不同的計算時間。在實時應用中,空間復雜度是可以忽略不計,而時間復雜度[144]是至關重要的。圖5顯示了一些例如cost.1的特性正如一位可能會注意到,功能有一個關聯(lián)的本錢可以在許多實際的應用程序。然而,這并沒有為機器學習研究人員關注的焦點。大局部的作品只考慮錯誤分類本錢,收到這是懲罰,而決定一個對象屬于一個類,它不是真正的一個[145]。有一些試圖平衡特性的奉獻和他們的本錢。例如,在分類、弗里德曼[146]包括正則化項傳統(tǒng)線性判別分析(LDA);左邊的本錢函數(shù)計算誤差和右側術語與k正則化參數(shù)加權,提供一個框架,根據(jù)k值不同的正則化解決方案。相關特征提取,你etal。[147]提出了一個標準選擇核參數(shù)基于最大化類間散射和最小化在類散射。一般分類框架應用人臉識別提出了萊特等。[148]研究特征提取和強健性閉塞獲得稀疏表示。這種方法,而不是測量特性和類之間的相關性,評價表示錯誤。盡管前面的分類和特征提取的嘗試,有少數(shù)作品特征選擇中處理這個問題。在1990年代早期,Feddemaetal。[144]開發(fā)方法為圖像特征的自動選擇一個機器人。對于這個選擇過程,他們雇了一個加權準則,考慮本錢的計算特性,即。的時間和空間復雜性特征提取過程。幾年后,和Honavar[141]提出了一種遺傳算法進展特征子集選擇、設計適應度函數(shù)的根底上的兩個標準神經(jīng)網(wǎng)絡在分類精度和分類本錢(本錢定義為測量所需的特定功能的價值分類,風險,等等)。黃和王[149]使用遺傳算法的特征選擇和支持向量機的參數(shù)優(yōu)化,使用分類精度,選擇特性和功能本錢作為標準來設計適應度函數(shù)。混合特征子集選擇基于蟻群優(yōu)化方法和人工神經(jīng)網(wǎng)絡也被描述[150],啟發(fā)式的,使螞蟻選擇特性的逆本錢參數(shù)。最近,提出了一種新的通用框架,包括添加新術語特征選擇的評價函數(shù)方法,功能本錢考慮[151]。最后,徐etal。[152]檢查測試時間CPU本錢的兩個主要組件,即分類器的評估本錢和特征提取本錢,并展示了如何平衡這些本錢與分類精度。雖然減少了本錢的問題與特征選擇在過去的幾年里,收到了一些關注小說的特征選擇方法,可以處理大規(guī)模和實時應用迫切需要計算本錢必須預算和占。機器學習研究的新時機與最先進的算法的準確性,同時降低計算本錢。5.6?？梢暬涂山忉屝越陙?一些降維技術開發(fā)了數(shù)據(jù)可視化和預處理。然而,盡管目標可能是更好的可視化,大多數(shù)技術的限制被可視化的功能轉換的原始特性[153-155]。因此,當模型解釋能力是很重要的,降維的特征選擇是首選的技術。一個只是一樣好它的特性,特性的原因產(chǎn)生了并將繼續(xù)發(fā)揮優(yōu)勢作用模型的可解釋性。用戶有一個雙重的可解釋性和透明度的必要性在特征選擇和模型創(chuàng)立過程:(i)他們需要更多的互動模型可視化,在那里他們可以改變輸入?yún)?shù)更好的未來與模型和可視化交互場景和(2)他們需要更多的互動特征選擇過程中,使用交互式可視化,他們有權遍歷不同的特征子集,而不是綁定到一個特定的子集選擇算法。一些近期作品

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

特征選擇技術在大數(shù)據(jù)背景下的挑戰(zhàn)

文檔簡介

溫馨提示

最新文檔

評論

相關文檔