![大數(shù)據(jù)下的機(jī)器學(xué)習(xí)_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-5/6/38fa405f-d78c-4d31-8003-f1a56acd4e2c/38fa405f-d78c-4d31-8003-f1a56acd4e2c1.gif)
![大數(shù)據(jù)下的機(jī)器學(xué)習(xí)_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-5/6/38fa405f-d78c-4d31-8003-f1a56acd4e2c/38fa405f-d78c-4d31-8003-f1a56acd4e2c2.gif)
![大數(shù)據(jù)下的機(jī)器學(xué)習(xí)_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-5/6/38fa405f-d78c-4d31-8003-f1a56acd4e2c/38fa405f-d78c-4d31-8003-f1a56acd4e2c3.gif)
![大數(shù)據(jù)下的機(jī)器學(xué)習(xí)_第4頁](http://file3.renrendoc.com/fileroot_temp3/2022-5/6/38fa405f-d78c-4d31-8003-f1a56acd4e2c/38fa405f-d78c-4d31-8003-f1a56acd4e2c4.gif)
![大數(shù)據(jù)下的機(jī)器學(xué)習(xí)_第5頁](http://file3.renrendoc.com/fileroot_temp3/2022-5/6/38fa405f-d78c-4d31-8003-f1a56acd4e2c/38fa405f-d78c-4d31-8003-f1a56acd4e2c5.gif)
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、?程序設(shè)計(jì)方法學(xué)?課程論文大數(shù)據(jù)下的機(jī)器學(xué)習(xí)大數(shù)據(jù)下的機(jī)器學(xué)習(xí)摘要:隨著產(chǎn)業(yè)界數(shù)據(jù)量的爆炸式增長,大數(shù)據(jù)概念受到越來越多的關(guān)注.由于大數(shù)據(jù)的海量、復(fù)雜多樣、變化快的特性,如何有效利用大數(shù)據(jù)中的信息,并使用這些信息提升生產(chǎn)率成為迫切需要解決的問題.機(jī)器學(xué)習(xí)是解決這類問題的有效方法之一.因此,研究大數(shù)據(jù)環(huán)境下的機(jī)器學(xué)習(xí)算法成為學(xué)術(shù)界和產(chǎn)業(yè)界共同關(guān)注的話題.本文旨在對(duì)機(jī)器學(xué)習(xí)的一些根本算法和在大數(shù)據(jù)環(huán)境下機(jī)器學(xué)習(xí)大概面臨的一些問題進(jìn)行初步介紹.關(guān)鍵詞:大數(shù)據(jù),機(jī)器學(xué)習(xí),分類,聚類,最優(yōu)化方法,并行算法1 .大數(shù)據(jù)時(shí)代來臨經(jīng)過20余年的努力,Internet已獲得巨大的成功,由此,人們可以在不同時(shí)間與
2、地域獲取自己希望獲得的信息.然而,有效獲得信息是一回事,獲得的信息是否能夠有效且方便地使用那么是另一回事.目前的現(xiàn)狀是大量可以有效獲得的信息,大約只有10%可以被使用,消耗了大量資源的信息不僅未能夠被有效地使用,而且由于有用的信息正在更深地被掩埋在無用信息之中,變得更難以利用.花費(fèi)了大量人力物力而獲得信息,卻無法有效使用,長此以往,這將與未獲得信息無區(qū)別.如何有效利用這些被掩埋的有用信息已成為信息產(chǎn)業(yè)繼續(xù)興旺開展的關(guān)鍵.大數(shù)據(jù)定義:有關(guān)大數(shù)據(jù)的定義有多種.一個(gè)狹義的定義:大數(shù)據(jù)是指不能裝載進(jìn)計(jì)算機(jī)內(nèi)存儲(chǔ)器的數(shù)據(jù).盡管這是一個(gè)非正式的定義,但易理解,由于每臺(tái)電腦都有一個(gè)大到不能裝載進(jìn)內(nèi)存的數(shù)據(jù)集
3、.廣義的大數(shù)據(jù)定義為:一般意義上,大數(shù)據(jù)是指無法在可容忍的時(shí)間內(nèi)用傳統(tǒng)IT技術(shù)和軟硬件工具對(duì)其進(jìn)行感知、獲取、治理、處理和效勞的數(shù)據(jù)集合.大數(shù)據(jù)特點(diǎn):大數(shù)據(jù)有多方面的特點(diǎn),從最開始的3V模型到目前擴(kuò)展的4V模型就是以大數(shù)據(jù)的特點(diǎn)命名的.3V模型包括體積(Volume),速度(Velodty)和多樣性(Variety);4V模型中的第4個(gè)V有多種解釋,如變化性(Variability),虛擬化(Virtual)或價(jià)值(Value).針對(duì)這些特點(diǎn),大數(shù)據(jù)時(shí)代知識(shí)解析、機(jī)器智能與人類智能協(xié)調(diào)工作及智能分析系統(tǒng)將會(huì)扮演重要角色,人們需要一種智能分析接口將人類與計(jì)算機(jī)世界連接,否那么將被淹沒在大數(shù)據(jù)的洪
4、流中2 .機(jī)器學(xué)習(xí)自從計(jì)算機(jī)被創(chuàng)造以來,人們就想知道它能不能學(xué)習(xí).機(jī)器學(xué)習(xí)從本質(zhì)上是一個(gè)多學(xué)科的領(lǐng)域.它吸取了人工智能、概率統(tǒng)計(jì)、計(jì)算復(fù)雜性理論、限制論、信息論、哲學(xué)、生理學(xué)、神經(jīng)生物學(xué)等學(xué)科的成果.機(jī)器學(xué)習(xí)的研究主旨是使用計(jì)算機(jī)模擬人類的學(xué)習(xí)活動(dòng),它是研究計(jì)算機(jī)識(shí)別現(xiàn)有知識(shí)、獲取新知識(shí)、不斷改善性能和實(shí)現(xiàn)自身完善的方法.這里的學(xué)習(xí)意味著從數(shù)據(jù)中學(xué)習(xí),它包括有監(jiān)督學(xué)習(xí)(SupervisedLearning)、無監(jiān)督學(xué)習(xí)(UnsupervisedLearning)和半監(jiān)督學(xué)習(xí)(Semi-SupervisedLearning)三種類別.有監(jiān)督學(xué)習(xí)需要對(duì)的樣本進(jìn)行練習(xí)得到算法模型,然后對(duì)未知樣本的度
5、量結(jié)果(或者說是標(biāo)簽)進(jìn)行預(yù)測;而無監(jiān)督學(xué)習(xí)那么是直接預(yù)測未知樣本的度量結(jié)果,沒有實(shí)現(xiàn)練習(xí)的過程;而半監(jiān)督學(xué)習(xí)就是介乎兩者之間的機(jī)器學(xué)習(xí)方法.傳統(tǒng)機(jī)器學(xué)習(xí)面臨的一個(gè)新挑戰(zhàn)是如何處理大數(shù)據(jù).目前,包含大規(guī)模數(shù)據(jù)的機(jī)器學(xué)習(xí)問題是普遍存在的,但是,由于現(xiàn)有的許多機(jī)器學(xué)習(xí)算法是基于內(nèi)存的,大數(shù)據(jù)卻無法裝載進(jìn)計(jì)算機(jī)內(nèi)存,故現(xiàn)有的諸多算法不能處理大數(shù)據(jù).如何提出新的機(jī)器學(xué)習(xí)算法以適應(yīng)大數(shù)據(jù)處理的需求,是大數(shù)據(jù)時(shí)代的研究熱點(diǎn)方向之一.3 .大數(shù)據(jù)環(huán)境下的機(jī)器學(xué)習(xí)算法3.1 大數(shù)據(jù)分類有監(jiān)督學(xué)習(xí)(分類)面臨的一個(gè)新挑戰(zhàn)是如何處理大數(shù)據(jù).目前包含大規(guī)模數(shù)據(jù)的分類問題是普遍存在的,但是傳統(tǒng)分類算法不能處理大數(shù)據(jù).
6、1)支持向量機(jī)分類.SVM法即支持向量機(jī)(SupportVectorMachine)法,由Vapnik等人于1995年提出,具有相對(duì)優(yōu)良的性能指標(biāo).該方法是建立在統(tǒng)計(jì)學(xué)習(xí)理論根底上的機(jī)器學(xué)習(xí)方法.通過學(xué)習(xí)算法,SVM可以自動(dòng)尋找出那些對(duì)分類有較好區(qū)分水平的支持向量,由此構(gòu)造出的分類器可以最大化類與類的間隔.因而有較好的適應(yīng)水平和較高的分率.該方法只需要由各類域的邊界樣本的類別來決定最后的分類結(jié)果.2決策樹分類.決策樹可看作一個(gè)樹狀預(yù)測模型,它通過把實(shí)例從根節(jié)點(diǎn)排列到某個(gè)葉子節(jié)點(diǎn)來分類實(shí)例,葉子節(jié)點(diǎn)即為實(shí)例所屬的分類.決策樹的核心問題是選擇分裂屬性和決策樹的剪枝.決策樹的算法有很多,有ID3、C
7、4.5、CART等等.這些算法均采用自頂向下的貪婪算法,每個(gè)節(jié)點(diǎn)選擇分類效果最好的屬性將節(jié)點(diǎn)分裂2個(gè)或多個(gè)子結(jié)點(diǎn),繼續(xù)這一過程直到這棵樹能準(zhǔn)確地分類練習(xí)集,或所有屬性都已被使用過.對(duì)于分類問題,當(dāng)葉節(jié)點(diǎn)中只有一個(gè)類,那么這個(gè)類就作為葉節(jié)點(diǎn)所屬的類,假設(shè)節(jié)點(diǎn)中有多個(gè)類中的樣本存在,根據(jù)葉節(jié)點(diǎn)中樣本最多的那個(gè)類來確定節(jié)點(diǎn)所屬的類別,對(duì)于回歸問題,那么取其數(shù)量值的平均值.3人工神經(jīng)網(wǎng)絡(luò)算法與感知機(jī).人工神經(jīng)網(wǎng)絡(luò)ArtficialNeuralNetworksANN提供了一種普遍而且實(shí)用的方法,來從樣例中學(xué)習(xí)值為實(shí)數(shù)、離散或向量的函數(shù).ANN學(xué)習(xí)對(duì)于練習(xí)數(shù)據(jù)中的擬合效果很好,且已經(jīng)成功地涉及到醫(yī)學(xué)、生理
8、學(xué)、哲學(xué)、信息學(xué)、計(jì)算機(jī)科學(xué)等眾多學(xué)科領(lǐng)域,這些領(lǐng)域互相結(jié)合、相互滲透并相互推動(dòng).不同領(lǐng)域的科學(xué)家從各自學(xué)科的特點(diǎn)出發(fā),提出問題并進(jìn)行了研究.感知機(jī)方法的原始動(dòng)機(jī)是“人類學(xué)習(xí)的根源是神經(jīng)系統(tǒng),根據(jù)神經(jīng)系統(tǒng)的原理建立模型是解決學(xué)習(xí)的合理途徑.由此,1956年,Rosenblatt根據(jù)James在1896年提出的神經(jīng)元相互連接與McCullochPitts發(fā)現(xiàn)神經(jīng)元的“興奮和“抑制工作方式為根底,建立一種神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)模型,并使用線性優(yōu)化的方法,奠定了感知機(jī)的理論根底,感知機(jī)提出之后受到Minsky的嚴(yán)厲批評(píng).這個(gè)批評(píng)主要集中在兩個(gè)問題上,其一,感知機(jī)模型不能向非線性線性不可分問題推廣,這是對(duì)算法
9、的批評(píng);其二,感知機(jī)是基于“黑箱原理,學(xué)習(xí)后的模型與實(shí)際世界沒有直接的對(duì)應(yīng)關(guān)系,這是對(duì)模型形式的批評(píng).3.2 大數(shù)據(jù)聚類1聚類學(xué)習(xí)是最早被用于模式識(shí)別及數(shù)據(jù)挖掘任務(wù)的方法之一,并且被用來研究各種應(yīng)用中的大數(shù)據(jù)庫,因此用于大數(shù)據(jù)的聚類算法受到越來越多的關(guān)注.Haven比照3種擴(kuò)展的模糊c均值FCM聚類算法對(duì)于大數(shù)據(jù)的執(zhí)行效率.具體而言,這3種方法分別基于:取樣后進(jìn)行非迭代擴(kuò)展;連續(xù)通過數(shù)據(jù)子集的增量技術(shù);提供基于抽樣的估計(jì)的核模糊c均值算法;Havens等用可裝載的數(shù)據(jù)集和VL數(shù)據(jù)集來進(jìn)行數(shù)值型實(shí)驗(yàn),這些實(shí)驗(yàn)進(jìn)行如下比照:時(shí)間復(fù)雜度、空間復(fù)雜度、速度、處理裝載數(shù)據(jù)的批量FCM的近似質(zhì)量、對(duì)劃分和
10、地面實(shí)況間匹配的評(píng)估.實(shí)驗(yàn)結(jié)果顯示,隨機(jī)取樣可擴(kuò)展FCM(RandomSamplingPlusExtension淞減少FCM(Bit-ReducedFCM)及近似核FCM(ApproximateKernelFCM)都是較好的選擇,都近似于FCM.最后,Havens等展示針對(duì)含有50億對(duì)象的數(shù)據(jù)集的大數(shù)據(jù)算法,并就如何使用不同的大數(shù)據(jù)FCM聚類策略提出一系列建議.2)另一方面,隨著數(shù)據(jù)體積的增大,I/O瓶頸就變成數(shù)據(jù)分析的一個(gè)重要問題.數(shù)據(jù)壓縮能起到緩解作用.以K-means為例,Xue等提出一種壓縮感知性能提升模型用于大數(shù)據(jù)聚類.該模型定量分析整個(gè)計(jì)算過程中與壓縮有關(guān)的諸多因素的影響.在有上百
11、個(gè)計(jì)算核的集群上對(duì)大到1.114TB的10維數(shù)據(jù)進(jìn)行聚類實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果證實(shí)使用壓縮能改善I/O性能,并且該模型能有效決定何時(shí)如何使用壓縮來改善大數(shù)據(jù)分析中的I/O性能.針對(duì)分布式聚類、流數(shù)據(jù)聚類,Hall等研究二次抽樣方法以提升聚類算法的可擴(kuò)展性.實(shí)驗(yàn)說明,人們可構(gòu)造一個(gè)好的模型而不必知道所有的數(shù)據(jù),如果需要,修改后的算法可應(yīng)用于TB級(jí)或更多的數(shù)據(jù).3.3 小結(jié)正如本文開頭所說,機(jī)器學(xué)習(xí)涉及的領(lǐng)域與算法繁雜,不僅僅只是分類與聚類兩類算法就能囊括的,這也正給海量數(shù)據(jù)的分析與挖掘提供了許多根底工具、算法.而機(jī)器學(xué)習(xí)應(yīng)用在大數(shù)據(jù)的環(huán)境下必須對(duì)傳統(tǒng)算法做出改動(dòng),以適應(yīng)大數(shù)據(jù)的特性,而這些改動(dòng)或者說改良
12、一般面對(duì)的問題大概是這幾個(gè):算法模型需要盡量簡化,簡單模型對(duì)硬件要求不高,更加容易實(shí)現(xiàn),而這是比擬困難的,由于要處理的海量數(shù)據(jù)包含的數(shù)據(jù)類型種類繁多、數(shù)據(jù)特征復(fù)雜,而復(fù)雜數(shù)據(jù)往往對(duì)應(yīng)的是一個(gè)復(fù)雜的模型;算法收斂速度需要盡可能快,而這個(gè)要求往往受限于第一個(gè)問題,復(fù)雜模型的運(yùn)算量大,收斂速度必然比擬慢,這也是最優(yōu)化方法面臨的問題,所以單線程的機(jī)器學(xué)習(xí)算法的運(yùn)行速度以及很難滿足分析大數(shù)據(jù)的要求,我們更希望將傳統(tǒng)的機(jī)器學(xué)習(xí)方法用多線程實(shí)現(xiàn),而正如前文所說,并行計(jì)算對(duì)計(jì)算機(jī)的I/O要求比擬大.4結(jié)語與致謝大數(shù)據(jù)具有屬性稀疏、超高維、高噪聲、數(shù)據(jù)漂移、關(guān)系復(fù)雜等特點(diǎn),導(dǎo)致傳統(tǒng)機(jī)器學(xué)習(xí)算法難以有效處理和分析,為此,需在如下方面展開相應(yīng)研究.1研究機(jī)器學(xué)習(xí)理論和方法,包括數(shù)據(jù)抽樣和屬性選擇等大數(shù)據(jù)處理的根本技術(shù),設(shè)計(jì)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度綠色環(huán)保報(bào)社美縫施工及維護(hù)一體化服務(wù)合同
- 軟件安全開發(fā)標(biāo)準(zhǔn)作業(yè)指導(dǎo)書
- IT服務(wù)管理規(guī)范作業(yè)指導(dǎo)書
- 光伏發(fā)電組件銷售合同
- 樓盤銷售代理合同大曰金地產(chǎn)
- 補(bǔ)充協(xié)議能簽幾次
- 金融行業(yè)合規(guī)經(jīng)營操作手冊
- 桶裝水和學(xué)校簽的合同
- 木材加工廠出租合同
- 勞務(wù)派遣合同書樣本
- 初中生物中考真題(合集)含答案
- 《醫(yī)學(xué)免疫學(xué)實(shí)驗(yàn)》課件
- C139客戶開發(fā)管理模型
- GB/T 5019.5-2023以云母為基的絕緣材料第5部分:電熱設(shè)備用硬質(zhì)云母板
- 《工傷保險(xiǎn)專題》課件
- 2024年農(nóng)發(fā)集團(tuán)招聘筆試參考題庫含答案解析
- 京東運(yùn)營課件
- 安寧療護(hù)中的人文護(hù)理課件
- 頭痛的護(hù)理小課件
- 年度工作總結(jié)與計(jì)劃會(huì)議
- 熱工基礎(chǔ)(第二版)-張學(xué)學(xué)(8)第七章
評(píng)論
0/150
提交評(píng)論