




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、大數(shù)據(jù)技術(shù)1. 什么是數(shù)據(jù)挖掘,什么是機(jī)器學(xué)習(xí):什么是機(jī)器學(xué)習(xí)關(guān)注的問(wèn)題:計(jì)算機(jī)程序如何隨著經(jīng)驗(yàn)積累自動(dòng)提高性能;研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類(lèi)的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能;通過(guò)輸入和輸出,來(lái)訓(xùn)練一個(gè)模型。2.大數(shù)據(jù)分析系統(tǒng)層次結(jié)構(gòu):應(yīng)用層、算法層、系統(tǒng)軟件層、基礎(chǔ)設(shè)施層3.傳統(tǒng)的機(jī)器學(xué)習(xí)流程預(yù)處理-特征提取-特征選擇-再到推理-預(yù)測(cè)或者識(shí)別。手工地選取特征是一件非常費(fèi)力、啟發(fā)式(需要專(zhuān)業(yè)知識(shí))的方法,如果數(shù)據(jù)被很好的表達(dá)成了特征,通常線性模型就能達(dá)到滿(mǎn)意的精度。4. 大數(shù)據(jù)分析的主要思想方法4.1三個(gè)思維上的轉(zhuǎn)變關(guān)注全集(不是隨機(jī)樣本而是全體數(shù)
2、據(jù)):面臨大規(guī)模數(shù)據(jù)時(shí),依賴(lài)于采樣分析;統(tǒng)計(jì)學(xué)習(xí)的目的用盡可能少的數(shù)據(jù)來(lái)證實(shí)盡可能重大的發(fā)現(xiàn);大數(shù)據(jù)是指不用隨機(jī)分析這樣的捷徑,而是采用大部分或全體數(shù)據(jù)。關(guān)注概率(不是精確性而是概率):大數(shù)據(jù)的簡(jiǎn)單算法比小數(shù)據(jù)的復(fù)雜算法更有效關(guān)注關(guān)系(不是因果關(guān)系而是相關(guān)關(guān)系):建立在相關(guān)關(guān)系分析法基礎(chǔ)上的預(yù)測(cè)是大數(shù)據(jù)的核心,相關(guān)關(guān)系的核心是量化兩個(gè)數(shù)據(jù)值之間的數(shù)理關(guān)系,關(guān)聯(lián)物是預(yù)測(cè)的關(guān)鍵。4.2數(shù)據(jù)創(chuàng)新的思維方式可量化是數(shù)據(jù)的核心特征(將所有可能與不可能的信息數(shù)據(jù)化);挖掘數(shù)據(jù)潛在的價(jià)值是數(shù)據(jù)創(chuàng)新的核心;三類(lèi)最有價(jià)值的信息:位置信息、信令信息以及網(wǎng)管和日志。數(shù)據(jù)混搭為創(chuàng)造新應(yīng)用提供了重要支持。數(shù)據(jù)墳?zāi)梗禾峁?/p>
3、數(shù)據(jù)服務(wù),其他人都比我聰明!數(shù)據(jù)廢氣:是用戶(hù)在線交互的副產(chǎn)品,包括了瀏覽的頁(yè)面,停留了多久,鼠標(biāo)光標(biāo)停留的位置、輸入的信息。4.3大數(shù)據(jù)分析的要素大數(shù)據(jù)“價(jià)值鏈”構(gòu)成:數(shù)據(jù)、技術(shù)與需求(思維);數(shù)據(jù)的價(jià)值在于正確的解讀。5.數(shù)據(jù)化與數(shù)字化的區(qū)別數(shù)據(jù)化:將現(xiàn)象轉(zhuǎn)變?yōu)榭芍票矸治龅牧炕问降倪^(guò)程;數(shù)字化:將模擬數(shù)據(jù)轉(zhuǎn)換成使用0、1表示的二進(jìn)制碼的過(guò)程6.基于協(xié)同過(guò)濾的推薦機(jī)制基于協(xié)同過(guò)濾的推薦(這種機(jī)制是現(xiàn)今應(yīng)用最為廣泛的推薦機(jī)制)基于模型的推薦(SVM、聚類(lèi)、潛在語(yǔ)義分析、貝葉斯網(wǎng)絡(luò)、線性回歸、邏輯回歸)余弦距離(又稱(chēng)余弦相似度):表示是否有相同的傾向歐幾里得距離(又稱(chēng)歐幾里得相似度):表示絕對(duì)的
4、距離這種推薦方法的優(yōu)缺點(diǎn):它不需要對(duì)物品或者用戶(hù)進(jìn)行嚴(yán)格的建模,而且不要求物品的描述是機(jī)器可理解的;推薦是開(kāi)放的,可以共用他人的經(jīng)驗(yàn),很好的支持用戶(hù)發(fā)現(xiàn)潛在的興趣偏好。數(shù)據(jù)稀疏性問(wèn)題,大量的用戶(hù)只是評(píng)價(jià)了一小部分的項(xiàng)目,而大多數(shù)的項(xiàng)目是沒(méi)有進(jìn)行評(píng)分;冷啟動(dòng)問(wèn)題,新物品和新用戶(hù)依賴(lài)于用戶(hù)歷史偏好數(shù)據(jù)的多少和準(zhǔn)確性,一些特殊品味的用戶(hù)不能給予很好的推薦。7.機(jī)器學(xué)習(xí):構(gòu)建復(fù)雜系統(tǒng)的可能方法/途徑機(jī)器學(xué)習(xí)使用場(chǎng)景的核心三要素:存在潛在模式、不容易列出規(guī)則并編程實(shí)現(xiàn)、有歷史的數(shù)據(jù)8. 機(jī)器學(xué)習(xí)的基礎(chǔ)算法之PLA算法和Pocket算法(貪心PLA)感知器線性二維分類(lèi)器,都屬于二分類(lèi)算法二者的區(qū)別:迭代過(guò)
5、程有所不同,結(jié)束條件有所不同;證明了線性可分的情況下是PLA和Pocket可以收斂。9. 機(jī)器為什么能學(xué)習(xí)學(xué)習(xí)過(guò)程被分解為兩個(gè)問(wèn)題:能否確保Eout(g) 與 Ein(g) 足夠相似?能否使 Ein(g) 足夠?。恳?guī)模較大的N,有限的dVC,較低的Ein條件下,學(xué)習(xí)是可能的。切入點(diǎn):利用具體特征的,基于有監(jiān)督方式的,批量學(xué)習(xí)的分析,進(jìn)行二分類(lèi)預(yù)測(cè)。10. VC維:11. 噪聲的種類(lèi):12. 誤差函數(shù)(損失函數(shù))13. 給出數(shù)據(jù)計(jì)算誤差14. 線性回歸算法:簡(jiǎn)單并且有效的方法,典型公式線性回歸的誤差函數(shù):使得各點(diǎn)到目標(biāo)線/平面的平均距離最??!15. 線性回歸重點(diǎn)算法部分:16. 線性分類(lèi)與線性回
6、歸的區(qū)別:17. 過(guò)擬合:原因:模型復(fù)雜太高,噪聲,數(shù)據(jù)量規(guī)模有限。解決方案:使用簡(jiǎn)單的模型,數(shù)據(jù)清洗(整形),正則化,驗(yàn)證。18. 正則化 19. 分布式文件系統(tǒng):一種通過(guò)網(wǎng)絡(luò)實(shí)現(xiàn)文件在多臺(tái)主機(jī)上進(jìn)行分布式存儲(chǔ)的文件系統(tǒng);分布式文件系統(tǒng)一般采用C/S模式,客戶(hù)端以特定的通信協(xié)議通過(guò)網(wǎng)絡(luò)與服務(wù)器建立連接,提出文件訪問(wèn)請(qǐng)求;客戶(hù)端和服務(wù)器可以通過(guò)設(shè)置訪問(wèn)權(quán)限來(lái)限制請(qǐng)求方對(duì)底層數(shù)據(jù)存儲(chǔ)塊的訪問(wèn)。20. 計(jì)算機(jī)集群結(jié)構(gòu):分布式文件系統(tǒng)把文件分布存儲(chǔ)到多個(gè)計(jì)算機(jī)節(jié)點(diǎn)上,成千上萬(wàn)的計(jì)算機(jī)節(jié)點(diǎn)構(gòu)成計(jì)算機(jī)集群。與之前使用多個(gè)處理器和專(zhuān)用高級(jí)硬件的并行化處理裝置不同的是,目前的分布式文件系統(tǒng)所采用的計(jì)算機(jī)集群
7、都是由普通硬件構(gòu)成的,因此大大降低了硬件上的開(kāi)銷(xiāo)。21. 分布式文件系統(tǒng)的結(jié)構(gòu):分布式文件系統(tǒng)在物理結(jié)構(gòu)上是由計(jì)算機(jī)集群中的多個(gè)節(jié)點(diǎn)構(gòu)成,這些節(jié)點(diǎn)分為兩類(lèi),一類(lèi)叫“主節(jié)點(diǎn)”(MasterNode)或者也被稱(chēng)為“名稱(chēng)結(jié)點(diǎn)”(NameNode),另一類(lèi)叫“從節(jié)點(diǎn)”(Slave Node)或者也被稱(chēng)為“數(shù)據(jù)節(jié)點(diǎn)。22. HDFS主要特性:兼容廉價(jià)的硬件設(shè)備、支持大數(shù)據(jù)存儲(chǔ)、流數(shù)據(jù)讀寫(xiě)、簡(jiǎn)單的文件模型、強(qiáng)大的跨平臺(tái)兼容性;局限性:不適合低延遲數(shù)據(jù)處理、無(wú)法高校存儲(chǔ)大量小文件、不支持多用戶(hù)寫(xiě)入及任意修改文件塊:hdfs的名稱(chēng)節(jié)點(diǎn)存儲(chǔ)元數(shù)據(jù)、元數(shù)據(jù)保存在內(nèi)存中、保存文件,block,datanode之間的
8、映射關(guān)系;hdfs的數(shù)據(jù)節(jié)點(diǎn)存儲(chǔ)文件內(nèi)容、文件內(nèi)容保存在磁盤(pán)、維護(hù)了block id到datanode本地文件的映射關(guān)系。23. 分布式數(shù)據(jù)庫(kù)概述:四類(lèi)典型的作用于大數(shù)據(jù)存儲(chǔ)和管理的分布式數(shù)據(jù)庫(kù):并行數(shù)據(jù)庫(kù)、NoSQL數(shù)據(jù)管理系統(tǒng)、NewSQL數(shù)據(jù)管理系統(tǒng)、云數(shù)據(jù)管理系統(tǒng)。并行數(shù)據(jù)庫(kù):NoSQL數(shù)據(jù)管理系統(tǒng):NewSQL數(shù)據(jù)管理系統(tǒng):云數(shù)據(jù)管理系統(tǒng):Nosql簡(jiǎn)介:數(shù)據(jù)模型靈活、簡(jiǎn)潔;水平可擴(kuò)展性強(qiáng);系統(tǒng)吞吐量高;關(guān)系數(shù)據(jù)庫(kù)無(wú)法滿(mǎn)足大數(shù)據(jù)表現(xiàn):無(wú)法滿(mǎn)足海量數(shù)據(jù)的管理需求、無(wú)法滿(mǎn)足數(shù)據(jù)高并發(fā)的需求、無(wú)法滿(mǎn)足高可拓展性和高可用性的需求。Nosql與關(guān)系數(shù)據(jù)庫(kù)的比較:NoSQL的四大類(lèi)型:鍵值數(shù)據(jù)庫(kù)
9、、列族數(shù)據(jù)庫(kù)、文檔數(shù)據(jù)庫(kù)、圖形數(shù)據(jù)庫(kù)NoSQL的理論基礎(chǔ)(CAP與ACID、BASE)CAP:一個(gè)分布式系統(tǒng)不可能同時(shí)滿(mǎn)足一致性、可用性和分區(qū)容忍性這三個(gè)需求。ACID(關(guān)系數(shù)據(jù)庫(kù)的事務(wù)具有的四個(gè)特性)BASENoSQL到NewSQL:大數(shù)據(jù)應(yīng)用:百度大數(shù)據(jù)引擎的構(gòu)成:開(kāi)放云、數(shù)據(jù)工廠、百度大腦開(kāi)放云:數(shù)據(jù)工廠:百度大腦:阿里大數(shù)據(jù)應(yīng)用:去IOE大數(shù)據(jù)在電信行業(yè)的應(yīng)用:24. 分布式并行編程框架MapReduce25.MapReduce的體系結(jié)構(gòu):Client、JobTracker、TaskTracker、TaskMapReduce的工作流程:Split(分片):Map端的Shuffle過(guò)程詳解:Reduce端的shuffle詳解:MapReduce小結(jié):26. Spark特點(diǎn):Hadoop的局限性:Spark生態(tài)系統(tǒng):RDD:RDD的優(yōu)勢(shì):RDD之間依賴(lài)關(guān)系的兩種類(lèi)型:Stage劃分:Sprak小結(jié):流數(shù)據(jù):流計(jì)算處理流程:數(shù)據(jù)實(shí)時(shí)采集(保證實(shí)時(shí)性、低延遲、可靠穩(wěn)定)、數(shù)據(jù)實(shí)時(shí)計(jì)算、實(shí)時(shí)查詢(xún)服務(wù)(實(shí)時(shí)查詢(xún)服務(wù)可以不斷更新結(jié)果,并將用戶(hù)所需的結(jié)果實(shí)時(shí)推送給用戶(hù))。流處理系統(tǒng)與傳統(tǒng)數(shù)據(jù)處理系統(tǒng)的區(qū)別:開(kāi)源流計(jì)算框架Storm(免費(fèi)、開(kāi)源的分布式實(shí)時(shí)計(jì)算系統(tǒng)):Storm的工作流程:流計(jì)算小結(jié):圖計(jì)算系統(tǒng)Pregel簡(jiǎn)介:
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 勞務(wù)加盟代理合同范本
- 醫(yī)院護(hù)理合同范本
- 合同范本響應(yīng)說(shuō)明
- 合同范本排行
- 廠房與商鋪買(mǎi)賣(mài)合同范本
- 合伙買(mǎi)門(mén)市合同范例
- 協(xié)議合同與聯(lián)營(yíng)合同范例
- 合伙股權(quán)合同范例
- ab股股權(quán)合同范本
- 合租經(jīng)營(yíng)餐廳合同范本
- 10KV開(kāi)關(guān)柜教學(xué)講解課件
- 河南省施工現(xiàn)場(chǎng)安全文明施工標(biāo)準(zhǔn)
- 廢橡膠處理協(xié)議書(shū)范本
- 增額終身壽險(xiǎn)銷(xiāo)售邏輯
- GB/T 8813-2020硬質(zhì)泡沫塑料壓縮性能的測(cè)定
- GB/T 15057.2-1994化工用石灰石中氧化鈣和氧化鎂含量的測(cè)定
- 潔凈廠房監(jiān)理實(shí)施細(xì)則
- 哈工大研究生課程-高等結(jié)構(gòu)動(dòng)力學(xué)-第四章課件
- 當(dāng)代教育心理學(xué)(范圍)課件
- 2023年湖南工業(yè)職業(yè)技術(shù)學(xué)院?jiǎn)握芯C合素質(zhì)考試筆試題庫(kù)及答案解析
- 2022年山東交通職業(yè)學(xué)院?jiǎn)握芯C合素質(zhì)考試筆試試題及答案解析
評(píng)論
0/150
提交評(píng)論