




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)采集與預(yù)處理主講教師:龍霄漢《大數(shù)據(jù)導(dǎo)論》課程Introductiontobigdata數(shù)據(jù)預(yù)處理概述數(shù)據(jù)預(yù)處理概述011數(shù)據(jù)預(yù)處理概述數(shù)據(jù)預(yù)處理概述在數(shù)據(jù)轉(zhuǎn)換階段主要數(shù)據(jù)進(jìn)行采樣處理、類型轉(zhuǎn)換、歸一化。采樣是從特定的概率分布中抽取樣本點(diǎn)的過(guò)程。采樣在大數(shù)據(jù)分析中有非常重要的應(yīng)用:將復(fù)雜分布簡(jiǎn)化為離散的樣本點(diǎn);用重采樣可以對(duì)樣本集進(jìn)行調(diào)整以更好地進(jìn)行調(diào)整并適應(yīng)后期的模型學(xué)習(xí);用于隨機(jī)模擬以進(jìn)行復(fù)雜模型的近似求解或推理。采樣的一個(gè)重要作用是處理不均衡數(shù)據(jù)集。最簡(jiǎn)單的處理不均衡樣本集的方法是隨機(jī)采樣。采樣一般分為過(guò)采樣(Over-sampling)和欠采樣(Under-sampling)。數(shù)據(jù)預(yù)處理概述數(shù)據(jù)類型可以簡(jiǎn)單劃分為數(shù)值型和非數(shù)值型。數(shù)值型有連續(xù)型和離散型。非數(shù)值型有類別型和非類別型,其中類別型特征中如果類別存在排序問(wèn)題為定序型,若不存在排序問(wèn)題則為定類型,非類別型是字符串型。圖片來(lái)自互聯(lián)網(wǎng)數(shù)據(jù)預(yù)處理概述在數(shù)據(jù)描述階段,我們可以根據(jù)需要計(jì)算統(tǒng)計(jì)量和對(duì)數(shù)據(jù)進(jìn)行可視化。數(shù)據(jù)的一般性描述有mean,median,mode,variance.mean是均值;median是中位數(shù),取數(shù)據(jù)排序后在中間位置的值,避免因?yàn)闃O端離群點(diǎn)影響客觀評(píng)價(jià);mode是出現(xiàn)頻率最高的元素,其實(shí)用的比較少;variance是方差,由于衡量數(shù)據(jù)集與其均值的偏離。數(shù)據(jù)之間的相關(guān)性可以使用Pearsoncorrelationcoefficient和Pearsonchi-square進(jìn)行度量。前者適用與有metricdata的情況,后者適用于分類統(tǒng)計(jì)的情況。數(shù)據(jù)預(yù)處理概述數(shù)據(jù)可視化一維數(shù)據(jù)圓餅圖,柱狀圖;二維數(shù)據(jù)散點(diǎn)圖;三維數(shù)據(jù)用三維坐標(biāo)呈現(xiàn);高維數(shù)據(jù)需要先做轉(zhuǎn)換或映射,比如用matlab的BoxPlots,也可以用平行坐標(biāo)呈現(xiàn)??墒褂霉ぞ哂泻芏啵鏼atlab和Geph。圖片來(lái)自互聯(lián)網(wǎng)數(shù)據(jù)預(yù)處理概述在大數(shù)據(jù)分析中,數(shù)據(jù)可以被表示為向量的形式進(jìn)行訓(xùn)練,但是在對(duì)高維向量進(jìn)行處理和分析時(shí),會(huì)極大消耗系統(tǒng)資源,甚至產(chǎn)生維度災(zāi)難。因此,使用低維度的向量來(lái)表示高維度的向量就十分必要。特征抽取或降維即使用低緯度向量表示高維度向量的方法。特征抽取是主要有主成分分析(PrincipalComponentAnalysis,PCA)和線性判別分析(LinearDiscriminantAnalysis,LDA)兩種方式。兩者相同之處為均假設(shè)數(shù)據(jù)服從高斯分布,都使用了矩陣分解的思想。兩者不同之處為PCA是無(wú)監(jiān)督的算法,對(duì)降低后的維度無(wú)限制,其目標(biāo)為投影方差最大;LDA是有監(jiān)督的算法,
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 中國(guó)高中英語(yǔ)學(xué)習(xí)者二語(yǔ)心理詞匯組織模式的實(shí)證研究
- 2025年農(nóng)業(yè)科學(xué)研究與試驗(yàn)發(fā)展服務(wù)項(xiàng)目合作計(jì)劃書(shū)
- 多孔MXene薄膜的制備及在超級(jí)電容器的應(yīng)用
- 公司廠級(jí)安全培訓(xùn)試題含答案(精練)
- 車間職工安全培訓(xùn)試題及參考答案【B卷】
- 各個(gè)班組安全培訓(xùn)考試題含答案(模擬題)
- 2025年汽車自動(dòng)天線合作協(xié)議書(shū)
- 船用空氣瓶擴(kuò)建項(xiàng)目可行性研究報(bào)告模板-立項(xiàng)備案
- 汽車文化圖書(shū)出版行業(yè)深度調(diào)研及發(fā)展戰(zhàn)略咨詢報(bào)告
- 法律知識(shí)數(shù)字解讀頻道行業(yè)跨境出海戰(zhàn)略研究報(bào)告
- 2024-2030年中國(guó)石榴花提取物行業(yè)發(fā)展動(dòng)態(tài)及供需前景預(yù)測(cè)報(bào)告
- UL859(個(gè)人修飾電器標(biāo)準(zhǔn))中文
- JBT 3997-2011 金屬切削機(jī)床灰鑄鐵件 技術(shù)條件
- 機(jī)械制圖與CAD (第3版) 課件 任務(wù)4.3 減速器從動(dòng)軸零件圖的識(shí)讀與繪制
- 中等職業(yè)學(xué)校公共基礎(chǔ)課程 數(shù)學(xué)《對(duì)數(shù)》教學(xué)課件
- 河南省新鄭市2023-2024學(xué)年七年級(jí)下學(xué)期6月期末生物試題
- 中國(guó)聯(lián)通2020年中級(jí)IT專業(yè)能力認(rèn)證-需求分析試題題庫(kù)
- QBT 3653-1999 羽毛球拍行業(yè)標(biāo)準(zhǔn)
- 犬的品種-犬的品種類型及外貌鑒定
- 重點(diǎn)關(guān)愛(ài)學(xué)生幫扶活動(dòng)記錄表
- 工地防火技術(shù)方案
評(píng)論
0/150
提交評(píng)論