




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
大數(shù)據(jù)采集與預(yù)處理主講教師:龍霄漢《大數(shù)據(jù)導(dǎo)論》課程Introductiontobigdata數(shù)據(jù)預(yù)處理概述數(shù)據(jù)預(yù)處理概述011數(shù)據(jù)預(yù)處理概述數(shù)據(jù)預(yù)處理概述在數(shù)據(jù)轉(zhuǎn)換階段主要數(shù)據(jù)進行采樣處理、類型轉(zhuǎn)換、歸一化。采樣是從特定的概率分布中抽取樣本點的過程。采樣在大數(shù)據(jù)分析中有非常重要的應(yīng)用:將復(fù)雜分布簡化為離散的樣本點;用重采樣可以對樣本集進行調(diào)整以更好地進行調(diào)整并適應(yīng)后期的模型學(xué)習(xí);用于隨機模擬以進行復(fù)雜模型的近似求解或推理。采樣的一個重要作用是處理不均衡數(shù)據(jù)集。最簡單的處理不均衡樣本集的方法是隨機采樣。采樣一般分為過采樣(Over-sampling)和欠采樣(Under-sampling)。數(shù)據(jù)預(yù)處理概述數(shù)據(jù)類型可以簡單劃分為數(shù)值型和非數(shù)值型。數(shù)值型有連續(xù)型和離散型。非數(shù)值型有類別型和非類別型,其中類別型特征中如果類別存在排序問題為定序型,若不存在排序問題則為定類型,非類別型是字符串型。圖片來自互聯(lián)網(wǎng)數(shù)據(jù)預(yù)處理概述在數(shù)據(jù)描述階段,我們可以根據(jù)需要計算統(tǒng)計量和對數(shù)據(jù)進行可視化。數(shù)據(jù)的一般性描述有mean,median,mode,variance.mean是均值;median是中位數(shù),取數(shù)據(jù)排序后在中間位置的值,避免因為極端離群點影響客觀評價;mode是出現(xiàn)頻率最高的元素,其實用的比較少;variance是方差,由于衡量數(shù)據(jù)集與其均值的偏離。數(shù)據(jù)之間的相關(guān)性可以使用Pearsoncorrelationcoefficient和Pearsonchi-square進行度量。前者適用與有metricdata的情況,后者適用于分類統(tǒng)計的情況。數(shù)據(jù)預(yù)處理概述數(shù)據(jù)可視化一維數(shù)據(jù)圓餅圖,柱狀圖;二維數(shù)據(jù)散點圖;三維數(shù)據(jù)用三維坐標(biāo)呈現(xiàn);高維數(shù)據(jù)需要先做轉(zhuǎn)換或映射,比如用matlab的BoxPlots,也可以用平行坐標(biāo)呈現(xiàn)??墒褂霉ぞ哂泻芏?,如matlab和Geph。圖片來自互聯(lián)網(wǎng)數(shù)據(jù)預(yù)處理概述在大數(shù)據(jù)分析中,數(shù)據(jù)可以被表示為向量的形式進行訓(xùn)練,但是在對高維向量進行處理和分析時,會極大消耗系統(tǒng)資源,甚至產(chǎn)生維度災(zāi)難。因此,使用低維度的向量來表示高維度的向量就十分必要。特征抽取或降維即使用低緯度向量表示高維度向量的方法。特征抽取是主要有主成分分析(PrincipalComponentAnalysis,PCA)和線性判別分析(LinearDiscriminantAnalysis,LDA)兩種方式。兩者相同之處為均假設(shè)數(shù)據(jù)服從高斯分布,都使用了矩陣分解的思想。兩者不同之處為PCA是無監(jiān)督的算法,對降低后的維度無限制,其目標(biāo)為投影方差最大;LDA是有監(jiān)督的算法,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 大學(xué)同學(xué)會活動策劃案
- 快遞從業(yè)人員行業(yè)用語
- 2025年衛(wèi)生招聘考試之衛(wèi)生招聘(文員)題庫檢測試卷A卷附答案
- 兒童游樂行業(yè)數(shù)據(jù)分析
- 第 5 單元混合運算評估檢測題(A卷)(單元測試)(無答案)2024-2025學(xué)年二年級下冊數(shù)學(xué)人教版
- 學(xué)員課堂的紀(jì)律管理方法
- 外墻涂料知識培訓(xùn)課件
- 小學(xué)數(shù)學(xué)國獎?wù)f課
- 心理學(xué)移情課件
- 培訓(xùn)檔案相關(guān)知識課件
- 2024年河南鄭州航空港區(qū)國際教育集團招聘筆試真題
- 2020年湖北省生物競賽初賽試卷試題含答案
- 人教版2025-2026學(xué)年四年級數(shù)學(xué)下冊教學(xué)工作計劃(含進度表)
- 二級甲等醫(yī)院評審標(biāo)準(zhǔn)與評價細則
- 江西省鷹潭市2023-2024學(xué)年六年級下學(xué)期數(shù)學(xué)期中試卷(含答案)
- 2025年宜昌科技職業(yè)學(xué)院單招職業(yè)技能測試題庫完整
- 2025年長春醫(yī)學(xué)高等??茖W(xué)校單招職業(yè)技能測試題庫及完整答案1套
- 2024全球感染預(yù)防與控制報告
- 第二單元+新音樂啟蒙+課件【高效課堂精研】高中音樂粵教花城版必修音樂鑒賞
- 春季傳染病預(yù)防科普宣傳
- 廣播電視采訪與制作知到智慧樹章節(jié)測試課后答案2024年秋漢口學(xué)院
評論
0/150
提交評論