數(shù)據(jù)以及數(shù)據(jù)預(yù)處理_第1頁
數(shù)據(jù)以及數(shù)據(jù)預(yù)處理_第2頁
數(shù)據(jù)以及數(shù)據(jù)預(yù)處理_第3頁
數(shù)據(jù)以及數(shù)據(jù)預(yù)處理_第4頁
數(shù)據(jù)以及數(shù)據(jù)預(yù)處理_第5頁
已閱讀5頁,還剩85頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、關(guān)于數(shù)據(jù)及數(shù)據(jù)預(yù)處理第一張,PPT共九十頁,創(chuàng)作于2022年6月記錄數(shù)據(jù)關(guān)系記錄數(shù)據(jù)矩陣,例如,數(shù)值矩陣,交叉文檔數(shù)據(jù):文本文件:詞頻向量交易數(shù)據(jù)圖形和網(wǎng)絡(luò)萬維網(wǎng)社會或信息網(wǎng)絡(luò)分子結(jié)構(gòu)有序時間數(shù)據(jù):時間序列順序數(shù)據(jù):交易序列基因序列數(shù)據(jù)視頻數(shù)據(jù)的圖像序列空間,圖像和多媒體:空間數(shù)據(jù):地圖2.1數(shù)據(jù)類型第二張,PPT共九十頁,創(chuàng)作于2022年6月數(shù)據(jù)對象數(shù)據(jù)集由數(shù)據(jù)對象組成一個數(shù)據(jù)對象代表一個實體例子銷售數(shù)據(jù)庫:客戶,商店物品,銷售額醫(yī)療數(shù)據(jù)庫:患者,治療信息大學(xué)數(shù)據(jù)庫:學(xué)生,教授,課程信息稱為樣品,示例,實例,數(shù)據(jù)點,對象,元組(tuple)。數(shù)據(jù)對象所描述的屬性。數(shù)據(jù)庫中的行 - 數(shù)據(jù)對象;

2、列 - “屬性”。第三張,PPT共九十頁,創(chuàng)作于2022年6月屬性屬性(或尺寸,特征,變量):一個數(shù)據(jù)字段,代表一個數(shù)據(jù)對象的特征或功能。例如,客戶_ID,姓名,地址類型:標(biāo)稱二進制數(shù)字:定量規(guī)模區(qū)間縮放比率第四張,PPT共九十頁,創(chuàng)作于2022年6月屬性類型標(biāo)稱:類別,狀態(tài),或“名字的東西”Hair_color=黑色,棕色,金色,紅色,紅褐色,灰色,白色婚姻狀況,職業(yè),身份證號碼,郵政編碼二進制只有2個狀態(tài)(0和1)的屬性對稱二進制兩種結(jié)果重要例如,性別不對稱的二進制結(jié)果同樣重要。例如,醫(yī)療測試(正面與負(fù)面)公約:將1至最重要的成果(例如,HIV陽性)序數(shù)詞價值觀有一個有意義的順序(排名),

3、但不知道連續(xù)值之間的大小。大小=小,中,大,等級,軍隊排名第五張,PPT共九十頁,創(chuàng)作于2022年6月2.2數(shù)據(jù)質(zhì)量被廣泛接受的數(shù)據(jù)質(zhì)量測量標(biāo)準(zhǔn)準(zhǔn)確性完整性一致性合時性可信度解釋性第六張,PPT共九十頁,創(chuàng)作于2022年6月2.3數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理:概述數(shù)據(jù)預(yù)處理主要任務(wù)數(shù)據(jù)清洗數(shù)據(jù)集成數(shù)據(jù)縮減數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)離散化總結(jié)第七張,PPT共九十頁,創(chuàng)作于2022年6月2.3數(shù)據(jù)預(yù)處理主要任務(wù)數(shù)據(jù)清理填寫缺失值,平滑噪聲數(shù)據(jù),識別或刪除離群,并解決不一致問題數(shù)據(jù)集成整合多個數(shù)據(jù)庫,多維數(shù)據(jù)集或文件數(shù)據(jù)縮減降維Numerosity reduction數(shù)據(jù)壓縮數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)離散化正常化生成概念層次結(jié)構(gòu)第

4、八張,PPT共九十頁,創(chuàng)作于2022年6月數(shù)據(jù)清洗在現(xiàn)實世界中的數(shù)據(jù)是“臟”的:不完整的:缺少屬性值,缺乏某些屬性值,或只包含總數(shù)據(jù)例如,職業(yè)=“ ”(丟失的數(shù)據(jù))含嘈雜的噪音,錯誤或離群例如,工資=“-10”(錯誤)不一致的代碼或不符的名稱年齡=“42”生日=“03/07/1997”曾經(jīng)評級“1,2,3”,現(xiàn)在評級“A,B,C”重復(fù)的記錄之間的差異第九張,PPT共九十頁,創(chuàng)作于2022年6月不完整(缺少)數(shù)據(jù)數(shù)據(jù)并不總是可用的例如,許多元組沒有屬性,如客戶收入、銷售數(shù)據(jù)的記錄值丟失的數(shù)據(jù),可能是由于設(shè)備故障與其他記錄的數(shù)據(jù)不一致,從而刪除因誤會而未讀入在讀入的時候,某些數(shù)據(jù)可能不會被認(rèn)為是重

5、要的不是歷史或更改的數(shù)據(jù)注冊丟失的數(shù)據(jù)可能需要被推斷第十張,PPT共九十頁,創(chuàng)作于2022年6月如何處理丟失數(shù)據(jù)?忽略元組:通常是類標(biāo)簽丟失時(這樣做分類),每個屬性的缺失值有很大的差別手動填寫遺漏值自動填寫全局常量屬性含義屬性意味著所有樣本屬于同一類最有可能的值:基于諸如貝葉斯公式或決策樹推理第十一張,PPT共九十頁,創(chuàng)作于2022年6月噪聲數(shù)據(jù)噪聲:一個測量變量中的隨機錯誤或方差原因收集工具故障數(shù)據(jù)錄入問題數(shù)據(jù)傳輸問題技術(shù)限制命名約定不一致其他數(shù)據(jù)問題需要數(shù)據(jù)清理如重復(fù)記錄數(shù)據(jù)不完整不一致的數(shù)據(jù)第十二張,PPT共九十頁,創(chuàng)作于2022年6月如何處理噪聲數(shù)據(jù)?回歸數(shù)據(jù)擬合聚類檢測和刪除離群結(jié)

6、合計算機和人工檢查檢測可疑的數(shù)據(jù)(例如人工處理可能的異常值)第十三張,PPT共九十頁,創(chuàng)作于2022年6月數(shù)據(jù)清洗數(shù)據(jù)的誤差檢測使用元數(shù)據(jù)(例如,領(lǐng)域,范圍,依賴,分銷)檢查是否溢出檢查唯一性規(guī)則,連續(xù)統(tǒng)治和空的規(guī)則使用商業(yè)工具數(shù)據(jù)清理:使用領(lǐng)域知識(例如,郵政編碼,拼寫檢查),檢測錯誤并改正數(shù)據(jù)審計:通過分析數(shù)據(jù)檢測違規(guī)者(例如,關(guān)聯(lián)和聚類規(guī)則和關(guān)系,尋找離群)數(shù)據(jù)遷移和整合數(shù)據(jù)遷移工具:允許指定的轉(zhuǎn)換ETL(提取/轉(zhuǎn)換/加載)工具:通過圖形用戶界面允許用戶指定轉(zhuǎn)換兩個過程的集成迭代和交互第十四張,PPT共九十頁,創(chuàng)作于2022年6月數(shù)據(jù)集成數(shù)據(jù)集成將來自多個數(shù)據(jù)源的數(shù)據(jù)組合成一個連貫的數(shù)據(jù)

7、源模式集成:例如,A.cust-id B.cust-#整合來自不同來源的元數(shù)據(jù)實體識別問題:識別來自多個數(shù)據(jù)源的真實世界的實體,例如,Bill Clinton = William Clinton數(shù)據(jù)沖突檢測和解決對于同一個真實世界的實體,來自不同源的屬性值可能的原因:不同的表述,不同的尺度,例如,公制與英制單位第十五張,PPT共九十頁,創(chuàng)作于2022年6月數(shù)據(jù)集成中的冗余信息的處理整合多個數(shù)據(jù)庫經(jīng)常發(fā)生數(shù)據(jù)冗余Object identification:相同的屬性或?qū)ο罂赡苡胁煌拿衷诓煌臄?shù)據(jù)庫中Derivable data:一個屬性可能是“派生”的另一個表中的屬性,例如,年收入通過相關(guān)性

8、分析和協(xié)方差分析可以檢測到冗余的屬性仔細(xì)集成來自多個數(shù)據(jù)源,可能有助于減少/避免冗余和不一致的地方,并提高讀取速度和質(zhì)量第十六張,PPT共九十頁,創(chuàng)作于2022年6月相關(guān)分析2 (chi-square) test2值越大,越有可能變量是相關(guān)的The cells that contribute the most to the 2 value are those whose actual count is very different from the expected count相關(guān)性并不意味著因果關(guān)系# of hospitals and # of car-theft in a city 是相關(guān)

9、的兩者都因果聯(lián)系的第三個變量為人口第十七張,PPT共九十頁,創(chuàng)作于2022年6月2 (chi-square) test舉例2(卡方)計算(括號中的數(shù)字是預(yù)計計數(shù)基于兩個類別中的數(shù)據(jù)分布計算)這表明,組中的like_science_fiction和play_chess相關(guān)第十八張,PPT共九十頁,創(chuàng)作于2022年6月相關(guān)分析數(shù)據(jù)(數(shù)字?jǐn)?shù)據(jù))相關(guān)系數(shù)(也稱為皮爾遜積矩系數(shù))其中n是元組的數(shù)目,而p和q是各自的具體值, p和q是各自的標(biāo)準(zhǔn)偏差,如果R(p,q) 0,p和q是正相關(guān)的(p的值增加為q的),較高的相關(guān)性。R(p,q)=0:獨立; R(p,q) 0,則p和q都傾向于是大于它們的預(yù)期值。負(fù)的

10、協(xié)方差:如果在COV(p,q) 0。第二十三張,PPT共九十頁,創(chuàng)作于2022年6月數(shù)據(jù)縮減策略數(shù)據(jù)還原:還原面積更小、體積減少的數(shù)據(jù)集,但尚未產(chǎn)生相同(或幾乎相同)的分析結(jié)果為什么數(shù)據(jù)縮減? - 由于數(shù)據(jù)倉庫可以存儲TB的數(shù)據(jù),因此在一個完整的數(shù)據(jù)集上運行時,復(fù)雜的數(shù)據(jù)分析可能需要一個很長的時間數(shù)據(jù)縮減戰(zhàn)略降維,例如,刪除不重要的屬性小波變換主成分分析(PCA)特征選擇,特征創(chuàng)建Numerosity reduction回歸和對數(shù)線性模型直方圖,聚類,取樣數(shù)據(jù)立方體聚集數(shù)據(jù)壓縮第二十四張,PPT共九十頁,創(chuàng)作于2022年6月降維原因隨著維數(shù)的增加,數(shù)據(jù)變得越來越稀疏對孤立點分析使得密度和距離變

11、得意義不大子空間的可能的組合將成倍增長降維作用避免維數(shù)災(zāi)難幫助消除無關(guān)緊要的屬性,并降低噪音減少數(shù)據(jù)挖掘所需的時間和空間更容易的可視化降維技術(shù)小波變換主成分分析監(jiān)督和非線性技術(shù)(例如,特征選擇)第二十五張,PPT共九十頁,創(chuàng)作于2022年6月將數(shù)據(jù)映射到一個新的空間傅里葉變換小波變換Two Sine WavesTwo Sine Waves + NoiseFrequency第二十六張,PPT共九十頁,創(chuàng)作于2022年6月小波變換是什么?分解成不同的頻率子帶的信號適用于n維信號轉(zhuǎn)化的數(shù)據(jù)是在不同級別的分辨率中保存用于圖像壓縮第二十七張,PPT共九十頁,創(chuàng)作于2022年6月小波變換離散小波變換(DW

12、T)的線性信號處理壓縮近似:只有一小部分的小波系數(shù)最強離散傅里葉變換(DFT)類似,但在空間中有更好的壓縮效果方法:長度L,必須是2的整數(shù)次冪(0填充,必要時)每個變換具有2個功能:平滑,差異適用于雙數(shù)據(jù),在兩個集得到的長度為L/2的數(shù)據(jù)施加兩個遞歸函數(shù),直到達到所需要的長度第二十八張,PPT共九十頁,創(chuàng)作于2022年6月小波變換小波:空間高效分解的數(shù)學(xué)工具2,2,0,2,3,5,4,4可轉(zhuǎn)化為S = S =23/4,-11/ 4,1/2,0,0,-1,0壓縮:許多小細(xì)節(jié)系數(shù)可以替換為0的,只有顯示的系數(shù)被保留第二十九張,PPT共九十頁,創(chuàng)作于2022年6月為什么小波變換?使用hat-shap

13、e濾波器強調(diào)區(qū)域點聚集的地方在邊界禁止較弱的信息有效去除離群值對噪聲不敏感多分辨率在不同尺度檢測任意形狀的集群高效復(fù)雜度為O(N)只適用于低維數(shù)據(jù)第三十張,PPT共九十頁,創(chuàng)作于2022年6月主成分分析(PCA)原始數(shù)據(jù)投影到一個更小的空間,從而查找投影來捕獲最大的變化量數(shù)據(jù)的,從而維數(shù)降低。發(fā)現(xiàn)協(xié)方差矩陣的特征向量,用這些特征向量定義新的空間x2x1e第三十一張,PPT共九十頁,創(chuàng)作于2022年6月主成分分析(步驟)從n維向量中的N個數(shù)據(jù)中,求kN個正交向量(主成分)能用來表示數(shù)據(jù)歸一輸入數(shù)據(jù):每個屬性落在相同的范圍內(nèi)(單元)計算K:正交向量,即,主成分每個輸入的數(shù)據(jù)(矢量)是k個主分量矢量

14、的線性組合通過排序減少“意義”或強度的組成部分由于這些組件的排序方式,消除了弱的元件,即具有低方差(即,使用最強的主成分,也能夠重建原始數(shù)據(jù)的一個很好的近似,可以減少數(shù)據(jù)的大?。┑谌?,PPT共九十頁,創(chuàng)作于2022年6月屬性子集選擇通過屬性子集選擇以減少數(shù)據(jù)的維多余的屬性復(fù)制所有的信息中包含一個或多個其他屬性例如,購買一個產(chǎn)品的價格和支付額兩個屬性相同,是多余的屬性不相關(guān)的屬性不包含任何信息的屬性例如,學(xué)生的ID往往在預(yù)測學(xué)生的GPA是不相關(guān)的第三十三張,PPT共九十頁,創(chuàng)作于2022年6月啟發(fā)式搜索屬性選擇d的屬性有可能是2d屬性組合典型的啟發(fā)式屬性選擇方法:Best single a

15、ttribute屬性獨立性假設(shè):選擇進行檢驗分步進行的功能選擇:分步進行屬性消除:反復(fù)淘汰不需要的屬性最佳組合的屬性選擇和淘汰優(yōu)化分支和綁定:使用屬性消除和回溯第三十四張,PPT共九十頁,創(chuàng)作于2022年6月創(chuàng)建屬性(特征生成)創(chuàng)建新的屬性(特征),可以更有效地比原來的數(shù)據(jù)捕捉重要的信息三個一般方法屬性提取domain-specific將數(shù)據(jù)映射到新的空間(見:數(shù)據(jù)縮減)例如,傅立葉變換,小波變換,歧管的方法(未覆蓋)Attribute construction 數(shù)據(jù)離散化第三十五張,PPT共九十頁,創(chuàng)作于2022年6月Numerosity Reduction通過選擇更小的數(shù)據(jù)來替代從而減少數(shù)

16、據(jù)量參數(shù)方法(例如,回歸)假設(shè)數(shù)據(jù)適合一些模型,估計模型參數(shù),只存儲參數(shù),并丟棄數(shù)據(jù)(可能的異常值除外)例如:對數(shù)線性模型在一個點在MD的空間作為產(chǎn)品上獲得價值,適當(dāng)?shù)倪呺H子空間非參數(shù)方法不要假設(shè)模型主要方法:直方圖,聚類,取樣,.第三十六張,PPT共九十頁,創(chuàng)作于2022年6月參數(shù)數(shù)據(jù)還原:回歸和對數(shù)線性模型線性回歸:一次函數(shù)通常使用最小二乘法來擬合線多元回歸:允許多維特征向量的線性函數(shù)建模為變量Y對數(shù)線性模型:近似離散的多維概率分布第三十七張,PPT共九十頁,創(chuàng)作于2022年6月回歸分析回歸分析:組成的一個因變量(也稱為響應(yīng)變量)和一個或多個獨立變量(亦稱解釋變量或預(yù)測變量的值的數(shù)值數(shù)據(jù)建

17、模和分析技術(shù)的統(tǒng)稱)參數(shù)估計,以便使數(shù)據(jù)“最適合”最常用的是通過使用最小二乘法來進行評估,但也被用于其他標(biāo)準(zhǔn)用于時間序列數(shù)據(jù)預(yù)測等的預(yù)測,推斷,假設(shè)檢驗,因果關(guān)系的建模xy = x + 1X1Y1Y1第三十八張,PPT共九十頁,創(chuàng)作于2022年6月回歸分析和對數(shù)線性模型線性回歸:Y= W X+ B兩個回歸系數(shù),w和b,指定行,并且要使用手工的數(shù)據(jù)估計使用最小二乘準(zhǔn)則已知的值,Y1,Y2,.,X1,X2,.多元回歸:Y = b0 + b1 X1 + b2 X2.。許多非線性函數(shù),可轉(zhuǎn)化為上述線性模型:多路表的聯(lián)合概率近似為低階表概率:p(a, b, c, d) = ab acad bcd第三十九

18、張,PPT共九十頁,創(chuàng)作于2022年6月直方圖分析將數(shù)據(jù)劃分為buckets,然后存儲buckets的均值分區(qū)規(guī)則:等寬:等于buckets范圍相等的頻率(或等于深度第四十張,PPT共九十頁,創(chuàng)作于2022年6月聚類分區(qū)數(shù)據(jù)基于相似性進行存儲,只能設(shè)置成集群(例如,質(zhì)心和直徑)如果數(shù)據(jù)是集群 則非常有效,否則效果較差可以在多維索引樹結(jié)構(gòu)有層次聚類和存儲聚類定義和聚類算法有很多選擇聚類分析在后續(xù)將進行深入研究第四十一張,PPT共九十頁,創(chuàng)作于2022年6月采樣采樣:獲得一個小樣本代表整個數(shù)據(jù)N主要原則:選擇有代表性的數(shù)據(jù)子集簡單隨機抽樣開發(fā)的自適應(yīng)采樣方法,例如分層抽樣注:采樣不得減少數(shù)據(jù)庫I

19、/ O(第一次)第四十二張,PPT共九十頁,創(chuàng)作于2022年6月采樣類型簡單隨機抽樣相等的概率選擇不放回抽樣一旦對象被選中,則將其刪除更換采樣選擇對象不會被刪除分層抽樣對每個分區(qū)進行數(shù)據(jù)集的分區(qū)抽樣(也就是說,大約相同比例的數(shù)據(jù)進行抽取樣本)用于偏斜數(shù)據(jù)第四十三張,PPT共九十頁,創(chuàng)作于2022年6月取樣:用或不用更換SRSWOR(simple random sample without replacement)SRSWRRaw Data第四十四張,PPT共九十頁,創(chuàng)作于2022年6月采樣:群集或分層抽樣Raw Data Cluster/Stratified Sample第四十五張,PPT共九

20、十頁,創(chuàng)作于2022年6月數(shù)據(jù)壓縮字符串壓縮有豐富的理論和壓縮算法通常無損音頻/視頻壓縮通常有損壓縮,需要逐步細(xì)化時間序列壓縮典型的短期和隨時間變化緩慢第四十六張,PPT共九十頁,創(chuàng)作于2022年6月數(shù)據(jù)壓縮Original DataCompressed DatalosslessOriginal DataApproximated lossy第四十七張,PPT共九十頁,創(chuàng)作于2022年6月數(shù)據(jù)轉(zhuǎn)換函數(shù)映射指給定的屬性值更換了一個新的表示方法,每個舊值與新的值可以被識別方法平滑:從數(shù)據(jù)中去除噪聲屬性/重新構(gòu)造從給定的構(gòu)造的新的屬性聚合:匯總數(shù)據(jù)計算規(guī)范化: 指定范圍內(nèi)縮放屬于較小的最小 - 最大規(guī)

21、范化Z-得分正?;?shù)定標(biāo)規(guī)范化離散化:概念層次第四十八張,PPT共九十頁,創(chuàng)作于2022年6月Discretization 離散三種類型的屬性從一個無序的設(shè)置,例如,顏色,專業(yè)的值從一個有序的集合,例如,軍事或?qū)W術(shù)排名次序值數(shù)字,真實的數(shù)字,例如,整數(shù)或?qū)崝?shù)離散化:除以間隔連續(xù)屬性的范圍區(qū)間的標(biāo)簽可以被用來代替實際的數(shù)據(jù)值減少數(shù)據(jù)大小離散監(jiān)督與無監(jiān)督分割(自頂向下)與合并(自下而上)離散化,可以進行遞歸屬性準(zhǔn)備作進一步的分析,例如,分類第四十九張,PPT共九十頁,創(chuàng)作于2022年6月數(shù)據(jù)離散化方法典型的方法:所有的方法可應(yīng)用于遞歸Binning 自頂向下的分割直方圖分析自頂向下的分割其他方法

22、聚類分析(無監(jiān)督,自上而下裂開或自底向上的合并)決策樹分析(監(jiān)督,自上而下的分割)相關(guān)性分析(無監(jiān)督,自下而上合并)第五十張,PPT共九十頁,創(chuàng)作于2022年6月離散不使用類標(biāo)簽(分級與集群)Equal frequency (binning)K-means clustering leads to better results第五十一張,PPT共九十頁,創(chuàng)作于2022年6月離散使用類標(biāo)簽決策樹方法(基于信息熵)3 categories for both x and y5 categories for both x and y第五十二張,PPT共九十頁,創(chuàng)作于2022年6月概念層次生成概念層次組織

23、層次概念(即屬性值)通常指數(shù)據(jù)倉庫中的每個維度概念層次通過滾動來查看數(shù)據(jù)在數(shù)據(jù)倉庫中多粒度形成概念層次:遞歸減少數(shù)據(jù)收集和更換低層次的概念(如年齡的數(shù)值)到更高層次的概念(如青年,成年,或高級)由領(lǐng)域?qū)<液?或數(shù)據(jù)倉庫設(shè)計概念分層可以顯式指定概念層次可以自動形成數(shù)字和標(biāo)稱數(shù)據(jù)。對于數(shù)字?jǐn)?shù)據(jù),使用所示的離散化方法。第五十三張,PPT共九十頁,創(chuàng)作于2022年6月總結(jié)數(shù)據(jù)質(zhì)量的準(zhǔn)確性,完整性,一致性,時效性,可信性,解釋性數(shù)據(jù)清洗:如缺少/高噪音值,離群值來自多個來源的數(shù)據(jù)集成實體識別問題刪除冗余檢測不一致數(shù)據(jù)縮減降維Numerosity reduction數(shù)據(jù)壓縮數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)離散化正常化生成概

24、念層次第五十四張,PPT共九十頁,創(chuàng)作于2022年6月2.4數(shù)據(jù)相似性和相異性度量相似數(shù)值衡量兩個數(shù)據(jù)對象值越高對象時更相似往往屬于在區(qū)間0,1相異(例如,距離)兩個不同的數(shù)據(jù)對象的數(shù)值衡量值越低對象時更相異最低相異往往是0上限各不相同接近指的相似性或不相似第五十五張,PPT共九十頁,創(chuàng)作于2022年6月數(shù)據(jù)矩陣和相異矩陣數(shù)據(jù)矩陣n個數(shù)據(jù)兩種模式相異矩陣n個數(shù)據(jù)點三角矩陣單模第五十六張,PPT共九十頁,創(chuàng)作于2022年6月舉例:數(shù)據(jù)矩陣和相異矩陣Dissimilarity Matrix (with Euclidean Distance)Data Matrix第五十七張,PPT共九十頁,創(chuàng)作于2

25、022年6月總結(jié)數(shù)據(jù)屬性類型:名義,二進制,順序,間隔縮放比例,縮放許多類型的數(shù)據(jù)集,例如,數(shù)值,文字,圖形,網(wǎng)頁,圖像等。洞察數(shù)據(jù)通過以下幾種方式:基本的統(tǒng)計數(shù)據(jù)說明:集中趨勢,分散,圖形顯示數(shù)據(jù)可視化:map data onto graphical primitives測量數(shù)據(jù)相似上述步驟是數(shù)據(jù)預(yù)處理的開始。許多方法已經(jīng)開發(fā),但現(xiàn)在其仍然是一個活躍的研究領(lǐng)域第五十八張,PPT共九十頁,創(chuàng)作于2022年6月2.5數(shù)據(jù)統(tǒng)計匯總動機為了更好地理解數(shù)據(jù):集中趨勢,變異和傳播數(shù)據(jù)的分散特性最大值,最小值,中位數(shù),位數(shù),離群值,方差等。尺寸數(shù)值對應(yīng)排序的時間間隔數(shù)據(jù)分散性:多粒度的精確分析箱形圖或位數(shù)

26、排序的時間間隔分析第五十九張,PPT共九十頁,創(chuàng)作于2022年6月測量集中趨勢平均(代數(shù)措施)(樣品與人口):注:n為樣本大小和N是人口規(guī)模。加權(quán)算術(shù)平均值:修剪意味著:去掉極端值中位數(shù):中間值,如果值,奇數(shù)或平均中間的兩個值,否則估計插補(分組數(shù)據(jù)):模式最頻繁出現(xiàn)的值,該值在數(shù)據(jù)單峰,雙峰,三峰經(jīng)驗公式:第六十張,PPT共九十頁,創(chuàng)作于2022年6月對稱VS偏斜數(shù)據(jù),中位數(shù),均值和對稱模式,正面和負(fù)面的偏斜數(shù)據(jù)第六十一張,PPT共九十頁,創(chuàng)作于2022年6月測量數(shù)據(jù)的分散性四分位數(shù),離群和盒狀圖四分位數(shù)(第25百分位):Q1,Q3(第75百分位)四分位數(shù)間距:IQR= Q3 - Q1箱形圖

27、:盒子的兩端是四分位數(shù)明顯;單獨添加胡須,情節(jié)離群離群:通常情況下,一個值高于/低于1.5IQR方差和標(biāo)準(zhǔn)差(樣本:,人口:)方差:(代數(shù),可擴展的計算)標(biāo)準(zhǔn)差s(或)是方差的平方根2(或2)第六十二張,PPT共九十頁,創(chuàng)作于2022年6月箱線圖分析五號碼分布摘要最小,Q1,中位數(shù),Q3,最大箱形圖數(shù)據(jù)表示與一個框框的端部上面的第一個和第三個四分位數(shù),即,框的高度是四分位數(shù)間距方框內(nèi)的中位數(shù)的帶標(biāo)記的線兩線最小和最大擴展到外箱第六十三張,PPT共九十頁,創(chuàng)作于2022年6月可視化數(shù)據(jù)分散:3-D箱圖第六十四張,PPT共九十頁,創(chuàng)作于2022年6月正態(tài)分布曲線的屬性正常分布曲線從-+:含有約68

28、的測量(:均值,:標(biāo)準(zhǔn)偏差)從-2+2:包含約95的從-3,+3:包含約99.7第六十五張,PPT共九十頁,創(chuàng)作于2022年6月圖形顯示的基本統(tǒng)計描述箱形圖:圖形顯示直方圖:x軸值,y軸頻率位數(shù):每個值x位數(shù) - 分位數(shù)(QQ):一個單變量分布的分位數(shù)對相應(yīng)位數(shù)的另一個圖表散點圖:每個值對是一對坐標(biāo),其繪制在平面上第六十六張,PPT共九十頁,創(chuàng)作于2022年6月相比盒形圖直方圖往往告訴更多兩個在右側(cè)的直方圖顯示其可以具有相同的盒形圖表示效果相同的values:最小,Q1,Q3,中位數(shù),最大但是他們有相當(dāng)不同的數(shù)據(jù)分布第六十七張,PPT共九十頁,創(chuàng)作于2022年6月位數(shù)圖顯示的所有數(shù)據(jù)(允許用戶

29、評估整體行為和不尋常的事件)位數(shù)信息對于數(shù)據(jù)x進行遞增的順序排序,F(xiàn)I表示,約一定比例的數(shù)據(jù)網(wǎng)絡(luò)連接均低于或等于值xi第六十八張,PPT共九十頁,創(chuàng)作于2022年6月散點圖二元數(shù)據(jù)顯示點的分布,離群點等被視為一對坐標(biāo)值的每對點在平面上繪制成第六十九張,PPT共九十頁,創(chuàng)作于2022年6月正面和負(fù)面的相關(guān)數(shù)據(jù)左半片段是正相關(guān)的右半邊是負(fù)相關(guān)第七十張,PPT共九十頁,創(chuàng)作于2022年6月不相關(guān)的數(shù)據(jù)第七十一張,PPT共九十頁,創(chuàng)作于2022年6月2.6數(shù)據(jù)可視化為什么數(shù)據(jù)可視化?將圖元數(shù)據(jù)映射到信息空間提供大型數(shù)據(jù)集的定性瀏覽搜索數(shù)據(jù)之間的關(guān)系如模式,趨勢,結(jié)構(gòu),規(guī)則,幫助進一步定量分析, 通過合

30、適的參數(shù)找到有趣的地區(qū)提供可視化的陳述典型的可視化方法:幾何技術(shù)基于圖標(biāo)的技術(shù)分層技術(shù)第七十二張,PPT共九十頁,創(chuàng)作于2022年6月幾何技術(shù)幾何變換和預(yù)測的數(shù)據(jù)可視化方法直接的數(shù)據(jù)可視化散點圖矩陣Landscapes投影尋蹤技術(shù)尋找有意義的多維數(shù)據(jù)預(yù)測 Hyperslice平行坐標(biāo)第七十三張,PPT共九十頁,創(chuàng)作于2022年6月直接數(shù)據(jù)可視化基于Vorticity的色帶第七十四張,PPT共九十頁,創(chuàng)作于2022年6月散點圖矩陣第七十五張,PPT共九十頁,創(chuàng)作于2022年6月Landscapes可視化的數(shù)據(jù)透視Landscapes這些數(shù)據(jù)需要轉(zhuǎn)化成一個(可能是人工的)二維空間表示,其中保存的數(shù)

31、據(jù)的特征第七十六張,PPT共九十頁,創(chuàng)作于2022年6月平行坐標(biāo)將一個軸劃分為N等距離,每一個距離對應(yīng)一個屬性軸縮放在最小,最大之間:對應(yīng)屬性范圍每一個數(shù)據(jù)項目(折線)對應(yīng)的各軸相交的點表示相對應(yīng)的屬性值第七十七張,PPT共九十頁,創(chuàng)作于2022年6月平行坐標(biāo)數(shù)據(jù)集第七十八張,PPT共九十頁,創(chuàng)作于2022年6月基于圖標(biāo)的技術(shù)將數(shù)據(jù)值作為可視化功能的圖標(biāo)典型的可視化方法:Chernoff FacesStick Figures一般技術(shù)形狀編碼:使用形狀來表示一定的信息編碼彩色圖標(biāo):使用彩色圖標(biāo)的信息編碼TileBars:使用小圖標(biāo)代表文件檢索的特征向量第七十九張,PPT共九十頁,創(chuàng)作于2022年

32、6月Chernoff Faces一種來顯示二維表面上的變量的方法,例如,讓x是眉毛傾斜,y是眼睛的大小,z是鼻子長度等該組圖顯示了人臉部的10個特征 - 眼睛的大小,眼間距,偏心眼,瞳孔大小,眉毛傾斜,鼻子的大小,嘴的形狀,嘴巴大小,張口等參考文獻:Gonick, L. and Smith, W. The Cartoon Guide to Statistics. New York: Harper Perennial, p. 212, 1993Weisstein, Eric W. Chernoff Face. From MathWorld-A Wolfram Web Resource. /Che

33、rnoffFace.html 第八十張,PPT共九十頁,創(chuàng)作于2022年6月Stick Figures普查數(shù)據(jù)顯示,年齡,收入,性別,教育等等。第八十一張,PPT共九十頁,創(chuàng)作于2022年6月分層技術(shù)使用子空間分層分區(qū)的數(shù)據(jù)可視化。方法Dimensional StackingWorlds-within-WorldsTree-Map Cone TreesInfoCube第八十二張,PPT共九十頁,創(chuàng)作于2022年6月Dimensional Stacking在2-D的子空間中分配的n維屬性空間,堆疊相互轉(zhuǎn)化劃分成類的屬性值范圍時,重要屬性使用在the outer levels上。低基數(shù)與序?qū)傩詳?shù)據(jù)

34、超過九個維度難以顯示重要的地圖尺寸適當(dāng)?shù)诎耸龔?,PPT共九十頁,創(chuàng)作于2022年6月Worlds-within-Worlds指定兩個最重要的參數(shù)修復(fù)所有其他參數(shù)(1或2或3維世界選擇這些軸)軟件使用此范例,Nvision:通過data glove and stereo 立體顯示,包括旋轉(zhuǎn),縮放(內(nèi)環(huán))和翻譯(內(nèi)/外動力相互作用)Auto Visual:通過查詢靜態(tài)互動第八十四張,PPT共九十頁,創(chuàng)作于2022年6月Tree-Map屏幕填充方法具體指根據(jù)屬性值采用了分層方法將屏幕分割成區(qū)域x和y維度的畫面交替地進行分區(qū)的屬性值(類)MSR NetScan的圖片第八十五張,PPT共九十頁,創(chuàng)作于

35、2022年6月文件系統(tǒng)的Tree-Map第八十六張,PPT共九十頁,創(chuàng)作于2022年6月Three-D Cone TreesThree-D Cone Trees的可視化技術(shù)的工作原理首先建立一個二維的圓,安排節(jié)點在根節(jié)點上的同心圓,然后逐漸形成樹預(yù)計到2D時無法避免重疊G. Robertson, J. Mackinlay, S. Card. “Cone Trees: Animated 3D Visualizations of Hierarchical Information”, ACM SIGCHI91第八十七張,PPT共九十頁,創(chuàng)作于2022年6月InfoCube3-D可視化技術(shù),分層信息顯示嵌套的半透明立方體最外層的多維數(shù)據(jù)集對應(yīng)數(shù)據(jù),里面的smmaller立方體表示的子節(jié)點或底層數(shù)據(jù)等第八十八張,PPT共九十頁,創(chuàng)作于202

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論