計算思維導論(第2版)課件:數(shù)據(jù)挖掘基礎(chǔ)_第1頁
計算思維導論(第2版)課件:數(shù)據(jù)挖掘基礎(chǔ)_第2頁
計算思維導論(第2版)課件:數(shù)據(jù)挖掘基礎(chǔ)_第3頁
計算思維導論(第2版)課件:數(shù)據(jù)挖掘基礎(chǔ)_第4頁
計算思維導論(第2版)課件:數(shù)據(jù)挖掘基礎(chǔ)_第5頁
已閱讀5頁,還剩167頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)挖掘基礎(chǔ)8.1數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘產(chǎn)生背景數(shù)據(jù)分析的主要困難數(shù)據(jù)的多樣性數(shù)據(jù)價值密度相對較低數(shù)據(jù)的準確度和可信賴度有待考證數(shù)據(jù)的生成和更新速度快數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘概念數(shù)據(jù)挖掘:數(shù)據(jù)挖掘是指從大量的、多樣化的、不完全的、有噪聲的數(shù)據(jù)中提取隱含的、事先未知的、有潛在價值信息或知識的過程。數(shù)據(jù)挖掘的特點①數(shù)據(jù)挖掘要處理的數(shù)據(jù)經(jīng)常是龐大的數(shù)據(jù)集。②數(shù)據(jù)挖掘面對的原始數(shù)據(jù)是多樣化的。③數(shù)據(jù)挖掘中的數(shù)據(jù)經(jīng)常是不完全的或有噪聲的。④數(shù)據(jù)挖掘輸出的結(jié)果通常是模型或規(guī)則。⑤數(shù)據(jù)挖掘的目標是挖掘未知的但是潛在有價值的信息。數(shù)據(jù)挖掘:從大量雜亂無章的數(shù)據(jù)中提取或“挖掘”知識。最著名的故事-17+14+=安佛尼·哈德衛(wèi)伯蘭·紹+=達利爾·阿姆斯壯安佛尼·哈德衛(wèi)美國蘭德公司分析報告最值錢的分析報告統(tǒng)計學可視化高性能計算人工智能數(shù)據(jù)庫技術(shù)機器學習DM數(shù)據(jù)挖掘過程問題定義數(shù)據(jù)探索數(shù)據(jù)挖掘模型評價與部署數(shù)據(jù)采集數(shù)據(jù)預(yù)處理知識數(shù)據(jù)準備數(shù)據(jù)挖掘解釋評估模式預(yù)處理后的數(shù)據(jù)目標數(shù)據(jù)數(shù)據(jù)理解業(yè)務(wù)問題理解客戶需求定義商業(yè)目標定義挖掘目標是指描述用戶使用產(chǎn)品必須要完成的任務(wù),是從用戶角度出發(fā)的需求。即業(yè)務(wù)需求,它定義了數(shù)據(jù)挖掘的主題(如成因分析),是從業(yè)務(wù)角度出發(fā)的需求。挖掘的最終結(jié)果具有不可預(yù)見性,但要解決的問題應(yīng)是明確的。這里是從商業(yè)角度深度理解需求。挖掘目標通常是描述過去,預(yù)測未來。數(shù)據(jù)采集數(shù)據(jù)探索數(shù)據(jù)挖掘模型評價與部署問題定義數(shù)據(jù)預(yù)處理知識數(shù)據(jù)準備數(shù)據(jù)挖掘解釋評估模式預(yù)處理后的數(shù)據(jù)目標數(shù)據(jù)數(shù)據(jù)隨機抽樣分層抽樣等距抽樣順序抽樣分類抽樣……相關(guān)性可靠性有效性數(shù)據(jù)探索數(shù)據(jù)數(shù)據(jù)采集數(shù)據(jù)挖掘模型評價與部署問題定義數(shù)據(jù)預(yù)處理知識數(shù)據(jù)準備數(shù)據(jù)挖掘解釋評估模式預(yù)處理后的數(shù)據(jù)目標數(shù)據(jù)

特征分析——————分布分析、統(tǒng)計分析、貢獻度分析、對比分析、周期性分析、相關(guān)分析。

質(zhì)量分析——————缺失值分析、異常值分析、一致性分析。數(shù)據(jù)探索數(shù)據(jù)數(shù)據(jù)采集數(shù)據(jù)挖掘模型評價與部署問題定義知識數(shù)據(jù)準備數(shù)據(jù)挖掘解釋評估模式預(yù)處理后的數(shù)據(jù)

數(shù)據(jù)清洗——————是指發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識別的錯誤。如:缺失值處理、異常值處理、一致性處理。

數(shù)據(jù)變換——————是指進行規(guī)范化處理。如,成績開方乘10。

數(shù)據(jù)集成——————把不同來源、格式、特點性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機地集中在一起,為企業(yè)提供全面的數(shù)據(jù)共享。

數(shù)據(jù)規(guī)約——————是指在盡可能保持數(shù)據(jù)原貌的前提下,最大限度地精簡數(shù)據(jù)量。數(shù)據(jù)預(yù)處理目標數(shù)據(jù)數(shù)據(jù)挖掘模型評價與部署模式預(yù)處理后的數(shù)據(jù)數(shù)據(jù)探索數(shù)據(jù)數(shù)據(jù)采集問題定義數(shù)據(jù)預(yù)處理知識數(shù)據(jù)準備數(shù)據(jù)挖掘解釋評估目標數(shù)據(jù)分類預(yù)測關(guān)聯(lián)規(guī)則聚類分析數(shù)據(jù)挖掘模型評價與部署模式預(yù)處理后的數(shù)據(jù)數(shù)據(jù)探索數(shù)據(jù)數(shù)據(jù)采集問題定義數(shù)據(jù)預(yù)處理知識數(shù)據(jù)準備數(shù)據(jù)挖掘解釋評估目標數(shù)據(jù)數(shù)據(jù)挖掘數(shù)據(jù)挖掘概念三個經(jīng)典案例相關(guān)領(lǐng)域挖掘過程定義目標數(shù)據(jù)采集數(shù)據(jù)探索數(shù)據(jù)預(yù)處理數(shù)據(jù)挖掘模型評價與部署8.2數(shù)據(jù)采集數(shù)據(jù)探索數(shù)據(jù)挖掘模型評價與部署問題定義數(shù)據(jù)采集數(shù)據(jù)預(yù)處理知識數(shù)據(jù)準備數(shù)據(jù)挖掘解釋評估模式預(yù)處理后的數(shù)據(jù)目標數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)來源數(shù)據(jù)類型以數(shù)量形式存在,且可以測量,如溫度、銷售額定性數(shù)據(jù)定量數(shù)據(jù)表示事物性質(zhì)、規(guī)定事物類別,如男女、滿意程度分級等??蛻粜畔⑦x課信息車輛信息……關(guān)系數(shù)據(jù)庫數(shù)據(jù)倉庫事務(wù)數(shù)據(jù)庫購物籃信息銷售人員-導購成交信息圍繞主題組織數(shù)據(jù)倉庫存儲使用數(shù)據(jù)立方體的多維數(shù)據(jù)結(jié)構(gòu)建模010203文件新聞網(wǎng)頁聊天記錄……文本數(shù)據(jù)庫其他類型多媒體數(shù)據(jù)庫聲文圖用于圖片檢索、視頻點播、多媒體綜合挖掘等空間數(shù)據(jù)時間數(shù)據(jù)序列數(shù)據(jù)網(wǎng)狀數(shù)據(jù)040506數(shù)據(jù)采集方法01040302傳感器Web爬蟲日志文件統(tǒng)計數(shù)據(jù)收集直接觀察法訪問法網(wǎng)絡(luò)調(diào)查法實驗法文獻檢索法空間時間人物事完整性實體完整性屬性完整性記錄完整性一致性協(xié)議一致性結(jié)構(gòu)一致性單位一致性0|11|0name|age|scorename|score|age¥14,777.881.4萬增加維度法簡單去重法節(jié)約性張三Food1李四Food2張三Food1默認值約定特殊字符處理長度范圍規(guī)范值域范圍規(guī)范異常處理默認為0,還是上報空值?數(shù)據(jù)完整性隱患數(shù)據(jù)一致性隱患數(shù)據(jù)來源數(shù)據(jù)來源數(shù)據(jù)類型挖掘采集數(shù)據(jù)采集方法數(shù)據(jù)原則8.3數(shù)據(jù)探索數(shù)據(jù)探索數(shù)據(jù)挖掘模型評價與部署問題定義數(shù)據(jù)采集數(shù)據(jù)預(yù)處理知識數(shù)據(jù)準備數(shù)據(jù)挖掘解釋評估模式預(yù)處理后的數(shù)據(jù)目標數(shù)據(jù)數(shù)據(jù)分布分析理工院校男女比例是多少?定量數(shù)據(jù)分析的第一步就是對數(shù)據(jù)進行分類,即分組。如:性別。

通過分組,可以將數(shù)據(jù)歸納為一張表,這種表也稱為頻數(shù)表。

頻數(shù)表中各組所分配到的總體單位數(shù)稱為頻數(shù)或次數(shù);

將各組單位數(shù)與總體單位數(shù)相比,求得結(jié)構(gòu)相對數(shù)稱為頻率或比率。①頻數(shù)和頻率頻率分組頻數(shù)確定總體各單位在選定的數(shù)量分組標志下的差別,有幾種性質(zhì)的差別就分幾組。如:學生成績分為優(yōu)、良、中、及格、不及格5種。②組數(shù)組數(shù)1根據(jù)數(shù)據(jù)的多少、數(shù)據(jù)的差異的大小來確定。一般數(shù)據(jù)越多,差異越大,組數(shù)就越多;反之數(shù)據(jù)越少,差異越小,組數(shù)就越小。2一般情況下,組數(shù)應(yīng)不低于5組、不高于15組。組距:就是組的寬度,是每組觀測值的最大差,即每組觀察值變化的范圍,它是最大值和最小值之差。

④組距⑤組限組限:就是組與組之間的界限,或者說,是每組觀測值變化的范圍。組限包括上組限(起點)和下組限(終點)。

組中值:在頻數(shù)表中,上組限和下組限的中間點稱為組中值。③極差極差:最大值和最小值的差值

⑥等距分組和異距分組等距分組:是指標志值的變動在各組之間都是相等的,否則為異距分組。凡是總體單位的標志值變動比較均勻的,可采用等距分組;當總體單位的標志值變動有急劇增長或下降,波動較大時,往往采取異距分組。累積頻數(shù):就是將各類別的頻數(shù)逐級累加起來。通過累積頻數(shù),可以很容易看出某一類別以上或以下的頻數(shù)之和。累積頻數(shù)包括向上累積和向下累積兩種。⑦累積頻數(shù)和累積頻率定性分析關(guān)心趨勢和占比定量分析關(guān)心趨勢和數(shù)值現(xiàn)有10人參加運動會。年齡數(shù)據(jù)如下:78,60,64,38,39,44,80,52,62,61。請你用等距分組法,將年齡分為老中青3組,并繪制累積頻率表和柱形圖。例題:分析:數(shù)據(jù):78,60,64,38,39,44,80,52,62,61。n=10;max=80;min=38;極差-80-38=42組距=42/3=14;組限:38~52、53~67;68~80。步驟:①求極差,②決定組距和組數(shù),③決定分組點,④列出頻數(shù)分布表,⑤繪制頻率分布直方圖。38~52青53~67中老68~827860386439448052626178,8060,64,62,6138,39,44,52分布分析頻數(shù)和頻率組數(shù)、組距和組限頻數(shù)表和累積頻率表用圖表表示頻率分布分布分析示例運動會分老中青三組,統(tǒng)計分布分析統(tǒng)計分析常從集中趨勢和離散趨勢兩個方面進行分析。集中趨勢統(tǒng)計分析集中趨勢幾何平均數(shù)位置平均數(shù)算術(shù)平均數(shù)加權(quán)平均數(shù)調(diào)和平均數(shù)算術(shù)平均值加權(quán)平均數(shù)調(diào)和平均數(shù)幾何平均數(shù)位置平均數(shù)中位數(shù)、眾數(shù)、中程數(shù)

算術(shù)平均數(shù)又稱均值,主要適用于數(shù)值型數(shù)據(jù),不適用于品質(zhì)數(shù)據(jù)(占百分比的數(shù)據(jù))。23,29,20,32,23,21,33,25mean=(23+29+20+32+23+21+33+25)/8=206/8=25.75EXCEL函數(shù):

AVERAGE求解示例

加權(quán)平均數(shù)將各數(shù)值乘以相應(yīng)的權(quán)數(shù),然后加總求和得到總體值,再除以總的單位數(shù)。小升初,考數(shù)學、外語、語文。計分原則:數(shù)學權(quán)重為2,外語語文為1。張三:數(shù)學95、外語80、語文85mean=(95*2+80*1+85*1)/(2+1+1)=88.88求解示例

調(diào)和平均數(shù)又稱倒數(shù)平均數(shù),是總體各統(tǒng)計變量倒數(shù)的算術(shù)平均數(shù)的倒數(shù)。市場買菜5種,黃瓜4元/千克,西紅柿5元/千克,土豆2元/千克,茄子4元/千克,冬瓜3元/千克?,F(xiàn)每樣蔬菜均買10元錢的,求蔬菜每千克多少錢?(1)蔬菜總量:黃瓜10/4千克,….,共計:10(1/4+1/5+1/2+1/4+1/3)千克(2)蔬菜總價格:各10元,共50元(3)均值:50/10(1/4+1/5+1/2+1/4+1/3)=3.26EXCEL函數(shù):

HARMEAN求解示例

加權(quán)調(diào)和平均數(shù)適用于分組資料的計算,其計算公式為:市場買菜5種,黃瓜4元/千克,買10塊錢的,西紅柿5元/千克,買15塊錢的,土豆2元/千克,買5塊錢的,茄子4元/千克,買12塊錢的,冬瓜3元/千克,買9塊錢的。求蔬菜每千克多少錢?(1)蔬菜總量:10/4+15/5+5/2+12/4+9/3=14千克(2)蔬菜總價格:10+15+5+12+9=51元(3)均值:51/14=3.64

求解示例幾何平均數(shù)主要用于:1)對比率、指數(shù)等2)計算平均發(fā)展速度3)復利下的平均年利率4)連續(xù)作業(yè)的車間求產(chǎn)品的平均合格率。某國1996-2000年的增長速度分別為:117%、110%、109%、108%、107.8%,求5年間平均發(fā)展速度。

EXCEL函數(shù):

GEOMEAN求解示例

位置平均數(shù)眾數(shù):一組數(shù)中出現(xiàn)次數(shù)最多的數(shù)。求解示例23,29,20,32,23,21,33,25。order:20,21,23,23,25,29,32,33mode

=23EXCEL函數(shù):

MODE.SNGL位置平均數(shù)中程數(shù):又稱中列數(shù),是最大值與最小值的平均值。65,81,73,85,94,79,67,83,82max:94min:65mid-range

=(94+65)/2=159/2=79.5求解示例位置平均數(shù)中位數(shù):23,29,20,32,23,21,33,25order:20,21,23,23,25,29,32,33median=(23+25)/2=24求解示例EXCEL函數(shù):

MEDIAN奇數(shù):偶數(shù):

假定給定的數(shù)據(jù)集的值已經(jīng)分組為區(qū)間,區(qū)間和對應(yīng)的頻數(shù)如下:年齡頻數(shù)1~52005~1545015~2030020~50150050~8070080~11044計算數(shù)據(jù)的近似中位數(shù)。例題:1、先判斷中位數(shù)所在區(qū)間。

因為:N=200+450+300+1500+700+44=3194。

樣本數(shù)據(jù)總量為3194,一半為N/2=1597。200+450+300=950;200+450+300+1500=2450

所以中位數(shù)所在區(qū)間為:950~2450,即20~50歲年齡頻數(shù)1~52005~1545015~2030020~50150050~8070080~110442、計算中位數(shù)。①L1=20中位數(shù)區(qū)間的下限

②N/2=1597樣本數(shù)據(jù)量的一半③(∑freq)l=950低于中位數(shù)區(qū)間的所有區(qū)間的頻數(shù)和④freqmedian=1500中位數(shù)區(qū)間的頻數(shù)。

⑤width=30中位數(shù)區(qū)域的寬度。3、Median=20+(1597-950)/1500*30=32.94(歲)

加權(quán)平均數(shù)乘權(quán)值求平均幾何平均數(shù)1)對比率、指數(shù)等2)計算平均發(fā)展速度3)復利下的平均年利率4)連續(xù)作業(yè)的車間求產(chǎn)品的平均合格率算術(shù)平均數(shù)適合數(shù)值型數(shù)據(jù)不適合品質(zhì)性數(shù)據(jù)調(diào)和平均數(shù)倒數(shù)平均數(shù)加權(quán)調(diào)和平均數(shù)位置中位數(shù)中位數(shù):奇偶、近似公式眾數(shù)中程數(shù)34562集中趨勢的統(tǒng)計分析算術(shù)、加權(quán)、調(diào)和、幾何、位置中位數(shù)1離散趨勢統(tǒng)計分析離散趨勢方差與標準差離散系數(shù)極值與極差四分位差平均差極值與極差四分位差平均差方差、標準差離散系數(shù)無量綱極值:最大值與最小值極差:又稱全距又稱內(nèi)距又稱平均離差標準差:方差的平方根極值與極差最大值:max最小值:min65,81,73,85,94,79,67,83,82max=94min=65max-min=94-65=29求解示例EXCEL函數(shù):

max、min極差:又稱為全距,max-min示例同分布分析中的極差四分位差一組數(shù)據(jù)75%位置上的四分位數(shù)與25%位置上的四分位數(shù)之差,也稱內(nèi)距或四分位差1472-834102825(1)order:-14-82233446

7810

11

14152528(2)min=-14、max=28、median=6、Q1=(2+3)/2=2.5、Q3=(11+14)/2=12.5。異常點:-14,28求解示例EXCEL函數(shù):QUARTILE、PERCENTILE平均差平均差是一種平均離差。離差是總體各單位的標志值與算術(shù)平均數(shù)之差。求解示例

分組平均差平均差是一種平均離差。離差是總體各單位的標志值與算術(shù)平均數(shù)之差。求解示例

方差與標準差離差的代數(shù)和為0,無法進行計算。所以先將各個離差求平方,以消除正負號的影響。然后求平均叫做方差。求解示例EXCEL函數(shù):VAR.P、VAR.S、STDEV.P、STDEV.S

分組方差求解示例離差的代數(shù)和為0,無法進行計算。所以先將各個離差求平方,以消除正負號的影響。然后求平均叫做方差。

離散系數(shù)

示例分析描述統(tǒng)計工具數(shù)據(jù)

分析

數(shù)據(jù)分析

描述統(tǒng)計描述統(tǒng)計工具自動生成平均差離差絕對值的均值分組:組中值離散系數(shù)標準差和平均值之比,無量綱極值、極差、四分位差極值:max、min極差:max-min四分位:箱線圖方差、標準差離差平方的均值方差的平方根分組:組中值EXCEL的描述統(tǒng)計工具可以自動生成統(tǒng)計數(shù)據(jù)34562離散趨勢的統(tǒng)計分析極值、極差、四分位差平均差、標準差、方差、離散系數(shù)1相關(guān)性分析在考察兩種現(xiàn)象之間的關(guān)聯(lián)時,一般有函數(shù)關(guān)系、相關(guān)關(guān)系和沒有關(guān)系等情況。相關(guān)性分析相關(guān)分析函數(shù)相關(guān)無無相關(guān)關(guān)系線性相關(guān)函數(shù)關(guān)系相關(guān)性分析

卡爾?皮爾遜當r>0時為正相關(guān),r<0時為負相關(guān)|r|=1,表示完全線性相關(guān),即函數(shù)關(guān)系|r|=0,表示不存在線性相關(guān)關(guān)系|r|≤0.3為不存在線性相關(guān)0.3<|r|≤0.5為低度線性相關(guān)0.5<|r|≤0.8為顯著線性相關(guān)|r|>0.8為高度線性相關(guān)相關(guān)性分析判斷兩變量是否具有線性相關(guān)的最直觀的方法是繪制散點圖。需要同時考察多個變量間的相關(guān)關(guān)系時,可以繪制散點矩陣圖,從而快速發(fā)現(xiàn)多個變量間的主要相關(guān)性。繪制散點圖和散點矩陣圖相關(guān)性分析一個企業(yè)的產(chǎn)品銷售額與利潤之間呈現(xiàn)出同方向變化的關(guān)系,也就是利潤隨著銷售額的增加而增加,反之亦然。例題:問題:請判斷產(chǎn)品銷售額和利潤是否相關(guān)。相關(guān)性分析相關(guān)性分析貢獻度分析貢獻度分析貢獻度分析關(guān)心起決定性因素通常理解2-8法則為:同樣的投入放在不同的地方會產(chǎn)生不同的效益。在企業(yè)中20%的產(chǎn)品在創(chuàng)造企業(yè)80%的利潤,20%的顧客為企業(yè)帶來80%的收入?!岸恕痹砀嬖V我們,要抓住那些決定事物命運和本質(zhì)的關(guān)鍵少數(shù)。貢獻度分析貢獻度分析8.4數(shù)據(jù)預(yù)處理現(xiàn)實世界的數(shù)據(jù)是“骯臟的”1數(shù)據(jù)不完整缺少數(shù)據(jù)值,如:職業(yè)一欄為NULL缺乏某些重要的屬性;僅包含匯總數(shù)據(jù),沒有詳細數(shù)據(jù)。2數(shù)據(jù)不一致數(shù)據(jù)結(jié)構(gòu)不一致,如:年齡="19"數(shù)據(jù)值不一致,如:等級ABC與123。3噪音數(shù)據(jù)錯誤數(shù)據(jù)。如,salary=-10;偏離期望值的孤立點(異常值)。數(shù)據(jù)清洗主要任務(wù)是檢查原始數(shù)據(jù)中是否存在臟數(shù)據(jù)。常見臟數(shù)據(jù)包括:缺失值、異常值、噪聲數(shù)據(jù)、不一致的值等。缺失值:信息遺漏、暫時無法獲取、屬性不可用異常值:樣本中的個別值,其數(shù)值明顯偏離其余

的觀測值。也稱為離群點。噪聲數(shù)據(jù):測量變量的隨機錯誤或偏差數(shù)據(jù)不一致。如:電話號碼變動,同步更新問題。忽略該記錄固定值替換均值/眾數(shù)填補最可能值填補插值法同類別均值填補缺失值處理簡單的統(tǒng)計量分析:先對變量做一個簡單的描述性統(tǒng)計,進而查找哪些數(shù)據(jù)是不合理的。3σ原則:若數(shù)據(jù)符合正態(tài)分布,異常值被定義為一組測定值與平均值的偏差超過三倍的值。若數(shù)據(jù)不符合正態(tài)分布,可以用遠離平均值多少倍的標準差來描述。箱線圖:又稱為盒須圖、盒式圖或箱形圖,是一種用作顯示一組數(shù)據(jù)分散情況的統(tǒng)計圖,因形狀如箱子而得名。異常值處理010203簡單的統(tǒng)計量分析3σ原則箱線圖四分位間距框的頂部線條是第三四分位數(shù),即Q3,表示有75%的數(shù)據(jù)小于等于該值。底部線條是第一四分位數(shù),即Q1,表示有25%的數(shù)據(jù)小于此值。整個四分位間距框所代表的是數(shù)據(jù)集中50%(即25%~75%)的數(shù)據(jù),Q2是中位數(shù)。Whisker上限是延伸至距框頂部1.5倍框高范圍內(nèi)的最大數(shù)據(jù)點,Whisker下限是延伸至距框底部1.5倍框高范圍內(nèi)的最小數(shù)據(jù)點,超出Whisker上限或下限的數(shù)值為異常點。用星號“*”表示。四分位差也稱內(nèi)距,它是一組數(shù)據(jù),即:75%位置上得到的四分位數(shù)與25%位置上得到的四分位數(shù)之差。示例排序前1472-834102825排序后:-14-82233446781011

1415

2528n=17,min=-14,max=28,median=6Q1=(2+3)/2=2.5 25%Q3=(11+14)/2=12.5 75%內(nèi)距:R=Q3-Q1=10Whisker下限:Q1-1.5*R=2.5-15=-12.5Whisker上限:Q3+1.5*R=12.5+15=27.5異常值:-14和28。EXCEL函數(shù):QUARTILEPERCENTILE分箱法通過考察數(shù)據(jù)周圍的值來平滑存儲數(shù)據(jù)的值。分箱法也成為分組法或者分桶法。分箱法包括等寬(每組數(shù)據(jù)極差相同)等頻/等深(每組數(shù)據(jù)個數(shù)相同)和聚類分箱法(組間距最大)噪聲數(shù)據(jù)-分箱法噪聲數(shù)據(jù)-分箱法假設(shè)等深分箱后的三組數(shù)據(jù)為:箱1:2,4,5,7;箱2:8,9,12,15;箱3:16,20,28,38。請分別利用箱均值平滑、箱中值平滑和箱邊界平滑方法進行數(shù)據(jù)平滑。

解:

箱均值平滑法:計算每箱中的平均值分別為4.5,11和25.5。平滑結(jié)果如下,箱1:4.5,4.5,4.5,4.5;箱2:11,11,11,11;箱3:25.5,25.5,25.5,25.5。箱中值平滑法:計算每箱中的中值分別為4.5,10.5和24。平滑結(jié)果如下,箱1:4.5,4.5,4.5,4.5;箱2:10.5,10.5,10.5,10.5;箱3:24,24,24,24。

箱邊屆平滑法:箱中的最大值和最小值被視為邊界。箱中的每一個值被距其最近的邊界值替換。平滑結(jié)果如下:箱1:2,2,7,7;箱2:8,8,15,15;箱3:16,16,38,38。數(shù)據(jù)質(zhì)量分析缺失值:刪除、不處理、插補異常值:3σ原則、箱線圖不一致:建立級聯(lián)更新示例箱線圖:

quartile函數(shù)percent函數(shù)EXCEL繪制箱形圖數(shù)據(jù)挖掘需要的數(shù)據(jù)往往分布在不同的數(shù)據(jù)源中,數(shù)據(jù)集成就是將多個數(shù)據(jù)源合并存放在一個一致的數(shù)據(jù)存儲中的過程。數(shù)據(jù)集成同名異義、異名同義、單位不統(tǒng)一同一屬性多次出現(xiàn)同一屬性命名不一致在數(shù)據(jù)集成時,來自多個數(shù)據(jù)源的現(xiàn)實世界實體的表達形式是不一樣的,有可能不匹配,要考慮實體識別問題和屬性冗余問題,從而將源數(shù)據(jù)在最低層上加以轉(zhuǎn)換、提煉和集成。實體識別屬性冗余對原始數(shù)據(jù)進行某些數(shù)學函數(shù)的變換,常用的包括平方、開方、取對數(shù)、差分運算等。函數(shù)函數(shù)變換規(guī)范化離散化屬性構(gòu)造12成績開方乘十工資金額壓縮處理不同評價指標往往具有不同的量綱,數(shù)值間的差別可能很大,需要規(guī)范化處理,常用的方法有:規(guī)范規(guī)范化離散化屬性構(gòu)造函數(shù)變換

123

標稱型數(shù)據(jù)(離散的)主要用于分類。數(shù)值型數(shù)據(jù)(連續(xù)的)。主要用于回歸。常用的離散化方法有:離散離散化屬性構(gòu)造函數(shù)變換規(guī)范化等寬分箱法123等頻分箱法聚類分箱法為了提取更有用的信息,挖掘更深層的模式,提高挖掘的精度,有時需要利用已有的屬性構(gòu)造出新的屬性,并添加到現(xiàn)有的屬性集合中。屬性屬性構(gòu)造函數(shù)變換規(guī)范化離散化1由出生年日期導出年齡信息數(shù)據(jù)規(guī)約(1)屬性合并(2)刪除無用屬性(3)主成分分析屬性規(guī)約(1)直方圖(2)聚類(3)抽樣(4)參數(shù)回歸數(shù)值規(guī)約例如,有數(shù)據(jù):3,3,5,5,5,8,8,10,10,10,10,15,15,15,22,22,22,22,22,22,22,22,22,25,25,25,25,25,25,25,25,25,30,30,30,30,30,35,35,35,25,25,39,39,40,40,40直方圖異常值、缺失值、不一致數(shù)據(jù)的處理數(shù)據(jù)清洗實體識別問題屬性冗余識別問題數(shù)據(jù)集成函數(shù)變換、規(guī)范化離散化、屬性構(gòu)造數(shù)據(jù)變換屬性規(guī)約、數(shù)值規(guī)約數(shù)據(jù)規(guī)約①②③④8.5機器學習數(shù)據(jù)探索數(shù)據(jù)挖掘模型評價與部署問題定義數(shù)據(jù)采集數(shù)據(jù)預(yù)處理知識數(shù)據(jù)準備數(shù)據(jù)挖掘解釋評估模式預(yù)處理后的數(shù)據(jù)目標數(shù)據(jù)數(shù)據(jù)機器學習概念機器學習概念機器學習算法是從數(shù)據(jù)中自動分析和獲取規(guī)則并使用規(guī)則預(yù)測未知數(shù)據(jù)的方法。在機器學習中,算法會不斷進行訓練,從大型數(shù)據(jù)集中發(fā)現(xiàn)模式和相關(guān)性,然后根據(jù)數(shù)據(jù)分析結(jié)果做出最佳決策和預(yù)測。機器學習分類監(jiān)督學習強化學習半監(jiān)督學習01020304無監(jiān)督學習分類圖書分類選邊站貝葉斯分類決策樹分類分類:————又稱為歸類,是指對離散數(shù)據(jù)的分類(標稱值),比如通過筆跡來判別是男?還是女?這里的類別只有兩個,類別是離散的集合空間{男,女}。對于給定的待分類項,求解在此項出現(xiàn)的條件下,各個類別出現(xiàn)的概率,哪個最大,就認為此待分類項屬于哪個類別。非洲概率定義設(shè)x={a1,a2,…,am}為一個待分類項,而每個a為x的一個屬性。有類別集合C={y1,y2,…,yn}。如果n=2,就是分兩類。計算P(y1|x),P(y2|x),…,P(yn|x)。如果P(yk|x)=max{P(y1|x),P(y2|x),…,P(yn|x)},則x∈yk步驟

訓練集1測試集2貝葉斯分類的實現(xiàn)例題根據(jù)下表,判斷未知樣本的分類。X={30歲以下,中等收入,學生,信譽一般},需要判斷是否購買電腦?根據(jù)訓練樣本計算:未知樣本,X={30歲以下,中等收入,學生,信譽一般}P(購買電腦=“是”)=9/14=0.643P(購買電腦=“否”)=5/14=0.357P(年齡≤30|購買電腦=“是”)=2/9=0.222P(年齡≤30|購買電腦=“否”)=3/5=0.600P(中等收入|購買電腦=“是”)=4/9=0.444P(中等收入|購買電腦=“否”)=2/5=0.400P(學生=“是”|購買電腦=“是”)=6/9=0.667P(學生=“是”|購買電腦=“否”)=1/5=0.200

P(X|購買電腦=“是”)=0.222×0.444×0.667×0.667=0.444P(X|購買電腦=“否”)=0.600×0.400×0.200×0.400=0.019P(X|購買電腦=“是”)P(購買電腦=“是”)=0.444×0.643=0.028P(X|購買電腦=“否”)P(購買電腦=“否”)=0.019×0.357=0.007P(信用等級=“一般”|購買電腦=“是”)=6/9=0.667P(信用等級=“一般”|購買電腦=“否”)=2/5=0.400

給定一個數(shù)據(jù)元組,它的屬性department,age和salary的值分別為“systems”,“26…30”,和“46K…50K”。該元組status的樸素貝葉斯分類是什么?(1)P(junior|x)=(P(x|junior)*P(junior))/P(x)P(x)可以忽略,不統(tǒng)計P(junior)=113/165=0.68P(x|junior)=P(systems|junior)*P(26…30|junior)*P(46K…50K|junior)=23/113*49/113*23/113=0.01796P(x|junior)*P(junior)=0.0122128(2)P(senior|x)=(P(x|senior)*P(senior))/P(x)P(x)可以忽略,不統(tǒng)計P(senior)=52/165P(x|senior)=P(systems|senior)*P(26…30|senior)*P(46K…50K|senior)=8/52*0*40/52=0P(x|senior)*P(senior)=0,所以應(yīng)該將X分類到j(luò)unior類。決策樹分類決策樹的基本原理是采用概率論原理,用決策點代表決策問題,用方案分枝代表可供選擇的方案,用概率分枝代表方案可能出現(xiàn)的各種結(jié)果,經(jīng)過對各種方案在各種結(jié)果條件下?lián)p益值的計算比較,為決策者提供決策依據(jù)。通俗來說,決策樹分類的思想類似于找對象。下面的對話場景:女兒:多大年紀了?

母親:26。女兒:長的帥不帥?

母親:挺帥的。女兒:收入高不?

母親:不算很高,中等情況。女兒:是公務(wù)員不?

母親:是,在稅務(wù)局上班呢。女兒:那好,我去見見。女孩的決策過程就是典型的分類樹決策。相當于通過年齡、長相、收入和是否公務(wù)員,對將男性分為兩個類別:見和不見。假設(shè)這個女孩對男人的要求是:30歲以下、長相中等以上,并且是高收入者或中等以上收入的公務(wù)員,那么這個可以用右圖表示女孩的決策邏輯。貝葉斯分類離散的數(shù)據(jù)樸素貝葉斯分類貝葉斯分類示例決策樹分類決策樹分類Weka和C45算法預(yù)測如果我們想預(yù)測一個連續(xù)的值,而不是一個分類標號,怎么辦呢?連續(xù)值的預(yù)測可以用回歸技術(shù)進行建模。線性回歸非線性回歸一元回歸多元回歸回歸技術(shù)預(yù)測:————是指對連續(xù)(或有序)數(shù)據(jù)的分類,比如預(yù)測明天8點的濕度,濕度是實時變化的,8點時的天氣是具體值,不屬于某個有限集合空間。一元線性回歸分析中,最重要的是求出直線的斜率和截距,從而得出回歸直線方程。語言溝通和非語言溝通通過測定相關(guān)系數(shù),了解了兩組數(shù)據(jù)之間存在的依存關(guān)系。但要描述這兩組數(shù)據(jù)之間的數(shù)量變化關(guān)系。就要擬合回歸直線。

給出一組年薪數(shù)據(jù),其中X表示大學畢業(yè)后工作的年數(shù),而Y表示對應(yīng)的收入。請你預(yù)測一下第十個年頭對應(yīng)的收入是多少?舉例:XYXY3306438571159964219013721203361683一元線性回歸

X=10,Y=58.585多元線性回歸在回歸分析中,如果有兩個或兩個以上的自變量,就稱為多元回歸。

分類連續(xù)的數(shù)據(jù)線性回歸預(yù)測一元線性回歸多元線性回歸聚類聚類和分類的區(qū)別分類:用已知類別的樣本訓練集來設(shè)計分類器(監(jiān)督學習)聚類:事先不知樣本的類別,而利用樣本的先驗知識來構(gòu)造分類器(無監(jiān)督學習)聚類的原則:高內(nèi)聚:類內(nèi)相似的樣本點盡量聚集。低耦合:類間相異的樣本點盡量分散。應(yīng)用舉例-基于用戶聚類的商品推薦聚類結(jié)果:用戶ID-聚類數(shù)字問題定義:為用戶推薦商品數(shù)據(jù)采集:固有屬性、行為列表數(shù)據(jù)預(yù)處理:數(shù)據(jù)清洗、變換……知識目標用戶ID聚類數(shù)字各個聚類的熱榜列表推薦列表聚類算法

系統(tǒng)聚類法系統(tǒng)聚類的步驟(1)計算n個樣品兩兩間的距離{dij},記作D={dij}。(2)構(gòu)造n個類,每個類只包含一個樣品。(3)合并距離最近的兩類為一個新類。(4)計算新類與當前各類的距離。若類個數(shù)為1,轉(zhuǎn)到步驟(5),

否則,回到步驟(3)。(5)畫聚類圖。(6)決定類的個數(shù)和類。系統(tǒng)聚類舉例下表是1991年5省份城鎮(zhèn)居民月人均消費數(shù)據(jù)x1:糧食支出x2:副食支出x3:煙酒茶支出x4:其他副食支出x5:服裝支出x6:日用品支出x7:燃料支出x8:非商品支出X1X2X3X4X5X6X7X8遼寧7.9039.778.4912.9419.2711.052.0413.29浙江7.6850.3711.3513.3019.2514.592.7514.87河南9.4227.938.208.1416.179.421.559.76甘肅9.1627.989.019.3215.999.101.8211.35青海10.0628.6410.5210.0516.188.391.9610.81

12345遼寧10浙江211.670河南313.8024.630甘肅413.1224.062.200青海512.8023.543.512.210(2)構(gòu)造n個類,每個類只包含一個樣品。開始有五個類:G1={遼寧1},G2={浙江2},G3={河南3},G4={甘肅4},G5={青海4}。(3)合并距離最近的兩類為一個新類。以最短距離法為例。D0中最小值是G(4,3)=2.20D0=12345遼寧10浙江211.670河南313.8024.630甘肅413.1224.062.200青海512.8023.543.512.210

12345遼寧10浙江211.670河南313.8024.630甘肅413.1224.062.200青海512.8023.543.512.210(4)計算新類與當前各類的距離。若類的個數(shù)為1,轉(zhuǎn)到步驟(5),否則回到

步驟(3)。在距離矩陣D0中消去了3、4所對應(yīng)的行和列,并加上{3,4}這一新類對應(yīng)的一行一列,得到新距離矩陣(紅字為新值,藍字為原字)D1=D1中類的個數(shù)不等于1,重復步驟(3)G6G1G2G5G6={3,4}0G113.120G224.0611.670G52.2112.8023.540

故得到新的距離矩陣:D2=新矩陣類的個數(shù)不等于1,重復步驟(3)G7G1G2G7={3,4,5}0G112.800G223.5411.670類間最小距離是d12=11.67,合并G1和G2得到新類G8={1,2}。此時,我們只有兩個不同的類G7={3,4,5}和G8={1,2},它們的距離是:d78=min{d71,d72}={12.80,23.54}=12.80。最后,得到新的距離矩陣:G7G8G7={3,4,5}0G8={1,2}12.800從而,類G7={1,2,3}和G8={1,2}合并為一個含全部5個樣本{1,2,3,4,5}的類,其最短距離是12.80。(5)畫聚類圖(6)決定類的個數(shù)和類別K-means聚類方法算法步驟:(1)輸入K的值(2)隨機選取K個點為初始中心點(質(zhì)心)(3)計算數(shù)據(jù)集中所有點到K個質(zhì)心的距離,按距離最近原則將樣本點歸到離其最近質(zhì)心所在的聚類中(4)將每個聚類中所有點的均值作為新的質(zhì)心(5)重復(3)-(4)步,直到滿足條件(質(zhì)心不變,或者新舊質(zhì)心差距小于設(shè)定的閾值),算法收斂。K是聚類算法中類的個數(shù)means指計算每個聚類中心的均值算法Kmeans聚類過程示意例:使用K-means算法將下圖6個點聚為2類。

XYP100P213P332P498P51010P6129

P103.16P23.160P33.162.24P411.39.22P513.511.3P612.210.3第一次聚類

第二次聚類

P108.35P22.246.33P33.165.60P411.33P513.55.22P612.24.05

第三次聚類

P11.6612.26P22.246.33P33.165.60P411.33P513.55.22P612.24.05第三次與第二次聚類結(jié)果相同,說明聚類已經(jīng)收斂,聚類結(jié)束。K的大小K個初始點的選擇距離的計算終止條件關(guān)鍵因素挑戰(zhàn):將班級同學特征向量化,利用K-means完成聚類創(chuàng)新:調(diào)查100位同學的雙11訂單,利用Weka等軟件實現(xiàn)對學生用戶的聚類高階:搜集專業(yè)背景的數(shù)據(jù),完成有意義的聚類小組任務(wù):利用python完成鳶尾花的聚類……DBSCAN層次聚類均值漂移圖論聚類高斯混合模型的最大期望聚類……聚類分析聚類與分類的區(qū)別聚類的方法系統(tǒng)聚類的步驟聚類方法系統(tǒng)聚類Kmeans關(guān)聯(lián)規(guī)則物品與物品的關(guān)聯(lián)③K-項集關(guān)聯(lián)規(guī)則相關(guān)概念①事務(wù)數(shù)據(jù)②項集④關(guān)聯(lián)規(guī)則⑦項集出現(xiàn)頻率⑤支持度⑥置信度⑧頻繁項集事務(wù)數(shù)據(jù):任務(wù)相關(guān)的數(shù)據(jù)D稱為事務(wù)數(shù)據(jù)。其中,每個事務(wù)T是項的集合。項集:項的集合,I={i1,i2,…,im}。每個TID就是項集。上例中的TID都是項集。

支持度s:規(guī)則AB在事務(wù)集D中成立,支持度s是D中包含A∪B(即A和B二者)的百分比。sup(AB)=P(A∪B)。K-項集:包含k個項的集合,稱為“k-項集”。頻繁項集:如果項集滿足最小支持度min_sup,則稱它為頻繁項集,頻繁k-項集的集合通常記作Lk。關(guān)聯(lián)規(guī)則:發(fā)現(xiàn)大量數(shù)據(jù)中項集與項集之間存在的有趣的關(guān)聯(lián)。置信度c:規(guī)則AB在事務(wù)集D中成立,如果D中包含A的事務(wù)的同時也包含B的百分比就是置信度c。confidence(AB)=P(B|A)項集的出現(xiàn)頻率:是包含項集的事務(wù)數(shù),簡稱項集的頻率、項集的支持計數(shù)、或計數(shù)。關(guān)聯(lián)規(guī)則找出所有的頻繁項集產(chǎn)生強關(guān)聯(lián)規(guī)則算法步驟:逐層搜索迭代的方法,k-1項集搜索k項集首先找出頻繁1-項集,記為L1;然后利用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論