《數(shù)字化網(wǎng)絡(luò)化智能技術(shù):工業(yè)大數(shù)據(jù)及其應(yīng)用》課件 第4、5章 工業(yè)大數(shù)據(jù)分析;工業(yè)大數(shù)據(jù)分類與聚類_第1頁
《數(shù)字化網(wǎng)絡(luò)化智能技術(shù):工業(yè)大數(shù)據(jù)及其應(yīng)用》課件 第4、5章 工業(yè)大數(shù)據(jù)分析;工業(yè)大數(shù)據(jù)分類與聚類_第2頁
《數(shù)字化網(wǎng)絡(luò)化智能技術(shù):工業(yè)大數(shù)據(jù)及其應(yīng)用》課件 第4、5章 工業(yè)大數(shù)據(jù)分析;工業(yè)大數(shù)據(jù)分類與聚類_第3頁
《數(shù)字化網(wǎng)絡(luò)化智能技術(shù):工業(yè)大數(shù)據(jù)及其應(yīng)用》課件 第4、5章 工業(yè)大數(shù)據(jù)分析;工業(yè)大數(shù)據(jù)分類與聚類_第4頁
《數(shù)字化網(wǎng)絡(luò)化智能技術(shù):工業(yè)大數(shù)據(jù)及其應(yīng)用》課件 第4、5章 工業(yè)大數(shù)據(jù)分析;工業(yè)大數(shù)據(jù)分類與聚類_第5頁
已閱讀5頁,還剩252頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

工業(yè)大數(shù)據(jù)及其應(yīng)用04工業(yè)大數(shù)據(jù)分析工業(yè)大數(shù)據(jù)分析工業(yè)大數(shù)據(jù)分析是指利用大數(shù)據(jù)技術(shù)和方法,對工業(yè)領(lǐng)域產(chǎn)生的海量數(shù)據(jù)進(jìn)行預(yù)處理和分析的過程。其目的是從數(shù)據(jù)中提取有價值的信息和知識,以支持工業(yè)領(lǐng)域的決策優(yōu)化、效率提升和創(chuàng)新發(fā)展。工業(yè)大數(shù)據(jù)分析的研究意義在于:1)提升生產(chǎn)效率:通過對生產(chǎn)過程中的實時數(shù)據(jù)進(jìn)行分析,可以及時發(fā)現(xiàn)生產(chǎn)瓶頸和問題,優(yōu)化生產(chǎn)流程和計劃,提高生產(chǎn)效率和產(chǎn)品質(zhì)量。2)促進(jìn)產(chǎn)品創(chuàng)新:通過對市場需求、用戶行為等數(shù)據(jù)的分析,可以洞察用戶需求和市場趨勢,為企業(yè)產(chǎn)品創(chuàng)新提供數(shù)據(jù)支持。3)降低運營成本:通過對供應(yīng)鏈、設(shè)備維護(hù)等數(shù)據(jù)的分析,可以實現(xiàn)精細(xì)化管理和預(yù)測性維護(hù),降低企業(yè)的運營成本和維護(hù)成本。4)增強企業(yè)競爭力:工業(yè)大數(shù)據(jù)分析可以幫助企業(yè)實現(xiàn)智能化決策和精細(xì)化管理,提高企業(yè)的管理水平和綜合競爭力。工業(yè)大數(shù)據(jù)分析當(dāng)前,工業(yè)大數(shù)據(jù)分析的研究現(xiàn)狀呈現(xiàn)出以下幾個特點:1)技術(shù)不斷創(chuàng)新:隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展,工業(yè)大數(shù)據(jù)分析在數(shù)據(jù)采集、存儲、處理、分析等方面不斷取得突破,為工業(yè)領(lǐng)域的數(shù)據(jù)應(yīng)用提供了有力支持。2)應(yīng)用領(lǐng)域不斷拓展:工業(yè)大數(shù)據(jù)分析的應(yīng)用領(lǐng)域已經(jīng)從制造業(yè)擴展到能源、交通、醫(yī)療等多個領(lǐng)域,為各行業(yè)的數(shù)字化轉(zhuǎn)型提供了有力支撐。3)標(biāo)準(zhǔn)化和規(guī)范化發(fā)展:為了促進(jìn)工業(yè)大數(shù)據(jù)分析的健康發(fā)展,各國政府和行業(yè)組織紛紛出臺相關(guān)標(biāo)準(zhǔn)和規(guī)范,推動工業(yè)大數(shù)據(jù)分析的標(biāo)準(zhǔn)化和規(guī)范化發(fā)展。當(dāng)前,盡管工業(yè)大數(shù)據(jù)分析已經(jīng)取得了一定的成果,但仍面臨著數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全、人才短缺等挑戰(zhàn)。同時,隨著5G、6G、人工智能等新技術(shù)的不斷發(fā)展,工業(yè)大數(shù)據(jù)分析也面臨著新的機遇和發(fā)展空間。1工業(yè)大數(shù)據(jù)統(tǒng)計描述方法1數(shù)據(jù)的統(tǒng)計描述方法是指通過一系列統(tǒng)計手段和技術(shù),對收集到的數(shù)據(jù)進(jìn)行整理、概括和描述,以揭示數(shù)據(jù)的內(nèi)在特征、規(guī)律和趨勢。這些統(tǒng)計描述方法主要分為以下幾個方面:2集中趨勢描述:用于描述數(shù)據(jù)的一般水平,常用的指標(biāo)有平均值、中位數(shù)和眾數(shù)等。這些指標(biāo)可以反映數(shù)據(jù)的中心位置或主要趨勢。3離散趨勢描述:用于反映數(shù)據(jù)之間的差異程度或離散程度,常用的指標(biāo)有方差、標(biāo)準(zhǔn)差、極差和四分位差等。這些指標(biāo)可以揭示數(shù)據(jù)的波動范圍和離散程度。4分布趨勢描述:主要用于檢查樣本數(shù)據(jù)是否符合某種理論分布,如正態(tài)分布。常用的方法包括偏度分析、峰度分析等。這有助于了解數(shù)據(jù)的分布形態(tài)和是否符合某些假設(shè)。1工業(yè)大數(shù)據(jù)統(tǒng)計描述方法1.1集中趨勢描述1.均值(Mean):也稱為平均數(shù),是統(tǒng)計學(xué)中用來表示一組數(shù)據(jù)“中心”趨勢的量度。常用的均值指標(biāo)包括:算術(shù)平均數(shù)、調(diào)和平均數(shù)、幾何平均數(shù)。(1)算術(shù)平均數(shù)等于所有數(shù)值的和除以數(shù)值的個數(shù),算術(shù)平均數(shù)常用于描述一組數(shù)據(jù)的平均水平,如平均身高、平均成績等。其表達(dá)式為:其中,??為一組數(shù)據(jù)????(??=1,2…??)的算術(shù)平均數(shù)。(2)調(diào)和平均數(shù)常用于需要綜合考慮數(shù)據(jù)項大小與頻率或比例關(guān)系的場合,如計算平均速度(特別是當(dāng)速度在不同時間段內(nèi)變化時)、。調(diào)和平均數(shù)是各數(shù)值倒數(shù)的算數(shù)平均數(shù)的倒數(shù)。其表達(dá)式為:其中,??為一組數(shù)據(jù)????(??=1,2…??)的調(diào)和平均數(shù)。1工業(yè)大數(shù)據(jù)統(tǒng)計描述方法1.1集中趨勢描述(3)幾何平均數(shù)常用于描述具有連乘積關(guān)系的數(shù)據(jù)集,特別是當(dāng)數(shù)據(jù)呈現(xiàn)等比或近似等比關(guān)系時,如在金融領(lǐng)域計算復(fù)利下的平均年回報率。幾何平均數(shù)是各數(shù)值乘積的n次方根,其表達(dá)式為:其中,??為一組數(shù)據(jù)????(??=1,2…??)的幾何平均數(shù)。均值能直觀反應(yīng)數(shù)據(jù)中心的量值,但容易受到極端值的影響,當(dāng)數(shù)據(jù)中存在離群值時,均值不能很好地反映數(shù)據(jù)的真實中心趨勢。2.中位數(shù)(Median):中位數(shù)是將一組數(shù)據(jù)按照大小順序排列后,位于中間位置的數(shù)值。對于奇數(shù)個數(shù)據(jù),中位數(shù)是中間的那個數(shù)值;對于偶數(shù)個數(shù)據(jù),中位數(shù)是中間兩個數(shù)值的算數(shù)平均值。中位數(shù)對離群值不敏感,能夠更好地反映數(shù)據(jù)的中心趨勢。其表達(dá)式為:其中,??0.5為一組數(shù)據(jù)????(??=1,2…??)的中位數(shù)。1工業(yè)大數(shù)據(jù)統(tǒng)計描述方法1.1集中趨勢描述3.眾數(shù)(Mode):眾數(shù)是一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)值。眾數(shù)反映了數(shù)據(jù)中最常見的值。但是,一組數(shù)據(jù)中可能存在多個眾數(shù),甚至可能不存在眾數(shù)。相較于均值和中位數(shù),眾數(shù)在某些情況下對數(shù)據(jù)的中心趨勢描述能力較弱。4.四分位數(shù)(Quartiles):四分位數(shù)是將一組數(shù)據(jù)從小到大排列后,處于25%、50%和75%位置上的數(shù)值,分別稱為上四分位數(shù)(Q1)、中四分位數(shù)(Q2,即中位數(shù))和下四分位數(shù)(Q3)。四分位數(shù)可以了解數(shù)據(jù)的分布情況以及樣本的集中程度。如圖4-1所示,對于數(shù)據(jù)總量為n的一組數(shù)據(jù),Q1的位置為n/4,Q2的位置為中位數(shù)所在位置,Q3的位置3n/4。圖4-1四分位數(shù)1工業(yè)大數(shù)據(jù)統(tǒng)計描述方法1.2離散趨勢描述1.方差(Variance):方差是衡量數(shù)據(jù)分布離散程度的一種常用指標(biāo)。它是每個數(shù)據(jù)點與數(shù)據(jù)均值之差的平方和的算數(shù)平均值。方差越大,表示數(shù)據(jù)的離散程度越高。其中,s2為一組數(shù)據(jù)????(??=1,2…??)的方差。2.標(biāo)準(zhǔn)差(StandardDeviation):標(biāo)準(zhǔn)差是方差的平方根,也是衡量數(shù)據(jù)離散程度的重要指標(biāo)。但標(biāo)準(zhǔn)差的單位與原始數(shù)據(jù)的單位相同,這使得標(biāo)準(zhǔn)差在描述數(shù)據(jù)離散程度時更加直觀、易于理解。其中,s為一組數(shù)據(jù)????(??=1,2…??)的標(biāo)準(zhǔn)差。3.極差(Range):極差是指數(shù)據(jù)集中的最大值與最小值之間的差,它反映了數(shù)據(jù)的1工業(yè)大數(shù)據(jù)統(tǒng)計描述方法1.2離散趨勢描述波動范圍。極差越大,表示數(shù)據(jù)的離散程度越高。極差的表達(dá)式為:其中,??為一組數(shù)據(jù)????(??=1,2…??)的極差;????????1,??2…????為該組數(shù)據(jù)中的最大值;????????1,??2…????為該組數(shù)據(jù)中的最小值。4.四分位差(QuartileDeviation,QD):四分位差是上四分位數(shù)Q1與下四分位數(shù)Q3之差的一半,它反映了中間50%數(shù)據(jù)的離散程度。四分位差越大,表示中間部分?jǐn)?shù)據(jù)的離散程度越高。其表達(dá)式為:5.離散系數(shù)(CoefficientofVariation,CV):離散系數(shù)是標(biāo)準(zhǔn)差與均值的比值,用于比較不同數(shù)據(jù)集或同一數(shù)據(jù)集不同維度的相對離散程度。離散1工業(yè)大數(shù)據(jù)統(tǒng)計描述方法1.2離散趨勢描述系數(shù)越大,表示數(shù)據(jù)的相對離散程度越高。其表達(dá)式為:其中,????表示一組數(shù)據(jù)????(??=1,2…??)的離散系數(shù);??為該組數(shù)據(jù)的標(biāo)準(zhǔn)差;??表示該組數(shù)據(jù)的算術(shù)平均值。6.異眾比例(VariationRatio,VR):它指的是總體中非眾數(shù)的出現(xiàn)次數(shù)與總體數(shù)據(jù)量之比,即,非眾數(shù)組的頻數(shù)占總頻數(shù)的比例。這個比率主要用于衡量眾數(shù)對一組數(shù)據(jù)的代表程度。異眾比率越大,說明非眾數(shù)組的頻數(shù)占總頻數(shù)的比重越大,眾數(shù)的代表性越差;相反,異眾比率越小,說明非眾數(shù)組的頻數(shù)占總頻數(shù)的比重越小,眾數(shù)的代表性越好。異眾比率主要用于測度分類數(shù)據(jù)的離散程度,也可用于描述順序數(shù)據(jù)的離散程度。其中,????表示一組數(shù)據(jù)????(??=1,2…??)的異眾比例;????眾數(shù)的頻數(shù),即出現(xiàn)次數(shù)最多的那個數(shù)據(jù)點的頻數(shù)。1工業(yè)大數(shù)據(jù)統(tǒng)計描述方法1.3分布趨勢描述數(shù)據(jù)分布的總體趨勢不僅與集中和離散程度有關(guān),還與數(shù)據(jù)分布的偏斜程度有關(guān),它反映了數(shù)據(jù)分布的具體形式,如均勻分布、對稱分布、左偏分布、右偏分布等。用于描述數(shù)據(jù)分布趨勢的參數(shù)有偏態(tài)系數(shù)和峰態(tài)系數(shù)。1工業(yè)大數(shù)據(jù)統(tǒng)計描述方法峰態(tài)(Kurtosis)峰態(tài),又稱為峰度,描述的是數(shù)據(jù)分布形態(tài)的尖峭或扁平程度。峰態(tài)系數(shù)定量描述數(shù)據(jù)的峰態(tài),它通過隨機變量的四階中心矩與其標(biāo)準(zhǔn)差的四次方相除得到,其表達(dá)式為:其中,Kurtosis是一組數(shù)據(jù)????(??=1,2…??)的峰態(tài)系數(shù)。如圖4-2所示,與正態(tài)分布相比較,峰態(tài)系數(shù)有三種情況:峰態(tài)系數(shù)>3,峰態(tài)尖峭,稱尖峰態(tài);峰態(tài)系數(shù)<3,峰態(tài)扁平,稱扁峰態(tài);峰態(tài)系數(shù)=3,稱常態(tài)峰態(tài)。圖4-2峰態(tài)的分布情況1工業(yè)大數(shù)據(jù)統(tǒng)計描述方法峰態(tài)(Kurtosis)圖4-3偏態(tài)的分布情況偏態(tài),描述的是數(shù)據(jù)分布形態(tài)的對稱性。如果數(shù)據(jù)分布是對稱的,那么它就屬于正態(tài)分布。而如果數(shù)據(jù)分布不對稱,就呈現(xiàn)出偏態(tài)分布。偏態(tài)的程度可以通過偏態(tài)系數(shù)來刻畫,其表達(dá)式為:其中,Skewness表示一組數(shù)據(jù)????(??=1,2…??)的偏態(tài)系數(shù)。如圖4-3所示,偏態(tài)系數(shù)的值可以為正、負(fù)或零。當(dāng)偏態(tài)系數(shù)為正時,表示數(shù)據(jù)分布右偏,即數(shù)據(jù)的左端有“拖尾”;當(dāng)偏態(tài)系數(shù)為負(fù)時,表示數(shù)據(jù)分布左偏,即數(shù)據(jù)的右端有“拖尾”;當(dāng)偏態(tài)系數(shù)為零時,表示數(shù)據(jù)分布是對稱的。偏態(tài)系數(shù)的絕對值越大,表示偏斜的程度越大;反之,絕對值越小,表示偏斜的程度越小。2工業(yè)大數(shù)據(jù)對象關(guān)系計算方法大數(shù)據(jù)對象關(guān)系計算方法是指在處理大數(shù)據(jù)時,通過分析數(shù)據(jù)對象之間的關(guān)系來揭示數(shù)據(jù)內(nèi)在規(guī)律和特征的方法。這種分析方法主要關(guān)注數(shù)據(jù)對象之間的聯(lián)系和相互影響,可以從數(shù)據(jù)的相似性和相關(guān)性兩個角度展開。大數(shù)據(jù)對象關(guān)系計算中的數(shù)據(jù)相似性角度,關(guān)注的是如何量化不同數(shù)據(jù)對象之間的相似程度。在這種計算中,我們通常會選擇一種或多種相似性度量方法,如歐幾里得距離、余弦相似度等,來度量數(shù)據(jù)對象之間的相似度。具體來說,大數(shù)據(jù)對象關(guān)系計算通過計算數(shù)據(jù)對象之間的相似性,可以幫助我們識別出對象之間的潛在關(guān)系、群體或模式。例如,在推薦系統(tǒng)中,我們可以通過計算用戶與物品之間的相似性,來預(yù)測用戶可能感興趣的物品;在圖像識別中,我們可以通過計算不同圖像之間的相似性,來識別出相似的圖像或物體。2工業(yè)大數(shù)據(jù)對象關(guān)系計算方法大數(shù)據(jù)對象關(guān)系計算中的數(shù)據(jù)相關(guān)性角度,則更加關(guān)注不同變量或特征之間的關(guān)聯(lián)程度。在這種計算中,我們通常使用相關(guān)系數(shù),如皮爾遜相關(guān)系數(shù)、斯皮爾曼秩相關(guān)系數(shù)等,來量化變量之間的關(guān)聯(lián)程度。01通過計算大數(shù)據(jù)中變量之間的相關(guān)性,我們可以揭示變量之間的潛在關(guān)系、趨勢或模式。例如,在醫(yī)學(xué)研究中,我們可以通過計算不同生理指標(biāo)之間的相關(guān)性,來揭示它們之間的潛在關(guān)聯(lián)和相互影響。02綜上所述,大數(shù)據(jù)對象關(guān)系計算從數(shù)據(jù)相似性和相關(guān)性兩個角度,通過量化數(shù)據(jù)對象之間的相似程度和變量之間的關(guān)聯(lián)程度,揭示大數(shù)據(jù)中的潛在關(guān)系和模式,為各種應(yīng)用場景提供有力支持。032工業(yè)大數(shù)據(jù)對象關(guān)系計算方法2.1數(shù)據(jù)相似性分析方法相似性分析主要關(guān)注的是數(shù)據(jù)對象之間的相似程度,即它們在某些特征或?qū)傩陨系慕咏潭?。這種接近程度可以用各種度量方法來表示。相似性分析常用于聚類分析、推薦系統(tǒng)、異常檢測等領(lǐng)域。數(shù)據(jù)相似性定義:對于一組有n個對象、每個對象有m個屬性的數(shù)據(jù),通常將數(shù)據(jù)表示為??×??的矩陣形式(n行表示有n個不同的對象,m列表示有m個不同的屬性):??11...????1...????1...............??1??...??????...??????...............??1??...??????...??????2工業(yè)大數(shù)據(jù)對象關(guān)系計算方法2.1數(shù)據(jù)相似性分析方法對象????=[????1...??????...??????]和對象????=[????1...??????...??????]之間的相似性定義為兩者之間的某種距離函數(shù)關(guān)系,用??(??,??)表示,??(??,??)值越大表示兩者距離越遠(yuǎn),相似度越小。相似度的計算與數(shù)據(jù)屬性密切相關(guān),根據(jù)屬性的數(shù)據(jù)類型不同可以分為:標(biāo)稱屬性相似性、二元屬性相似性、序數(shù)值屬性相似性、數(shù)值屬性相似性等。2工業(yè)大數(shù)據(jù)對象關(guān)系計算方法標(biāo)稱屬性相似性標(biāo)稱屬性是指符號或者事物的名稱,每個值代表某種類別、編碼或者狀態(tài)。該類屬性可通過對象屬性之間的不匹配率來衡量數(shù)據(jù)對象的相似性,數(shù)學(xué)表達(dá)式為:其中,??為數(shù)據(jù)屬性的總數(shù),??????為對象????與對象????具有相同屬性的個數(shù)。例4-1一批零件的種類、材料、精度等級、生產(chǎn)批量等屬性如下表4-1所示,計算各個對象的相似度。表4-1零件屬性解:屬性總數(shù)為4,??=4;對象????與對象????計算相似性時,找出屬性相同的數(shù)目(??????)根據(jù)公式(4-13)可得:2工業(yè)大數(shù)據(jù)對象關(guān)系計算方法標(biāo)稱屬性相似性0??(2,1)??(3,1)??(4,1)??(1,2)0??(3,2)??(4,2)??(1,3)??(2,3)0??(4,3)??(1,4)??(2,4)??(3,4)0=01/43/43/41/402/413/42/403/43/413/40其中:??(001,002)=1/4,??(001,003)=3/4,??(001,004)=3/4??(002,003)=1/2,??(002,004)=1,??(003,004)=3/4由于??(??,??)值越小表示相關(guān)性越大,因此零件1與零件2的相似度最大;零件2與零件4從屬性的重合度角度來分析沒有相似性。2工業(yè)大數(shù)據(jù)對象關(guān)系計算方法二元屬性相似性二元屬性是指每個屬性的取值都只有0或1兩種可能,也稱布爾屬性(取值為True或False)。對象????與對象????進(jìn)行二元屬性相似性計算時,通過表格形式(如表4-2)記錄二元屬性相同(同為1或同為0)的個數(shù),如下表所示:表4-2二元屬性取值表其中,p為對象????和對象????都取1的屬性個數(shù);s為對象????和對象????都取0的屬性個數(shù);q為對象????取1且對象????取0的屬性個數(shù);r為對象????取0且對象????取1的屬性個數(shù);所有二元屬性的總數(shù)為p+q+r+s=m。則對象????和對象????都為二元屬性時,其相似度計算公式為:2工業(yè)大數(shù)據(jù)對象關(guān)系計算方法數(shù)值屬性相似性0102在右側(cè)編輯區(qū)輸入內(nèi)容數(shù)值屬性是指屬性的數(shù)據(jù)類型為數(shù)值型,是最常見的屬性類型,通常采用基于距離的相似性評價指標(biāo),通過計算數(shù)據(jù)點之間的距離來評估它們之間的相似性,主要包括歐幾里得距離、曼哈頓距離和切比雪夫距離。m維空間中兩點????(????1,????2…??????),????(????1,????2…??????)的歐幾里得距離表達(dá)式為:(1)歐幾里得距離(EuclideanDistance):歐幾里得距離是最常用的距離相似度分析指標(biāo)之一,衡量的是多維空間中各個點之間的絕對距離。它適用于連續(xù)型數(shù)據(jù),并且各維度特征具有相同的刻度級別。2工業(yè)大數(shù)據(jù)對象關(guān)系計算方法數(shù)值屬性相似性(2)曼哈頓距離(ManhattanDistance):曼哈頓距離也被稱為城市街區(qū)距離或L1距離,表示空間兩點坐標(biāo)差的絕對值之和。m維空間中兩點????(????1,????2…??????),????(????1,????2…??????)的曼哈頓距離表達(dá)式為:曼哈頓距離在計算機科學(xué)和機器學(xué)習(xí)中經(jīng)常被用于衡量兩個點之間的距離,特別適用于在一個離散的網(wǎng)格中計算兩個點的距離,例如在圖像處理、路徑規(guī)劃等領(lǐng)域。(3)切比雪夫距離(ChebyshevDistance):切比雪夫距離用于衡量空間兩點間的最大坐標(biāo)差。m維空間中兩點????(????1,????2…??????),????(????1,????2…??????)的切比雪夫距2工業(yè)大數(shù)據(jù)對象關(guān)系計算方法數(shù)值屬性相似性離表達(dá)式為:切比雪夫距離在多個領(lǐng)域有廣泛的應(yīng)用,如圖像處理、聚類算法等。在圖像處理中,可以使用切比雪夫距離來對圖像進(jìn)行相似性比較,找到最相似的圖像。在聚類算法中,例如K-均值聚類算法,可以使用切比雪夫距離來確定數(shù)據(jù)點之間的相似性,并將它們分組。以上是數(shù)據(jù)屬性相同時的相似性計算,但數(shù)據(jù)屬性可能存在不同(種類不同或數(shù)量不同),這時以上方法不再適用,應(yīng)通過更具普適性的方法將數(shù)據(jù)相似性擴展到空間向量運算或集合運算。4.余弦相似度(CosineSimilarity):余弦相似度更注重兩個向量在方向上的差異。它通常用于衡量文本數(shù)據(jù)或向量空間中的相似性。對于空間兩個向量????(????1,????2…),????(????1,????2…)2工業(yè)大數(shù)據(jù)對象關(guān)系計算方法數(shù)值屬性相似性其表達(dá)式為:其中,?????????為兩向量的點積;????和????分別是向量????、????的模長。余弦相似度的取值范圍為-1到1,其值越大表示兩個向量在方向上越趨向于平行,相似度越高,CosineSimilarity=1表示完全相似,CosineSimilarity=?1表示完全不相似。5.Jaccard相似系數(shù)(JaccardSimilarityCoefficient,JSC):Jaccard相似系數(shù)是一種用于比較有限樣本集之間的相似性與差異性的度量方法,主要用于計算符號度量或布爾值度量的個體間的相似度。它衡量的是兩個集合????={????1,????2…}、????={????12工業(yè)大數(shù)據(jù)對象關(guān)系計算方法數(shù)值屬性相似性,????2…}的交集大小與其并集大小的比值,表達(dá)式為:其中,JSC(????,????)表示兩集合的Jaccard相似系數(shù);?????????表示兩交集的大??;?????????表示兩并集的大小。這個比值的結(jié)果是一個介于0和1之間的數(shù)值,表示兩個集合的相似程度。當(dāng)Jaccard相似系數(shù)接近1時,表示兩個集合非常相似;當(dāng)Jaccard相似系數(shù)接近0時,表示兩個集合沒有共同元素,相似度較低。表4-3數(shù)據(jù)相似性分析方法對比表4-3對比了數(shù)據(jù)相似性分析方法,這些相似性分析方法各有特點,適用于不同類型的數(shù)據(jù),并在特定場景下展現(xiàn)出各自的優(yōu)勢。然而,它們也各自存在缺陷,需要根據(jù)具體的應(yīng)用場景和數(shù)據(jù)類型來選擇合適的方法。2工業(yè)大數(shù)據(jù)對象關(guān)系計算方法2.2數(shù)據(jù)相關(guān)性分析方法相關(guān)性分析則主要關(guān)注的是兩個或多個變量之間的關(guān)系強弱和方向。相關(guān)性分析常用于探索變量之間的關(guān)系、預(yù)測模型等領(lǐng)域。2工業(yè)大數(shù)據(jù)對象關(guān)系計算方法兩個變量之間的相關(guān)性分析(1)協(xié)方差(Covariance)是一個反映兩個隨機變量相關(guān)程度的統(tǒng)計量,用于描述兩個變量的變化趨勢是否一致。對于??、??兩個變量采樣得到的一組樣本數(shù)據(jù)????、????(??=1,2…??),其協(xié)方差計算公式如下:其中,??????(??,??)為變量??、??的協(xié)方差值;??、??分別是樣本數(shù)據(jù)????、????(??=1,2…??)的算術(shù)平均值;??為樣本數(shù)據(jù)量。若??????(??,??)≥0,說明兩個變量成正相關(guān)關(guān)系;若??????(??,??)≤0,說明兩個變量成負(fù)相關(guān)關(guān)系;若??????(??,??)≈0,說明兩個變量無相關(guān)關(guān)系。不同協(xié)方差值對應(yīng)的變量分布情況如圖4-4所示。2工業(yè)大數(shù)據(jù)對象關(guān)系計算方法兩個變量之間的相關(guān)性分析協(xié)方差有以下關(guān)鍵特性:對稱性:??????(??,??)=??????(??,??)線性性質(zhì):對于常數(shù)??和??,??????(????,????)=??????????(??,??)無量綱性:協(xié)方差沒有單位,它只表示了變量間變化的相對程度。圖4-4不同協(xié)方差值下的變量分布情況2工業(yè)大數(shù)據(jù)對象關(guān)系計算方法兩個變量之間的相關(guān)性分析協(xié)方差通常用于評價兩個變量之間的關(guān)聯(lián)程度并識別其間的線性相關(guān)關(guān)系。然而,協(xié)方差值只能反映關(guān)系方向,不能量化關(guān)系強弱,且其對單個數(shù)據(jù)敏感,即使一個數(shù)據(jù)樣本出現(xiàn)異常也會使整體樣本的協(xié)方差值出現(xiàn)較大偏差。另外,由于協(xié)方差值取決于變量的取值范圍,因此不能直接比較不同變量之間的協(xié)方差值。因此,需要對不同變量的協(xié)方差值進(jìn)行標(biāo)準(zhǔn)化處理。(2)皮爾遜相關(guān)系數(shù)(PearsonCorrelationCoefficient):又稱為皮爾遜積矩相關(guān)系數(shù),它是對協(xié)方差值進(jìn)行標(biāo)準(zhǔn)化處理后的一種線性相關(guān)指標(biāo),可以反映兩個變量線性相關(guān)程度。對于??、??兩個變量采樣得到的一組樣本數(shù)據(jù)??2工業(yè)大數(shù)據(jù)對象關(guān)系計算方法兩個變量之間的相關(guān)性分析??、????(??=1,2…??),皮爾遜相關(guān)系數(shù)的表達(dá)式為:其中,??表示皮爾遜相關(guān)系數(shù);??、??分別是樣本數(shù)據(jù)????、????(??=1,2…??)的算術(shù)平均值。皮爾遜相關(guān)系數(shù)的取值范圍為-1到1,其中1表示完全正相關(guān),-1表示完全負(fù)相關(guān),0表示無相關(guān)性。不同皮爾遜相關(guān)系數(shù)對應(yīng)的??、??變量分布情況散點圖如圖4-5所示。由圖可知皮爾遜相關(guān)系數(shù)可以反映變量之間的相關(guān)性程度。但它只適用于連續(xù)型數(shù)據(jù),并且要求數(shù)據(jù)符合正態(tài)分布。皮爾遜相關(guān)系數(shù)對數(shù)據(jù)的異常值較為敏感,異常值的存在可能會顯著影響相關(guān)系數(shù)的計算結(jié)果。2工業(yè)大數(shù)據(jù)對象關(guān)系計算方法兩個變量之間的相關(guān)性分析(3)秩相關(guān)系數(shù)(CoefficientofRankCorrelation),又稱等級相關(guān)系數(shù),反映的是兩個隨機變量的變化趨勢方向和強度之間的關(guān)聯(lián),是將兩個隨機變量的樣本值按數(shù)據(jù)的大小順序排列位次,以各要素樣本值的位次代替實際數(shù)據(jù)而求得的一種統(tǒng)計量。它是反映等級相關(guān)程度的統(tǒng)計分析指標(biāo),常用的等級相關(guān)分析方法有斯皮圖4-5不同皮爾遜相關(guān)系數(shù)下的變量分布情況2工業(yè)大數(shù)據(jù)對象關(guān)系計算方法兩個變量之間的相關(guān)性分析爾曼秩相關(guān)系數(shù)和肯德爾秩相關(guān)系數(shù)。斯皮爾曼秩相關(guān)系數(shù)(Spearman'sRankCorrelationCoefficient):斯皮爾曼秩相關(guān)系數(shù)是一種非參數(shù)的相關(guān)性度量方法,適用于連續(xù)型或順序型數(shù)據(jù)。斯皮爾曼秩相關(guān)系數(shù)的表達(dá)式為:其中,??表示斯皮爾曼秩相關(guān)系數(shù);??表示總的觀測樣本數(shù);????=????'?????'表示第i個數(shù)據(jù)的位次值之差,????'、????'分別表示樣本??、??第i個數(shù)據(jù)點的位次。斯皮爾曼秩相關(guān)系數(shù)的取值范圍為-1到1,其中1表示完全正相關(guān),-1表示完全負(fù)相關(guān),0表示無秩相關(guān)性。與皮爾遜相關(guān)系數(shù)不同,斯皮爾曼秩相關(guān)系數(shù)可以用于非線性關(guān)系和非正態(tài)分布的數(shù)據(jù)相關(guān)分析,且對于異常值數(shù)據(jù)的處理更加穩(wěn)健。2工業(yè)大數(shù)據(jù)對象關(guān)系計算方法兩個變量之間的相關(guān)性分析肯德爾秩相關(guān)系數(shù)(Kendall'sTau):肯德爾秩相關(guān)系數(shù)也是一種非參數(shù)的相關(guān)性度量方法,適用于順序型數(shù)據(jù)。它衡量的是兩個變量之間的一致性程度,即一個變量排名變化時,另一個變量是否也會發(fā)生相應(yīng)的排名變化??系聽栔认嚓P(guān)基于樣本數(shù)據(jù)對之間的關(guān)系進(jìn)行相關(guān)系數(shù)的強弱分析,數(shù)據(jù)對可以分為一致對(Concordant)和分歧對(Discordant)。一致對是指兩個變量??、??對的兩個樣本值(??1,??2)、(??1,??2)滿足??1???2??1???2≥0;分歧對是指兩個變量??、??對的兩個樣本值(??1,??2)、(??1,??2)滿足??1???2??1???2<0?;谑欠翊嬖诓⒘信盼?,肯德爾秩相關(guān)系數(shù)的表達(dá)式有兩種。不存在并列排位的肯德爾秩相關(guān)系數(shù)表達(dá)式為:2工業(yè)大數(shù)據(jù)對象關(guān)系計算方法兩個變量之間的相關(guān)性分析其中,????表示不存在并列排位的肯德爾秩相關(guān)系數(shù);??表示總的觀測樣本數(shù);????、????分別表示一致對和分歧對的在總觀測數(shù)據(jù)的兩兩組合中出現(xiàn)的次數(shù)。存在并列排位的肯德爾秩相關(guān)系數(shù)表達(dá)式為:其中,????表示存在并列排位的肯德爾秩相關(guān)系數(shù);??表示總的觀測樣本數(shù);????、????分別表示一致對和分歧對的在總觀測數(shù)據(jù)的兩兩組合中出現(xiàn)的次數(shù);????、????分別表示數(shù)據(jù)??、??中并列排序的數(shù)量。肯德爾秩相關(guān)系數(shù)的值范圍在-1到1之間。其中1表示完全正相關(guān),-1表示完全負(fù)相關(guān),0表示無秩相關(guān)性。相較于斯皮爾曼秩相關(guān)系數(shù),肯德爾秩相關(guān)系數(shù)更適用于數(shù)據(jù)樣本比較小,且存在并列排位時的相關(guān)性分析。2工業(yè)大數(shù)據(jù)對象關(guān)系計算方法兩個變量之間的相關(guān)性分析(4)點二列相關(guān)系數(shù)(Point-BiserialCorrelationCoefficient):點二列相關(guān)系數(shù)用于衡量一個二元變量與一個連續(xù)變量之間的關(guān)系,其表達(dá)式為:其中,??1是二分變量中取值為1(或“是”)的樣本在連續(xù)變量上的均值;??0是二分變量中取值為0(或“否”)的樣本在連續(xù)變量上的均值;??是連續(xù)變量的標(biāo)準(zhǔn)差;??0是二分變量中取值為0(或“否”)的樣本的比例。點二列相關(guān)系數(shù)取值范圍在-1到1之間。其中1表示完全正相關(guān),-1表示完全負(fù)相關(guān),0表示無相關(guān)性。它類似于皮爾遜相關(guān)系數(shù),但適用于包含一個二元變量的情況,其中0和1表示兩種不同的狀態(tài)。點二列相關(guān)系數(shù)衡量的是線性關(guān)系的強度和方向,而不是單調(diào)關(guān)系。因此,如果兩個變量之間的關(guān)系是非線性的,即使它們之間存在很強的單調(diào)關(guān)系,點二列相關(guān)系數(shù)也可能無法準(zhǔn)確反映這種關(guān)系。2工業(yè)大數(shù)據(jù)對象關(guān)系計算方法多個變量之間的相關(guān)性分析(1)肯德爾和諧系數(shù)(Kendall'sHarmonyCoefficient):用于衡量多個等級變量之間的相關(guān)程度。與主要用于衡量兩個變量之間的單調(diào)關(guān)系的肯德爾秩相關(guān)系數(shù)不同,肯德爾和諧系數(shù)主要用于衡量多個相互獨立的評價者或觀察者對于一組對象排序的一致性。特別適用于數(shù)據(jù)資料是多列相關(guān)的等級資料,比如k個評分者評價N個對象,或者是同一個人先后k次評價N個對象。其表達(dá)式為:其中,??表示肯德爾和諧系數(shù),??表示和諧的觀察值對與不和諧的觀察值對的差值;??表示被評價對象的個數(shù)。和諧觀察值對表示兩個評價者對被評價對象的排序一致,反之則是不和諧觀察對。2工業(yè)大數(shù)據(jù)對象關(guān)系計算方法多個變量之間的相關(guān)性分析肯德爾和諧系數(shù)是一種非參數(shù)的統(tǒng)計方法,因此不需要假設(shè)數(shù)據(jù)符合特定的分布。它不僅可以用于衡量變量之間的線性關(guān)系,還可以用于衡量非線性關(guān)系。和諧系數(shù)的取值范圍在0到1之間。當(dāng)其接近1時,表示評價者之間的和諧程度很高,即他們的排序非常一致;而當(dāng)其接近0時,則表示評價者之間的和諧程度很低,即他們的排序存在很大的差異。(2)組內(nèi)相關(guān)系數(shù)(ICC,IntraclassCorrelationCoefficient)是衡量和評價觀察者間信度(inter-observerreliability)和復(fù)測信度(test-retestreliability)的信度系數(shù)(reliabilitycoefficient)指標(biāo)之一。反映了組內(nèi)相2工業(yè)大數(shù)據(jù)對象關(guān)系計算方法多個變量之間的相關(guān)性分析關(guān)性的程度,即個體觀測值由于屬于同一組而表現(xiàn)出的一致性或相似性。其表達(dá)式為:其中,??????表示組內(nèi)相關(guān)系數(shù);??1、??分別表示不同組之間的標(biāo)準(zhǔn)差和同一組內(nèi)的標(biāo)準(zhǔn)差。組內(nèi)相關(guān)系數(shù)的值介于0~1之間。其中0表示沒有組內(nèi)相關(guān)性,而1表示完全的組內(nèi)相關(guān)性。(3)主成分分析(PrincipalComponentAnalysis,PCA):是一種常用的數(shù)據(jù)分析技術(shù),主要用于降維和特征提取。它的基本原理是通過線性變換,將高維數(shù)據(jù)轉(zhuǎn)換為低維空間,同時保留數(shù)據(jù)的最大方差。這種轉(zhuǎn)換是通過創(chuàng)建新的變量(即主成分變量)實現(xiàn)的,這些新變量是原始變量的線性組合。主成分分析的步驟如下:2工業(yè)大數(shù)據(jù)對象關(guān)系計算方法多個變量之間的相關(guān)性分析①數(shù)據(jù)標(biāo)準(zhǔn)化:首先,對原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,使得每個變量的均值為0,標(biāo)準(zhǔn)差為1。這一步驟的目的是消除不同變量間的量綱差異,使它們在分析中具有相同的權(quán)重。變量????(??=1,2…??)的標(biāo)準(zhǔn)化公式采用:其中,????是標(biāo)準(zhǔn)化的變量數(shù)據(jù);??是變量????(??=1,2…??)的均值;??是變量????(??=1,2…??)的標(biāo)準(zhǔn)差。②計算協(xié)方差矩陣:根據(jù)標(biāo)準(zhǔn)化后的數(shù)據(jù),根據(jù)公式(4-20)計算變量間的協(xié)方差矩陣。協(xié)方差矩陣反映了變量間的相關(guān)性,是主成分分析的關(guān)鍵輸入。③計算特征值和特征向量:接下來,求解協(xié)方差矩陣的特征值和特征向量。特征值的大小表示了對應(yīng)主成分所能解釋的方差量,而特征向量則描述了主成分的方向。2工業(yè)大數(shù)據(jù)對象關(guān)系計算方法多個變量之間的相關(guān)性分析④選擇主成分:根據(jù)特征值的大小選擇主成分。通常選擇特征值較大的前幾個主成分,因為它們能解釋原始數(shù)據(jù)中大部分的方差量。⑤構(gòu)造主成分:將選擇的主成分與原始數(shù)據(jù)進(jìn)行線性組合,得到新的主成分。這些新的主成分既保留了原始數(shù)據(jù)中的大部分信息,又實現(xiàn)了數(shù)據(jù)的降維。例4-2:給定四個數(shù)據(jù)樣本,每個樣本包含??、??、??三個變量,[??????]=147102581136912,基于該組數(shù)據(jù)進(jìn)行主成分分析。解:2工業(yè)大數(shù)據(jù)對象關(guān)系計算方法多個變量之間的相關(guān)性分析①數(shù)據(jù)標(biāo)準(zhǔn)化:計算均值:??(??)=1+4+7+104=5.5??(??)=2+5+8+114=6.5??(??)=3+6+9+124=7.5計算標(biāo)準(zhǔn)差:??(??)=??=14(???????(??))24=3.35??(??)=??=14(???????(??))24=3.35??(??)=??=14(???????(??))24=3.35根據(jù)公式????=?????????標(biāo)準(zhǔn)化變量:2工業(yè)大數(shù)據(jù)對象關(guān)系計算方法多個變量之間的相關(guān)性分析Z=[??????]=??1??2??3??4??1??2??3??4??1??2??3??4=?1.34?0.450.451.34?1.34?0.450.451.34?1.34?0.450.451.34②計算協(xié)方差矩陣:計算協(xié)方差:??????(????,????)=??=14(Z???????(????))(Z???????(????))???1,標(biāo)準(zhǔn)化的數(shù)據(jù)??(????)=??(????)=02工業(yè)大數(shù)據(jù)對象關(guān)系計算方法多個變量之間的相關(guān)性分析協(xié)方差矩陣為:??????(??)=??????(??1,??1)??????(??1,??2)??????(??1,??3)??????(??1,??4)??????(??1,??1)??????(??1,??2)??????(??1,??3)??????(??1,??4)??????(??1,??1)??????(??1,??2)??????(??1,??3)??????(??1,??4)=1.331.331.331.331.331.331.331.331.331.331.331.332工業(yè)大數(shù)據(jù)對象關(guān)系計算方法多個變量之間的相關(guān)性分析③計算協(xié)方差矩陣的特征值和特征向量:解線性方程組(??????(??)?????)??=0得協(xié)方差矩陣??????(??)的特征值:??1=4??2≈0??3≈0對應(yīng)的協(xié)方差矩陣??????(??)的特征向量:??1=[?0.58?0.58?0.58]????2=[?0.67?0.070.74]????3=[0?0.710.71]??④選擇主成分:選擇??1=4對應(yīng)的特征向量??1=[?5.77?5.77?5.77]??為主成分,因為它可以解釋大部分方差。2工業(yè)大數(shù)據(jù)對象關(guān)系計算方法構(gòu)造主成分:??=Z??1=?1.34?0.450.451.34?1.34?0.450.451.34?1.34?0.450.451.34?0.58?0.58?0.58=2.330.78?0.78?2.33因此得到了原始數(shù)據(jù)[??????]=147102581136912中的主成分向量??=2.330.78?0.78?2.33,將三維數(shù)據(jù)降為一維數(shù)據(jù),既包含了原有數(shù)據(jù)的主要內(nèi)容又減少了數(shù)據(jù)量,從而減少數(shù)據(jù)計算復(fù)雜度。然而主成分分析也有一些局限性。它假設(shè)數(shù)據(jù)是線性可分的,對于非線性關(guān)系的數(shù)據(jù)效果不佳;同時,它只考慮數(shù)據(jù)的方差,可能忽略其他重要的統(tǒng)計特性。2工業(yè)大數(shù)據(jù)對象關(guān)系計算方法構(gòu)造主成分:(4)因子分析:一種用于研究從變量群中提取共性因子的統(tǒng)計技術(shù)。核心思想是將一組觀測變量解釋為潛在因子和誤差項的線性組合,從而揭示數(shù)據(jù)的內(nèi)在結(jié)構(gòu)。假設(shè)一組m個已標(biāo)準(zhǔn)化(??=0,??=1)的變量[X1,X2...Xm]存在k個已標(biāo)準(zhǔn)化(??=0,??=1)的共性因子[f1,f2...fk],則變量可以用k個共性因子的線性組合表示:其中,????為第i個變量,(i=1,2...m);????為第j個共性因子,(j=1,2...k);??????為因子載荷,表示因子????對變量????相關(guān)程度,??????=??????(????,????);????為第i個變量的誤差。式(4-29)的矩陣表達(dá)式為:2工業(yè)大數(shù)據(jù)對象關(guān)系計算方法構(gòu)造主成分:其中,??為一組變量,??=[??1,??2...????]??;??為一組共性因子,??=[??1,??2...????]??;??為因子載荷矩陣,??=??11???1?????????1???????;??為誤差矩陣??=[????,??2...????]??。判斷一組共性因子??是否能準(zhǔn)確表達(dá)一組變量X,有兩個評價指標(biāo):變量共同度和因子方差貢獻(xiàn)度。變量共同度表示對于某一變量????,所有共性因子的方差貢獻(xiàn)度之和,其數(shù)學(xué)表達(dá)式為:其中,???表示一組共性因子??對變量????的變量共同度;??????表示因子????對變量????相關(guān)程度。2工業(yè)大數(shù)據(jù)對象關(guān)系計算方法構(gòu)造主成分:???2越接近于1,說明該組共性因子??對變量????的解釋性越好。如果大部分原有變量的變量共同度均較高(如高于0.7),則說明所抽取的因子能夠反映原有變量的大部分信息(如70%以上),因子分析的效果較好。因子方差貢獻(xiàn)表示某一因子????對所有變量提供的方差貢獻(xiàn)度之和,其數(shù)學(xué)表達(dá)式為:其中,????表示某一因子????對所有變量的因子方差貢獻(xiàn)度;??????表示因子????對變量????相關(guān)程度。因子方差貢獻(xiàn)的值越高,說明相應(yīng)因子的重要性越高??梢愿鶕?jù)因子方差貢獻(xiàn)度由高到低選取變量的共性因子。如果一組因子的因子方差貢獻(xiàn)度都較為平均,說明所選取的因子組合較為合理。2工業(yè)大數(shù)據(jù)對象關(guān)系計算方法構(gòu)造主成分:因子載荷矩陣??反映了每個因子與每個原始變量的相關(guān)關(guān)系,可以根據(jù)因子載荷矩陣對共性因子進(jìn)行可解釋分析。當(dāng)????因子對原始變量的相關(guān)系數(shù)??1??,??2??...??????有明顯差異時,可以推斷出????因子主要受哪些原始變量影響,從而解釋各個共性因子的性質(zhì)。然而,當(dāng)k個因子對變量????的相關(guān)系數(shù)????1,????2...??????無明顯差異時,解釋性較差,因此需要通過因子旋轉(zhuǎn)來提高因子分析的可解釋性。其目的是使載荷矩陣同一列的載荷系數(shù)差異盡可能大,可通過選取最大的載荷系數(shù)平方方差來實現(xiàn)。其數(shù)學(xué)表達(dá)式為:其中,??'為旋轉(zhuǎn)后的載荷矩陣。綜上,因子分析的基本步驟包括:2工業(yè)大數(shù)據(jù)對象關(guān)系計算方法構(gòu)造主成分:①計算變量之間的相關(guān)系數(shù)矩陣,即原始數(shù)據(jù)變量??的協(xié)方差矩陣Cov(??,????),根據(jù)變量的相關(guān)性程度對變量進(jìn)行分組,分組數(shù)等于因子提取數(shù);②選擇因子提取方法,如主成分法或最大似然法,提取共性因子??并計算載荷矩陣??;③通過因子旋轉(zhuǎn)方法,調(diào)整因子的解釋性;④根據(jù)因子載荷矩陣,計算變量共同度和因子方差貢獻(xiàn)度等因子評價指標(biāo),并解釋因子與原始變量之間的相關(guān)關(guān)系;⑤基于變量共同度和因子方差貢獻(xiàn)度兩個指標(biāo),判斷因子分析結(jié)果的準(zhǔn)確性。例4-3、某市場調(diào)研公司收集了關(guān)于消費者購買手機時考慮的五個主要因素的數(shù)據(jù),這五個因素分別是:價格(P)、品牌(B)、性能(C)、外觀設(shè)計(D)和售后服務(wù)(S)。該公司對100名消費者進(jìn)行了問卷調(diào)查,并得到了每個消費者對這五個因素的評分表,如表4-4所示(滿分為10分)。試用因子分析法,提取共性因子,并解釋共性因子與原有變量的相關(guān)關(guān)系。2工業(yè)大數(shù)據(jù)對象關(guān)系計算方法構(gòu)造主成分:表4-4:100位評價者對產(chǎn)品5個因素的評價解:2工業(yè)大數(shù)據(jù)對象關(guān)系計算方法計算變量之間的相關(guān)系數(shù)矩陣:分別計算表4-4中5個因素的均值和方差,并對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。計算表4-4中5個因素的協(xié)方差矩陣:由公式??????(????,????)=??=14(Z???????(????))(Z???????(????))???1,標(biāo)準(zhǔn)化的數(shù)據(jù)??(????)=??(????)=0得5個因素的協(xié)方差矩陣為:??????(??)=1.00.750.350.580.320.751.00.450.680.430.350.451.00.070.680.580.680.071.00.030.320.430.680.031.0根據(jù)協(xié)方差矩陣可將相關(guān)性強的因素分為二組:{P、B、D}、{C、S},因此可以提取兩個共性因子。2工業(yè)大數(shù)據(jù)對象關(guān)系計算方法計算變量之間的相關(guān)系數(shù)矩陣:②對5個因素的協(xié)方差矩陣進(jìn)行主成分分析,提取兩個共性因子。解線性方程組(??????(??)?????)??=0得協(xié)方差矩陣??????(??)的特征值:??1≈2.79??2≈1.35??3≈0.35??4≈0.32??3≈0.18選取最大的前兩個特征值對應(yīng)的特征向量:??1=[0.500.550.390.390.37]????2=[0.230.17?0.540.55?0.57]??計算原始變量在共性因子提取后的主成分矩陣??:2工業(yè)大數(shù)據(jù)對象關(guān)系計算方法計算變量之間的相關(guān)系數(shù)矩陣:??=Z[??1,??2]=987?9997?7878?7784?10668?9100×50.50.550.390.390.370.230.17?0.540.55?0.575×2=17.5217.0214.99?18.31?0.290.57?3.88??0.15100×2其中,Z100×5為表4-4中100位評價者對產(chǎn)品5個因素的評價值表;??1、??2分別為共性因子向量。對主成分矩陣??中的兩個共性因子進(jìn)行標(biāo)準(zhǔn)化處理,與第①步中經(jīng)過標(biāo)準(zhǔn)化處理的5個原始因素進(jìn)行相關(guān)關(guān)系分析,即計算它們的協(xié)方差矩陣,得到載荷矩陣??。③基于公式(4-33),對載荷矩陣??進(jìn)行因子旋轉(zhuǎn),得到可解釋性強的載荷矩陣??'2工業(yè)大數(shù)據(jù)對象關(guān)系計算方法計算變量之間的相關(guān)系數(shù)矩陣:④解釋共性因子:由載荷矩陣??'可知,共性因子????主要由價格(P)、品牌(B)、外觀(D)組成,它反映了三者隱藏的共性機制;????主要由性能(C)和售后(S)組成,它反映了二者隱藏的共性機制。⑤檢驗因子分析的準(zhǔn)確性:計算變量共同度:由???2=??=1????????2得?12=0.0.72>0.7?22=0.59?32=0.76>0.7?42=0.78>0.7?52=0.84>0.7大部分原始因素的變量共同度計算結(jié)果大于0.7,證明提取的共性因子具有較好的變量共同度;2工業(yè)大數(shù)據(jù)對象關(guān)系計算方法計算變量之間的相關(guān)系數(shù)矩陣:計算因子方差貢獻(xiàn)度:由????=??=1????????2??=1????=1????????2得??1=0.54??2=0.46兩個因子的方差貢獻(xiàn)度較為平均,具有較好的因子方差貢獻(xiàn)度。表4-5數(shù)據(jù)相關(guān)性分析方法對比表4-5為不同的數(shù)據(jù)相關(guān)性分析方法對比,選擇哪種相關(guān)性計算方法取決于具體的數(shù)據(jù)類型、分析目標(biāo)和實際需求。同時,需要注意的是,在計算相關(guān)性時,需要對數(shù)據(jù)進(jìn)行預(yù)處理,排除可能存在的干擾因素,如異常值、缺失值等,以保證計算結(jié)果的準(zhǔn)確性。3工業(yè)大數(shù)據(jù)關(guān)聯(lián)分析方法工業(yè)大數(shù)據(jù)關(guān)聯(lián)分析是通過挖掘工業(yè)大數(shù)據(jù)中的關(guān)聯(lián)規(guī)則,找出不同項之間的相關(guān)性。這種分析對于理解工業(yè)系統(tǒng)運行產(chǎn)生的復(fù)雜數(shù)據(jù)關(guān)系至關(guān)重要,因為工業(yè)數(shù)據(jù)通常涉及多個環(huán)節(jié)和多種設(shè)備,數(shù)據(jù)之間存在極大的關(guān)聯(lián)關(guān)系,如簡單關(guān)聯(lián)關(guān)系、時序關(guān)聯(lián)關(guān)系、設(shè)備-軟件關(guān)聯(lián)關(guān)系、日志操作關(guān)聯(lián)關(guān)系等。3工業(yè)大數(shù)據(jù)關(guān)聯(lián)分析方法3.1關(guān)聯(lián)分析基本概念大數(shù)據(jù)關(guān)聯(lián)分析是在大規(guī)模數(shù)據(jù)集中尋找某種關(guān)聯(lián)關(guān)系的任務(wù)。關(guān)聯(lián)分析的目的是發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中的有意義的聯(lián)系,這種聯(lián)系可以用關(guān)聯(lián)規(guī)則和頻繁項集來表示。例如,在購物籃分析中,關(guān)聯(lián)規(guī)則可能是“購買了商品A的顧客也會購買商品B”。關(guān)聯(lián)規(guī)則的強度通常由支持度和置信度來度量。支持度確定規(guī)則可以用于給定數(shù)據(jù)集的頻繁程度,而置信度確定在包含X的事務(wù)中Y出現(xiàn)的頻率。關(guān)聯(lián)分析通常分為兩個任務(wù):①找出滿足最小支持度閾值的項集,即頻繁項集。3工業(yè)大數(shù)據(jù)關(guān)聯(lián)分析方法3.1關(guān)聯(lián)分析基本概念②在找出的頻繁項集中,提取置信度高的關(guān)聯(lián)規(guī)則,即強規(guī)則。在大數(shù)據(jù)環(huán)境下,關(guān)聯(lián)分析可以幫助我們理解數(shù)據(jù)之間的關(guān)系和模式,從而作出更準(zhǔn)確的預(yù)測和決策。為進(jìn)一步了解具體的關(guān)聯(lián)分析方法,首先給出項集、頻繁項集和關(guān)聯(lián)規(guī)則的定義。項集(Itemsets)定義:指項的集合。包括k個項的項集為k項集。例如:集合{面包、牛奶}中,面包和牛奶分別為一個項,該集合包含2個項,因此為2項集。假設(shè)I={I1,I2...Im}是項的集合,給定一個交易數(shù)據(jù)庫D,每次交易事務(wù)T(Transaction)是I的非空子集,即T?I,每個交易事務(wù)T都具有一個唯一的表示符TID(TransactionID)與之對應(yīng)。3工業(yè)大數(shù)據(jù)關(guān)聯(lián)分析方法3.1關(guān)聯(lián)分析基本概念頻繁項集(FrequentItemsets)定義:在一個具體的數(shù)據(jù)分析任務(wù)中,用戶或者領(lǐng)域?qū)<铱梢宰孕性O(shè)定項集的出現(xiàn)頻率閾值,如果項集A的出現(xiàn)頻率高于閾值,則將A認(rèn)定為頻繁項集。包含k個項的頻繁項集稱之為k頻繁項集。關(guān)聯(lián)規(guī)則(AssociationRules)定義:關(guān)聯(lián)規(guī)則可通過蘊含式表達(dá):其中,A定義為關(guān)聯(lián)關(guān)系的前件(Antecedent或Left-hand-side,LHS),B定義為關(guān)聯(lián)關(guān)系的后件(Consequent或Right-hand-side,RHS)。關(guān)聯(lián)規(guī)則表達(dá)了A項集發(fā)生的情況下,可大概率推斷出B項集的發(fā)生。例如:從某超市的購物項集中可推斷出{面包}=>{牛奶}這條關(guān)聯(lián)規(guī)則,其中,面包為前件,牛奶為后件,其含義是:在該超市購物的顧客,購買面包時傾向于同時購買牛奶。因此可以指導(dǎo)售貨員將面包和牛奶放在鄰近貨架銷售。。3工業(yè)大數(shù)據(jù)關(guān)聯(lián)分析方法3.2關(guān)聯(lián)規(guī)則有效性的評價指標(biāo)關(guān)聯(lián)關(guān)系的有效性評估是指對兩個或多個變量之間關(guān)聯(lián)關(guān)系進(jìn)行分析和評估。它對提高決策質(zhì)量、優(yōu)化資源配置、增強信任度、可持續(xù)改進(jìn)具有重要意義。常用的關(guān)聯(lián)關(guān)系評價指標(biāo)有:支持度、置信度、提升度。1.支持度(Support):衡量了一個規(guī)則在整個數(shù)據(jù)集中的普遍性,即滿足規(guī)則的事件出現(xiàn)頻率。它定義為同時包含X和Y的樣本數(shù)與總樣本數(shù)的比值,表達(dá)式為:其中,PXY表示X和Y同時出現(xiàn)的概率;??(X∩Y)表示同時包含X和Y的樣本數(shù);??表示總樣本數(shù)。如果支持度很高,則X和Y同時出現(xiàn)的情況較多,那么將X與Y相關(guān)聯(lián)的規(guī)則具有普遍性;反之亦然。2.置信度(Confidence):衡量了在包含X的事件中,Y也出現(xiàn)的概率。它描3工業(yè)大數(shù)據(jù)關(guān)聯(lián)分析方法3.2關(guān)聯(lián)規(guī)則有效性的評價指標(biāo)述了一個事件X出現(xiàn)后,另一個事件Y出現(xiàn)的概率,即,事件的條件概率,其表達(dá)式為:其中,PX表示X出現(xiàn)的概率;PXY表示X和Y同時出現(xiàn)的概率;PY|X表示X出現(xiàn)的條件下,X和Y同時出現(xiàn)的概率;??(X∩Y)表示同時包含X和Y的樣本數(shù);??X表示X出現(xiàn)的樣本數(shù)。如果置信度很高,說明事件X出現(xiàn)時,事件Y大概率會跟隨出現(xiàn),這樣的關(guān)聯(lián)規(guī)則具備可靠性;反之亦然。一個合適的關(guān)聯(lián)規(guī)則應(yīng)該同時具有較高的支持度和置信度。如果關(guān)聯(lián)規(guī)則有較高支持度而置信度較低,說明關(guān)聯(lián)規(guī)則較弱。如果關(guān)聯(lián)規(guī)則有較高置信度而支持度較低,說明規(guī)則普遍性較低,可能只是偶然事件,不具備應(yīng)用推廣的意義。因此,為了生成合適的關(guān)聯(lián)規(guī)則,通常需要分別設(shè)置最小支持度閾值S??????及最小置信度閾值C??????,當(dāng)X和Y的關(guān)聯(lián)規(guī)則支持度和置信度滿足公式:3工業(yè)大數(shù)據(jù)關(guān)聯(lián)分析方法3.2關(guān)聯(lián)規(guī)則有效性的評價指標(biāo)說明該關(guān)聯(lián)規(guī)則具有一定的有效性。3.提升度(lift):衡量關(guān)聯(lián)規(guī)則相較于隨機情況的提升程度,提升度越高,規(guī)則的價值越大。它的表達(dá)式為:其中,CX,Y為X與Y關(guān)聯(lián)規(guī)則的置信度;SY為Y事件的支持度;PY|X表示X出現(xiàn)條件下,X和Y同時出現(xiàn)的概率;PY為Y事件出現(xiàn)的概率;??(X∩Y)表示同時包含X和Y的樣本數(shù);??X表示X出現(xiàn)的樣本數(shù);n(Y)表示Y出現(xiàn)的樣本數(shù)。如果提升度接近1,表示X和Y之間沒有特別的關(guān)聯(lián);當(dāng)提升度>1,認(rèn)為前件對后件具有正向影響;值越大,正向影響程度越高。當(dāng)提升度<1,認(rèn)為前件對后件具有負(fù)向影響。3工業(yè)大數(shù)據(jù)關(guān)聯(lián)分析方法3.3關(guān)聯(lián)分析方法關(guān)聯(lián)分析的主要方法主要包括:Apriori關(guān)聯(lián)分析算法、FP-Growth關(guān)聯(lián)分析算法、Eclat關(guān)聯(lián)分析算法、二進(jìn)制向量關(guān)聯(lián)分析算法、矩陣的關(guān)聯(lián)分析算法、分布式關(guān)聯(lián)分析算法。1.Apriori關(guān)聯(lián)分析算法:這是一種基于頻繁項集的算法,用于發(fā)現(xiàn)數(shù)據(jù)集中項之間的有趣關(guān)系,形成規(guī)則?;舅枷胧峭ㄟ^對數(shù)據(jù)庫的多次掃描來計算項集的支持度,發(fā)現(xiàn)所有的頻繁項集從而生成關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則通常以“如果...那么...”的形式表示,例如“如果用戶購買了商品A,那么很可能會購買商品B”。Apriori算法基于兩個關(guān)鍵性質(zhì)來有效地生成頻繁項集:如果一個項集是頻繁的,那么它的所有子集也必須是頻繁的;如果一個項集是非頻繁的,那么它的所有超集也必定是非頻繁的。Apriori關(guān)聯(lián)分析算法的計算步驟如下:3工業(yè)大數(shù)據(jù)關(guān)聯(lián)分析方法3.3關(guān)聯(lián)分析方法03③再次掃描數(shù)據(jù)庫,統(tǒng)計每個候選項集2的出現(xiàn)次數(shù),并計算其支持度。同樣地,將支持度低于最小支持度閾值的候選項集2剪枝掉,剩余的組成頻繁項集2。02②使用頻繁項集1來產(chǎn)生候選項集2。具體來說,將頻繁項集1中的項兩兩組合,形成候選項集2。01①首次掃描數(shù)據(jù)庫,統(tǒng)計每個項的出現(xiàn)次數(shù),并計算其支持度。設(shè)定一個最小支持度閾值,將支持度低于這個閾值的項剪枝掉,剩余的項組成頻繁項集1。04④重復(fù)上述步驟,使用頻繁項集k來產(chǎn)生候選項集(k+1),直到候選項集(k+1)3工業(yè)大數(shù)據(jù)關(guān)聯(lián)分析方法3.3關(guān)聯(lián)分析方法為空,即無法再產(chǎn)生新的頻繁項集為止。例4-4假設(shè)有一個小型超市的銷售數(shù)據(jù),記錄了5份交易的商品。交易1:{牛奶,面包,黃油}交易2:{牛奶,尿布,啤酒,雞蛋}交易3:{面包,黃油,尿布,啤酒}交易4:{牛奶,面包,尿布,雞蛋}交易5:{面包,牛奶,尿布,啤酒}。試基于Apriori算法找出商品之間的關(guān)聯(lián)規(guī)則,分析哪些商品經(jīng)常一起被購買?解:掃描商品數(shù)據(jù),設(shè)定最小支持度閾值為0.4。3工業(yè)大數(shù)據(jù)關(guān)聯(lián)分析方法3.3關(guān)聯(lián)分析方法①計算單個商品的支持度,保留支持度高于0.4的商品作為頻繁項集1:牛奶:4/5=0.8面包:4/5=0.8黃油:2/5=0.4尿布:4/5=0.8啤酒:3/5=0.6雞蛋:2/5=0.4②計算兩個商品的支持度,保留支持度高于0.4的商品作為頻繁項集2:{牛奶,面包}:3/5=0.6{牛奶,黃油}:1/5=0.2{牛奶,尿布}:3/5=0.6{牛奶,啤酒}:2/5=0.4{牛奶,雞蛋}:2/5=0.4{面包,黃油}:2/5=0.43工業(yè)大數(shù)據(jù)關(guān)聯(lián)分析方法3.3關(guān)聯(lián)分析方法在右側(cè)編輯區(qū)輸入內(nèi)容{面包,尿布}:3/5=0.6{面包,啤酒}:2/5=0.4{面包,雞蛋}:1/5=0.201在右側(cè)編輯區(qū)輸入內(nèi)容{黃油,尿布}:1/5=0.2{黃油,啤酒}:1/5=0.2{黃油,雞蛋}:0/5=002{牛奶,面包,黃油}:1/5=0.2{牛奶,尿布,啤酒}:2/5=0.4③計算三個商品的支持度,保留支持度高于0.4的商品作為頻繁項集3:04在右側(cè)編輯區(qū)輸入內(nèi)容{尿布,啤酒}:3/5=0.6{尿布,雞蛋}:2/5=0.4{啤酒,雞蛋}:1/5=0.2033工業(yè)大數(shù)據(jù)關(guān)聯(lián)分析方法3.3關(guān)聯(lián)分析方法{牛奶,啤酒,雞蛋}:1/5=0.2{面包,黃油,尿布}:1/5=0.2{牛奶,尿布,雞蛋}:2/5=0.4{尿布,啤酒,雞蛋}:1/5=0.2{面包,尿布,啤酒}:2/5=0.4{牛奶,面包,尿布}:2/5=0.4{面包,黃油,啤酒}:1/5=0.2{黃油,尿布,啤酒}:1/5=0.2{牛奶,面包,雞蛋}:1/5=0.2{面包,尿布,雞蛋}:1/5=0.2{面包,牛奶,啤酒}:1/5=0.23工業(yè)大數(shù)據(jù)關(guān)聯(lián)分析方法3.3關(guān)聯(lián)分析方法④生成關(guān)聯(lián)規(guī)則:關(guān)聯(lián)規(guī)則的一般形式是{X}—>{Y},其中X和Y是不相交的項集,并且X∪Y是一個頻繁項集。并分別計算每個關(guān)聯(lián)規(guī)則的置信度:CX,Y=PY|XC({牛奶,尿布},{啤酒})=P({牛奶,尿布,啤酒})P({牛奶,尿布})=0.40.6≈0.67C({牛奶,啤酒},{尿布})=P({牛奶,尿布,啤酒})P({牛奶,啤酒})=0.40.4=1C({尿布,啤酒},{牛奶})=P({牛奶,尿布,啤酒})P({尿布,啤酒})=0.40.6≈0.67根據(jù)關(guān)聯(lián)規(guī)則可推測:買牛奶和啤酒的前提下一般會買尿布。3工業(yè)大數(shù)據(jù)關(guān)聯(lián)分析方法3.3關(guān)聯(lián)分析方法同理可知:C({牛奶,雞蛋},{尿布})=P({牛奶,尿布,雞蛋})P({牛奶,雞蛋})=0.40.4=1C({牛奶,尿布},{雞蛋})=P({牛奶,尿布,雞蛋})P({尿布,雞蛋})=0.40.4=1買牛奶和雞蛋的前提下一般會買尿布,買牛奶和尿布的前提下一般會買雞蛋。C({面包,啤酒},{尿布})=P({面包,尿布,啤酒})P({面包,啤酒})=0.40.4=1買面包和啤酒的前提下一般會買尿布。3工業(yè)大數(shù)據(jù)關(guān)聯(lián)分析方法3.3關(guān)聯(lián)分析方法Apriori算法的思想直觀簡單,易于理解和實現(xiàn)。它同時適用于離散數(shù)據(jù)和連續(xù)數(shù)據(jù),具有較好的數(shù)據(jù)擴展性,通過剪枝技術(shù)減少候選項集的數(shù)量,提高算法的效率。但由于多次遍歷數(shù)據(jù)集,降低了計算效率。2.FP-Growth關(guān)聯(lián)分析算法:這是一種高效的關(guān)聯(lián)分析算法,通過構(gòu)建FP樹(FrequentPatternTree)來挖掘數(shù)據(jù)中的頻繁項集。它的核心思想是利用數(shù)據(jù)壓縮和遞歸技術(shù)來高效地挖掘頻繁項集。該算法的計算步驟如下:①掃描數(shù)據(jù)集,統(tǒng)計每個項的頻率,并根據(jù)頻率降序排序。②將提供頻繁項集的數(shù)據(jù)庫壓縮到一棵頻繁模式FP樹,其中每個節(jié)點代表一個項,節(jié)點上的計數(shù)表示該項的頻率。3工業(yè)大數(shù)據(jù)關(guān)聯(lián)分析方法3.3關(guān)聯(lián)分析方法③遞歸地挖掘FP樹,找出頻繁項集。與Apriori算法相比,F(xiàn)P-Growth算法不需要多次掃描數(shù)據(jù)集,因此大大提高了關(guān)聯(lián)分析的效率,但PF樹的構(gòu)建需要具備一定經(jīng)驗。此外,F(xiàn)P-Growth算法主要適用于挖掘單維的布爾關(guān)聯(lián)規(guī)則,對于多維或非布爾類型的數(shù)據(jù)處理能力有限。例4-5、假設(shè)有一個小型超市的銷售數(shù)據(jù),記錄了5份交易的商品。交易1:{牛奶,面包,黃油}交易2:{牛奶,尿布,啤酒,雞蛋}交易3:{面包,黃油,尿布,啤酒}交易4:{牛奶,面包,尿布,雞蛋}交易5:{面包,牛奶,尿布,啤酒}。(交易數(shù)據(jù)與例4-4相同)試基于FP-Growth算法找出商品之間的關(guān)聯(lián)規(guī)則,分析哪些商品經(jīng)常一起被購買?解:3工業(yè)大數(shù)據(jù)關(guān)聯(lián)分析方法3.3關(guān)聯(lián)分析方法牛奶:4面包:4尿布:4啤酒:3雞蛋:2黃油:2①掃描數(shù)據(jù)集,統(tǒng)計每個項的頻率降序排列:首先生成一個根節(jié)點(根節(jié)點無數(shù)據(jù)為null)。其次遍歷交易,每個交易中的商品按頻率降序排列:交易1:{牛奶,面包,黃油}交易2:{牛奶,尿布,啤酒,雞蛋}交易3:{面包,尿布,啤酒,黃油}交易4:{牛奶,面包,尿布,雞蛋}交易5:{牛奶,面包,尿布,啤酒}②構(gòu)建FP樹:3工業(yè)大數(shù)據(jù)關(guān)聯(lián)分析方法3.3關(guān)聯(lián)分析方法然后依次創(chuàng)建每個交易的FP樹路徑,如果路徑上的某個節(jié)點已經(jīng)存在,則增加該節(jié)點的計數(shù);如果不存在,則創(chuàng)建新節(jié)點。FP樹的創(chuàng)建過程如圖4-6所示。交易1:{牛奶,面包,黃油},生成FP樹如圖4-6(a)所示。交易2:{牛奶,尿布,啤酒,雞蛋},生成FP樹如圖4-6(b)所示。交易3:{面包,尿布,啤酒,黃油},生成FP樹如圖4-6(c)所示。交易4:{牛奶,面包,尿布,雞蛋},生成FP樹如圖4-6(d)所示。交易5:{牛奶,面包,尿布,啤酒},生成FP樹如圖4-6(e)所示,此為完整的FP樹。3工業(yè)大數(shù)據(jù)關(guān)聯(lián)分析方法3.3關(guān)聯(lián)分析方法③自底向上遞歸地挖掘生成的FP樹,找到頻繁項集。設(shè)置最小支持度閾值為0.4(即圖4-6FP樹的創(chuàng)建過程3工業(yè)大數(shù)據(jù)關(guān)聯(lián)分析方法3.3關(guān)聯(lián)分析方法要求出現(xiàn)頻數(shù)2次及以上),得到頻繁項集及出現(xiàn)頻數(shù):1{雞蛋}2{雞蛋,尿布}2{雞蛋,牛奶}2{雞蛋,尿布,牛奶}22從啤酒開始:3{啤酒}3{啤酒,尿布}3{啤酒,面包}2{啤酒,牛奶}24{啤酒,尿布,面包}2{啤酒,尿布,牛奶}25從黃油開始:6{黃油}2{黃油,面包}27從尿布開始:8{尿布}4{尿布,面包}3{尿布,牛奶}3{尿布,面包,牛奶}29從雞蛋開始:103工業(yè)大數(shù)據(jù)關(guān)聯(lián)分析方法3.3關(guān)聯(lián)分析方法從面包開始:{面包}4{面包,牛奶}3從牛奶開始:{牛奶}4得到頻繁項集與例題4-4結(jié)果一致。④生成關(guān)聯(lián)規(guī)則:關(guān)聯(lián)規(guī)則的一般形式是{X}—>{Y},其中X和Y是不相交的項集,并且X∪Y是一個頻繁項集。采用如例題4-4相同的方式生成關(guān)聯(lián)規(guī)則并分析。3.Eclat關(guān)聯(lián)分析算法:這是一種基于深度優(yōu)先搜索的關(guān)聯(lián)規(guī)則挖掘算法。Eclat算法與Apriori和FP-growth算法采用水平數(shù)據(jù)結(jié)構(gòu)的方式不同,它通過3工業(yè)大數(shù)據(jù)關(guān)聯(lián)分析方法3.3關(guān)聯(lián)分析方法垂直數(shù)據(jù)格式來減少候選集的生成和測試。水平數(shù)據(jù)結(jié)構(gòu)(如Apriori和FP-growth算法所使用)是將數(shù)據(jù)按照事務(wù)(或記錄)進(jìn)行組織,每個事務(wù)包含多個項(或?qū)傩裕T谶@種結(jié)構(gòu)下,算法會掃描整個事務(wù)集,計算項集的支持度,并通過迭代的方式生成測試集和頻繁項集。這種方法的缺點是當(dāng)數(shù)據(jù)集很大時,計算量會顯著增加,導(dǎo)致算法的效率降低。垂直數(shù)據(jù)結(jié)構(gòu)(如Eclat算法所采用)則是將數(shù)據(jù)按照項進(jìn)行組織,存儲每個項出現(xiàn)的事務(wù)標(biāo)識列表。這種結(jié)構(gòu)使得在挖掘頻繁項集時,可以直接通過項的事務(wù)標(biāo)識列表進(jìn)行集合運算,從而有效地減少計算量。Eclat算法通過構(gòu)建項的事務(wù)標(biāo)識列表,并利用這些列表之間的交集運算來快速生成頻繁項集。這種方法避免了在水平數(shù)據(jù)結(jié)構(gòu)中需要多次掃描事務(wù)集的缺點,因此在處理大數(shù)據(jù)集時具有更高的效率。Eclat算法的計算步驟如下:3工業(yè)大數(shù)據(jù)關(guān)聯(lián)分析方法3.3關(guān)聯(lián)分析方法①掃描數(shù)據(jù)集,轉(zhuǎn)換數(shù)據(jù)格式:通過掃描一次數(shù)據(jù)集,將水平格式的數(shù)據(jù)轉(zhuǎn)換成垂直格式。在垂直格式中,每個項與其對應(yīng)的事務(wù)ID(TID)相關(guān)聯(lián),形成一個項-TID對的列表。②構(gòu)建頻繁項集:設(shè)置最小支持度閾值,從k=1開始,使用頻繁k項集來構(gòu)造候選(k+1)項集。通過取頻繁k項集的TID集的交集,計算對應(yīng)的(k+1)項集的TID集,選擇滿足支持度閾值的項集為頻繁項集。③重復(fù)構(gòu)建過程:重復(fù)上述步驟,每次k增加1,直到不能再找到滿足最小支持度閾值的3工業(yè)大數(shù)據(jù)關(guān)聯(lián)分析方法3.3關(guān)聯(lián)分析方法頻繁項集或候選項集為止。例4-6、假設(shè)有一個小型超市的銷售數(shù)據(jù),記錄了5份交易的商品。交易1:{牛奶,面包,黃油}交易2:{牛奶,尿布,啤酒,雞蛋}交易3:{面包,黃油,尿布,啤酒}交易4:{牛奶,面包,尿布,雞蛋}交易5:{面包,牛奶,尿布,啤酒}。(交易數(shù)據(jù)與例4-4相同)試基于Eclat關(guān)聯(lián)分析算法找出商品之間的關(guān)聯(lián)規(guī)則,分析哪些商品經(jīng)常一起被購買?3工業(yè)大數(shù)據(jù)關(guān)聯(lián)分析方法構(gòu)建垂直數(shù)據(jù)表示,并計算項集支持度項集{牛奶}對應(yīng)的事務(wù)列表:{1,2,4,5}支持度為:4/5=0.8項集{面包}對應(yīng)的事務(wù)列表:{1,3,4,5}支持度為:4/5=0.8項集{黃油}對應(yīng)的事務(wù)列表:{1,3}支持度為:2/5=0.4項集{尿布}對應(yīng)的事務(wù)列表:{2,3,4,5}支持度為:4/5=0.8項集{啤酒}對應(yīng)的事務(wù)列表:{2,3,5}支持度為:3/5=0.6項集{雞蛋}對應(yīng)的事務(wù)列表:{2,4}支持度為:2/5=0.4②挖掘頻繁項集:設(shè)置支持度最小閾值為0.4(即要求項集出現(xiàn)頻數(shù)2次及以上)。K=1頻繁項集{牛奶}、{面包}、{尿布}、{啤酒}、{黃油}、{雞蛋}K=2頻繁項集{牛奶,面包}對應(yīng)交集事務(wù)列表:{1,4,5}支持度為:3/5=0.63工業(yè)大數(shù)據(jù)關(guān)聯(lián)分析方法構(gòu)建垂直數(shù)據(jù)表示,并計算項集支持度{牛奶,尿布}對應(yīng)交集事務(wù)列表:{2,4,5}支持度為:3/5=0.61{牛奶,雞蛋}對應(yīng)交集事務(wù)列表:{2,4}支持度為:2/5=0.42{面包,黃油}對應(yīng)交集事務(wù)列表:{1,3}支持度為:2/5=0.43{面包,尿布}對應(yīng)交集事務(wù)列表:{3,4,5}支持度為:3/5=0.64{面包,啤酒}對應(yīng)交集事務(wù)列表:{3,5}支持度為:2/5=0.45{尿布,啤酒}對應(yīng)交集事務(wù)列表:{2,4,5}支持度為:3/5=0.66{尿布,雞蛋}對應(yīng)交集事務(wù)列表:{2,4}支持度為:2/5=0.47K=3頻繁項集8{牛奶,面包,尿布}對應(yīng)交集事務(wù)列表:{4,5}支持度為:2/5=0.49{牛奶,啤酒}對應(yīng)交集事務(wù)列表:{2,5}支持度為:2/5=0.4103工業(yè)大數(shù)據(jù)關(guān)聯(lián)分析方法構(gòu)建垂直數(shù)據(jù)表示,并計算項集支持度{牛奶,尿布,啤酒}對應(yīng)交集事務(wù)列表:{2,5}支持度為:2/5=0.4{面包,尿布,啤酒}對應(yīng)交集事務(wù)列表:{3,5}支持度為:2/5=0.4{牛奶,尿布,雞蛋}對應(yīng)交集事務(wù)列表:{2,4}支持度為:2/5=0.4計算的頻繁項集與例題4-4相同。③生成關(guān)聯(lián)規(guī)則:關(guān)聯(lián)規(guī)則的一般形式是{X}—>{Y},其中X和Y是不相交的項集,并且X∪Y是一個頻繁項集。采用如例題4-4相同的方式生成關(guān)聯(lián)規(guī)則并分析。雖然Eclat算法能夠快速地計算項集的支持度并構(gòu)建頻繁項集。但Eclat算法對數(shù)據(jù)集的初始排序要求較高,如果數(shù)據(jù)集沒有按照合適的順序進(jìn)行排序,可能會影響算法的性能和效率。此外,當(dāng)頻繁項集的數(shù)量非常大時,Eclat算法在進(jìn)行交集操作時可能會消耗大量的內(nèi)存,這可能會成為算法的瓶頸,影響算法在處理大規(guī)模數(shù)據(jù)集時的效率。3工業(yè)大數(shù)據(jù)關(guān)聯(lián)分析方法構(gòu)建垂直數(shù)據(jù)表示,并計算項集支持度4.二進(jìn)制向量關(guān)聯(lián)分析算法:這類算法將原始數(shù)據(jù)轉(zhuǎn)換為二進(jìn)制向量,并使用邏輯運算和矩陣運算來代替數(shù)據(jù)掃描,從而提高了關(guān)聯(lián)分析的速度。該類算法的計算步驟為:①定義項集和二進(jìn)制向量的表示方法。例如,將項集中的每個項映射到一個二進(jìn)制向量的特定位置,如果該位置上的項在數(shù)據(jù)集中出現(xiàn),則對應(yīng)位置的值設(shè)為1,否則設(shè)為0。②計算項集之間的二進(jìn)制向量內(nèi)積。內(nèi)積越大,說明兩個項集之間的關(guān)聯(lián)性越強。設(shè)定最小支持度閾值,篩選頻繁項集。③進(jìn)一步分析頻繁項集之間的關(guān)系,生成關(guān)聯(lián)規(guī)則。例4-7、假設(shè)有一個小型超市的銷售數(shù)據(jù),記錄了5份交易的商品。交易1:{牛奶,面包,黃油}交易2:{牛奶,尿布,啤酒,雞蛋}交易3:{面包,黃油,尿布,啤酒}交易4:{牛奶,面包,尿布,雞蛋}交易5:{面包,牛奶,尿布,啤酒}。(交易數(shù)據(jù)與例4-4相同)3工業(yè)大數(shù)據(jù)關(guān)聯(lián)分析方法構(gòu)建垂直數(shù)據(jù)表示,并計算項集支持度試基于二進(jìn)制向量關(guān)聯(lián)分析算法找出商品之間的關(guān)聯(lián)規(guī)則,分析哪些商品經(jīng)常一起被購買?①將銷售數(shù)據(jù)轉(zhuǎn)換為二進(jìn)制向量的形式,如表4-6所示。表4-6二進(jìn)制銷售數(shù)據(jù)②計算項集之間的二進(jìn)制向量內(nèi)積,設(shè)置支持度閾值為0.4(即頻繁項集內(nèi)積結(jié)果大于等于2),得到滿足閾值的頻繁項集:P({牛奶})=[11011]?[11011]=4P({面包})=[10111]?[10111]=4P({尿布})=[01111]?[01111]=4P({啤酒})=[01101]?[01101]=3P({黃油})=[10100]?[10100]=23工業(yè)大數(shù)據(jù)關(guān)聯(lián)分析方法構(gòu)建垂直數(shù)據(jù)表示,并計算項集支持度P({雞蛋})=[01010]?[01010]=2P({牛奶,尿布})=[11011]?[01111]=3P({牛奶,啤酒})=[11011]?[01101]=2P({牛奶,雞蛋})=[11011]?[01010]=2P({面包,黃油})=[10111]?[01100]=2P({面包,尿布})=[10111]?[01111]=3P({面包,啤酒})=[10111]?[01101]=2P({尿布,啤酒})=[01111]?[01101]=3P({尿布,雞蛋})=[01111]?[01010]=2P({牛奶,面包})=[11011]?[10111]=33工業(yè)大數(shù)據(jù)關(guān)聯(lián)分析方法構(gòu)建垂直數(shù)據(jù)表示,并計算項集支持度得到的頻繁項集與例題4-3相同P({面包,尿布,啤酒})=[10111]?[01111]?[01101]=2P({牛奶,面包,尿布})=[11011]?[10111]?[01111]=2P({牛奶,尿布,啤酒})=[11011]?[01111]?[01101]=2P({牛奶,尿布,雞蛋})=[11011]?[01111]?[01010]=23工業(yè)大數(shù)據(jù)關(guān)聯(lián)分析方法構(gòu)建垂直數(shù)據(jù)表示,并計算項集支持度③生成關(guān)聯(lián)規(guī)則:關(guān)聯(lián)規(guī)則的一般形式是{X}—>{Y},其中X和Y是不相交的項集,并且X∪Y是一個頻繁項集。采用如例題4-4相同的方式生成關(guān)聯(lián)規(guī)則并分析。二進(jìn)制向量算法表示方式簡單直觀,易于理解和實現(xiàn),它利用向量內(nèi)積運算來快速計算項集之間的相似性,節(jié)省了遍歷消耗的時間和內(nèi)存,適用于處理大規(guī)模數(shù)據(jù)集。然而,連續(xù)變量轉(zhuǎn)換為二進(jìn)制變量無法完全保留原始數(shù)據(jù)信息,這可能會影響關(guān)聯(lián)規(guī)則挖掘的準(zhǔn)確性。此外,二進(jìn)制向量算法對噪聲和異常值可能較為敏感,前期需要進(jìn)行大量數(shù)據(jù)預(yù)處理工作。5.矩陣的關(guān)聯(lián)分析算法:這類算法使用矩陣數(shù)據(jù)結(jié)構(gòu)來表示數(shù)據(jù)項之間的關(guān)系,并通過矩陣運算來挖掘關(guān)聯(lián)規(guī)則。用于根據(jù)事物的兩個或多個重要屬性進(jìn)行分類關(guān)聯(lián)分析。基于矩陣的關(guān)聯(lián)分析算法的基本步驟如下:3工業(yè)大數(shù)據(jù)關(guān)聯(lián)分析方法構(gòu)建垂直數(shù)據(jù)表示,并計算項集支持度①構(gòu)建矩陣:根據(jù)分析目標(biāo),選擇合適的變量或指標(biāo),并構(gòu)建矩陣。矩陣的行和列分別代表不同的變量或指標(biāo),而矩陣中的元素則表示它們之間的關(guān)系或相似性度量。②計算關(guān)聯(lián)度:采用適當(dāng)?shù)年P(guān)聯(lián)度計算方法,計算矩陣中每對變量或指標(biāo)之間的關(guān)聯(lián)度。這些關(guān)聯(lián)度值將用于后續(xù)的分析。③關(guān)聯(lián)分析:根據(jù)計算得到的關(guān)聯(lián)度值,進(jìn)行關(guān)聯(lián)分析。例4-8、某電商平臺記錄了五種商品(A、B、C、D、E)在四個不同時間段(T1、T2、T3、T4)的銷售額數(shù)據(jù):A600500450550、B500400480420、C300320350450、D750700650600、E650550580620。通過矩陣關(guān)聯(lián)分析算法找出哪些商品在不同時間段內(nèi)具有銷售關(guān)聯(lián)性。解:3工業(yè)大數(shù)據(jù)關(guān)聯(lián)分析方法構(gòu)建垂直數(shù)據(jù)表示,并計算項集支持度①整理商品銷售額數(shù)據(jù),

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論