大數(shù)據(jù)探索性分析版課件第4章_第1頁(yè)
大數(shù)據(jù)探索性分析版課件第4章_第2頁(yè)
大數(shù)據(jù)探索性分析版課件第4章_第3頁(yè)
大數(shù)據(jù)探索性分析版課件第4章_第4頁(yè)
大數(shù)據(jù)探索性分析版課件第4章_第5頁(yè)
已閱讀5頁(yè),還剩52頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第四章 探索性數(shù)據(jù)分析方法第四章 探索性數(shù)據(jù)分析方法本章的主要內(nèi)容第1節(jié) 多維數(shù)據(jù)的可視化技術(shù)第2節(jié) 投影尋蹤第3節(jié) 獨(dú)立成分分析第4節(jié) 探索性數(shù)據(jù)分析案例第5節(jié) 探索性數(shù)據(jù)分析綜合應(yīng)用本章的主要內(nèi)容第1節(jié) 多維數(shù)據(jù)的可視化技術(shù)第1節(jié) 多維數(shù)據(jù)的可視化技術(shù)第1節(jié) 多維數(shù)據(jù)的可視化技術(shù)基于2變量的多維可視化技術(shù)目前采用基于2變量多維可視化技術(shù)的方法主要有散點(diǎn)圖矩陣等散點(diǎn)圖矩陣畫出多個(gè)變量?jī)蓛砷g的散點(diǎn)圖以考察多變量關(guān)系。如果給定p個(gè)變量,則可以通過創(chuàng)建一個(gè)包含p行p列的散點(diǎn)圖矩陣,其中的每行每列均唯一定義一個(gè)散點(diǎn)圖。利用散點(diǎn)圖矩陣,我們可以回答諸如兩個(gè)變量之間是否具有成對(duì)關(guān)系,數(shù)據(jù)當(dāng)中是否存在孤立

2、點(diǎn)以及數(shù)據(jù)當(dāng)中是否存在聚類等問題基于2變量的多維可視化技術(shù)目前采用基于2變量多維可視化技術(shù)的鳶尾花數(shù)據(jù)的散點(diǎn)圖矩陣下圖展示了鳶尾花數(shù)據(jù)在四個(gè)變量(花萼長(zhǎng)、花萼寬、花瓣長(zhǎng)、花瓣寬)下的分布形態(tài)鳶尾花數(shù)據(jù)的散點(diǎn)圖矩陣下圖展示了鳶尾花數(shù)據(jù)在四個(gè)變量(花萼長(zhǎng)基于多變量的多維可視化技術(shù)該技術(shù)是近來空間多維數(shù)據(jù)可視化技術(shù)的基礎(chǔ),它絕大部分都是采用通過高速圖形計(jì)算生成的彩色圖形來表示的。這種方法處理的數(shù)據(jù)量一般比較大,且可以處理復(fù)雜數(shù)據(jù)類型的多維信息?;诙嘧兞康亩嗑S可視化技術(shù)該技術(shù)是近來空間多維數(shù)據(jù)可視化技術(shù)Chernoff face方法美國(guó)統(tǒng)計(jì)學(xué)家Chernoff于20世紀(jì)70年代最早提出用臉譜來表示多

3、變量。按照Chernoff于1973年提出的畫法,采用15個(gè)指標(biāo),各指標(biāo)代表的面部特征為:1表示臉的范圍;2表示臉的形狀;3代表鼻子的長(zhǎng)度;4代表嘴的位置;5代表笑容曲線;6表示嘴的寬度;7-11分別表示眼睛的位置、分開程度、角度、形狀和寬度;12表示瞳孔的位置;13-15分別表示眉毛的位置、角度和寬度。根據(jù)各變量的取值,按照一定的數(shù)學(xué)函數(shù)關(guān)系,我們就可以確定臉的輪廓、形狀和五官的位置、形狀。Chernoff face方法美國(guó)統(tǒng)計(jì)學(xué)家Chernoff于Chernoff face方法Chernoff faces方法適合于在大量相似數(shù)據(jù)中發(fā)現(xiàn)奇異點(diǎn),或者根據(jù)表情對(duì)數(shù)據(jù)進(jìn)行聚類。不同的制圖者可能會(huì)對(duì)

4、同一變量選擇不同的臉譜部位,因此對(duì)于同樣的數(shù)據(jù),可能會(huì)產(chǎn)生不同的顯示結(jié)果。不足:無法表示數(shù)量很大的數(shù)據(jù)。Chernoff face方法Chernoff faces方平行坐標(biāo)法平行坐標(biāo)技術(shù)將多維數(shù)據(jù)點(diǎn)映射成二維平面上的折線且不損失信息,人們可以從折線的變化規(guī)律中發(fā)掘有價(jià)值的信息,顯得相對(duì)簡(jiǎn)便直觀。平行坐標(biāo)的基本思想是在二維空間中采用等距離的豎直的 個(gè)平行坐標(biāo)軸表示 維空間, 個(gè)變量值對(duì)應(yīng)到 個(gè)平行坐標(biāo)軸上,再將 個(gè)坐標(biāo)軸上的點(diǎn)用連續(xù)線段連接起來表示一個(gè)空間點(diǎn),這 條線段與 條坐標(biāo)軸相交的 個(gè)點(diǎn)分別代表了數(shù)據(jù)點(diǎn)的 維數(shù)據(jù)。連接 個(gè)坐標(biāo)軸上點(diǎn)的 條線段的折線可以用 個(gè)線性無關(guān)的方程所表示。平行坐標(biāo)法

5、平行坐標(biāo)技術(shù)將多維數(shù)據(jù)點(diǎn)映射成二維平面上的折線且不鳶尾花數(shù)據(jù)的平行坐標(biāo)圖鳶尾花數(shù)據(jù)的平行坐標(biāo)圖平行坐標(biāo)法的優(yōu)缺點(diǎn)優(yōu)點(diǎn):表達(dá)數(shù)據(jù)關(guān)系非常直觀,易于理解,能夠使用戶快速、簡(jiǎn)便地從傳統(tǒng)直角坐標(biāo)系轉(zhuǎn)換到平行坐標(biāo)系,而不必使用矢量或其它可視圖標(biāo)。缺點(diǎn):表達(dá)維數(shù)決定于屏幕的水平寬度,當(dāng)維數(shù)增加,引起垂直軸靠近,辨認(rèn)數(shù)據(jù)的結(jié)構(gòu)和關(guān)系稍顯困難,坐標(biāo)間的依賴關(guān)系很強(qiáng),垂直平行軸之間的安排序列性也是影響發(fā)現(xiàn)數(shù)據(jù)之間關(guān)系的重要因素,而且多維結(jié)構(gòu)也是復(fù)雜的。目前有很多對(duì)平行坐標(biāo)的改進(jìn)技術(shù),例如層次化的平行坐標(biāo)技術(shù)。平行坐標(biāo)法的優(yōu)缺點(diǎn)優(yōu)點(diǎn):表達(dá)數(shù)據(jù)關(guān)系非常直觀,易于理解,能夠基于平行坐標(biāo)數(shù)據(jù)可視化方法刷技術(shù)維數(shù)的控制數(shù)

6、據(jù)抽象維度放縮交換坐標(biāo)軸上鉆下卷基于平行坐標(biāo)數(shù)據(jù)可視化方法刷技術(shù)刷技術(shù)刷技術(shù)能夠在平行坐標(biāo)中將一部分折線突顯而使其他折線不明顯,如此能讓用戶更清晰直觀地了解局部數(shù)據(jù)變化規(guī)律,更好地對(duì)關(guān)注部分進(jìn)行集中分析。平行坐標(biāo)表示的多維數(shù)據(jù)集上,我們可以利用刷技術(shù)交互選擇數(shù)據(jù)區(qū)間和聚簇。常用的刷技術(shù)有兩種,基于角度的刷技術(shù)以及基于結(jié)構(gòu)的刷技術(shù)。刷技術(shù)刷技術(shù)能夠在平行坐標(biāo)中將一部分折線突顯而使其他折線不明刷技術(shù)基于角度的刷技術(shù)是根據(jù)相鄰的兩坐標(biāo)軸間線段的斜率范圍來確定需要刷的數(shù)據(jù)。在兩條線段夾角范圍內(nèi)的數(shù)據(jù)將被突顯,而沒有涉及到的數(shù)據(jù)將不明顯,便于用戶具有針對(duì)性的分析和研究?;诮Y(jié)構(gòu)的刷技術(shù)與平行坐標(biāo)形成結(jié)構(gòu)

7、有很大的關(guān)系。被刷出的數(shù)據(jù)能夠以不同的詳細(xì)程度顯示,數(shù)據(jù)范圍比較靈活,可以是分層結(jié)構(gòu)中的平均值,也可以是一段完整的區(qū)間范圍。通過基于結(jié)構(gòu)的刷技術(shù)能夠?qū)崿F(xiàn)將所選范圍內(nèi)的數(shù)據(jù)折線以更清晰的程序顯示出來。刷技術(shù)基于角度的刷技術(shù)是根據(jù)相鄰的兩坐標(biāo)軸間線段的斜率范圍來維數(shù)的控制在平行坐標(biāo)中,我們通過對(duì)數(shù)據(jù)屬性數(shù)量進(jìn)行控制,控制平行坐標(biāo)維數(shù),將我們關(guān)心的屬性顯示出來。這樣做的優(yōu)點(diǎn)是能夠減小平行坐標(biāo)圖的復(fù)雜程度,同時(shí)還能減低不重要數(shù)據(jù)對(duì)結(jié)果的干擾,便于我們更好地對(duì)數(shù)據(jù)進(jìn)行分析。刷技術(shù)突顯部分?jǐn)?shù)據(jù)但不減少維數(shù),因此,刷常被看作是行分解,而對(duì)維數(shù)的控制改變了坐標(biāo)的數(shù)量,因此被看作是列分解。維數(shù)的控制在平行坐標(biāo)中

8、,我們通過對(duì)數(shù)據(jù)屬性數(shù)量進(jìn)行控制,控制數(shù)據(jù)的抽象平行坐標(biāo)圖本身就是一個(gè)抽象圖形,它將多維數(shù)據(jù)抽象地表示在二維平面上,但是我們還可以對(duì)其進(jìn)行更高層次的抽象,即數(shù)據(jù)的平均值顯示,數(shù)據(jù)的平均值度量數(shù)據(jù)的中心趨勢(shì)。折線的抽象基于邊緣數(shù)據(jù)的匯總,在普通平行坐標(biāo)中,用一系列折線的平均值來取代這些折線。當(dāng)折線彼此交疊,數(shù)據(jù)直觀分析比較困難時(shí),用這種方式可以增強(qiáng)對(duì)數(shù)據(jù)變化趨勢(shì)的理解,減少折線帶來的混亂影響。數(shù)據(jù)的抽象平行坐標(biāo)圖本身就是一個(gè)抽象圖形,它將多維數(shù)據(jù)抽象地維放縮主要應(yīng)用在需要對(duì)局部數(shù)據(jù)放大觀察的情況下。比如在完成刷的操作后,刷出的數(shù)據(jù)范圍比較小,這時(shí)就可以將該子區(qū)域的數(shù)據(jù)用全局范圍來顯示,將局部放大

9、的平行坐標(biāo)圖與全局的平行坐標(biāo)圖結(jié)合起來觀察,可以避免對(duì)數(shù)據(jù)的片面理解。當(dāng)數(shù)據(jù)量小且分散時(shí),采用維縮小將更加易于集中觀察數(shù)據(jù)的變化趨勢(shì)。維放縮主要應(yīng)用在需要對(duì)局部數(shù)據(jù)放大觀察的情況下。交換坐標(biāo)軸交換坐標(biāo)軸可以把我們認(rèn)為屬性關(guān)系較密切的坐標(biāo)軸相鄰,更好地呈現(xiàn)屬性間的關(guān)系。在未知屬性間的關(guān)系時(shí),可以試探地調(diào)換坐標(biāo)軸次序,進(jìn)而發(fā)現(xiàn)不同屬性間隱含的關(guān)系。如果是p維數(shù)據(jù),有p個(gè)坐標(biāo)軸。根據(jù)排列組合,應(yīng)當(dāng)有p!種排列。然而,實(shí)際上有相當(dāng)多的冗余在這個(gè)排列中,讓相關(guān)的坐標(biāo)相鄰排列的最小組合實(shí)際上是(p+1)/2。交換坐標(biāo)軸交換坐標(biāo)軸可以把我們認(rèn)為屬性關(guān)系較密切的坐標(biāo)軸相鄰基于動(dòng)畫的多維可視化技術(shù)隨著計(jì)算機(jī)技術(shù)

10、的不斷發(fā)展,傳統(tǒng)的動(dòng)畫技術(shù)不僅可以用于簡(jiǎn)單的結(jié)果顯示,還能根據(jù)已知數(shù)據(jù)進(jìn)一步發(fā)現(xiàn)數(shù)據(jù)中隱藏的或者不可預(yù)測(cè)的重要信息。漫游法是典型的基于動(dòng)畫的多維可視化技術(shù)漫游法可以在二維空間平面上投影多維數(shù)據(jù),其基本思想主要是基于在高維數(shù)據(jù)空間中移動(dòng)投影平面的這樣一個(gè)簡(jiǎn)單構(gòu)思,即設(shè)計(jì)一個(gè)時(shí)間參數(shù),該參數(shù)類似于 維空間中的2個(gè)平面。也就是說,假設(shè)我們有 個(gè)變量的數(shù)據(jù),取出其中的一個(gè)變量作為動(dòng)畫的時(shí)間參數(shù),并且根據(jù)時(shí)間參數(shù)的變化,在二維空間的平面上迅速連續(xù)的投影其余的 個(gè)變量。基于動(dòng)畫的多維可視化技術(shù)隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,傳統(tǒng)的動(dòng)畫漫游法的特點(diǎn)(一)在所有的二維子空間中,漫游法所獲得的投影平面序列應(yīng)當(dāng)是稠密的

11、。(二)投影平面序列應(yīng)當(dāng)是均勻分布的。(三)投影平面序列應(yīng)當(dāng)是連續(xù)的,這將有助于分析人員的理解以及可視化效果。(四)在漫游結(jié)束以后,分析人員應(yīng)當(dāng)能夠?qū)⑼队捌矫孢M(jìn)行重構(gòu)。漫游法的特點(diǎn)(一)在所有的二維子空間中,漫游法所獲得的投影平漫游法漫游法通過將高維數(shù)據(jù)投影到二維子空間,形成一系列的散點(diǎn)圖,使得分析人員能夠從各個(gè)角度來觀察數(shù)據(jù)的結(jié)構(gòu)或者特征。漫游法的輸出結(jié)果是一組動(dòng)態(tài)展示的二維散點(diǎn)圖,當(dāng)分析人員從動(dòng)畫中看到感興趣的結(jié)構(gòu)或特征時(shí),可以將其暫停并進(jìn)行數(shù)據(jù)重構(gòu)。漫游法的兩種算法:環(huán)繞法(Torus Winding Method)和偽漫游法漫游法漫游法通過將高維數(shù)據(jù)投影到二維子空間,形成一系列的散點(diǎn)第

12、2節(jié) 投影尋蹤第2節(jié) 投影尋蹤認(rèn)識(shí)投影尋蹤投影尋蹤方法能夠成功地克服高維數(shù)據(jù)的“維數(shù)禍根”所帶來的嚴(yán)重困難。投影尋蹤方法惡意排除與數(shù)據(jù)結(jié)構(gòu)無關(guān),或關(guān)系很小的變量的干擾。投影尋蹤方法為使用一維統(tǒng)計(jì)方法解決高維問題開辟了用武之地。投影尋蹤方法與其他非參數(shù)方法一樣,可以用來解決某些非線性問題。一些傳統(tǒng)的多元統(tǒng)計(jì)分析方法是投影尋蹤方法的特例。認(rèn)識(shí)投影尋蹤投影尋蹤方法能夠成功地克服高維數(shù)據(jù)的“維數(shù)禍根”認(rèn)識(shí)投影尋蹤投影尋蹤的分析目的是通過將高維數(shù)據(jù)投影到低維空間上的結(jié)合分布形態(tài),發(fā)現(xiàn)感興趣的投影方向。其基本思想是通過極大化(極小化)選定的投影指標(biāo),尋找能夠反應(yīng)原始高維數(shù)據(jù)結(jié)構(gòu)或特征的投影方向,將高維數(shù)據(jù)

13、在這個(gè)方向上投影到低維空間,再在低維空間上對(duì)數(shù)據(jù)進(jìn)行分析,以達(dá)到研究和分析高維數(shù)據(jù)的目的。認(rèn)識(shí)投影尋蹤投影尋蹤的分析目的是通過將高維數(shù)據(jù)投影到低維空間投影尋蹤的基本算法投影尋蹤的基本算法投影指標(biāo)考慮用一個(gè)量化的指標(biāo)來尋找一個(gè)能最大可能地體現(xiàn)數(shù)據(jù)有意義的結(jié)構(gòu)與特征的方向,這個(gè)量化的指標(biāo)稱作投影指標(biāo),它是用來衡量投影到低維空間上的數(shù)據(jù)是否有意義的目標(biāo)函數(shù)。在使用優(yōu)化算法優(yōu)化投影指標(biāo)時(shí),投影指標(biāo)就是目標(biāo)函數(shù)。投影尋蹤就是要找到一個(gè)或若干個(gè)投影方向,使投影指標(biāo)值達(dá)到最大(或最?。?。投影指標(biāo)分為三類:位移、尺度同變;位移不變、尺度同變;放射不變。投影指標(biāo)考慮用一個(gè)量化的指標(biāo)來尋找一個(gè)能最大可能地體現(xiàn)數(shù)據(jù)

14、有幾種常見的投影指標(biāo)方差投影指標(biāo)K-L絕對(duì)信息散度Friedman-Tukey指標(biāo)一階熵投影指標(biāo)Friedman投影指標(biāo)Hall指標(biāo)Cook投影指標(biāo)族PPDA指標(biāo)幾種常見的投影指標(biāo)方差投影指標(biāo)算法根據(jù)實(shí)際問題的分析目的選定投影指標(biāo)后,可以使用具體的算法來優(yōu)化投影指標(biāo),從而獲得感興趣的投影方向常見的算法包括遺傳算法、粒子群優(yōu)化算法等算法根據(jù)實(shí)際問題的分析目的選定投影指標(biāo)后,可以使用具體的算法遺傳算法遺傳算法以生物進(jìn)化過程為背景,模擬生物進(jìn)化的步驟,將繁殖、雜交、變異、競(jìng)爭(zhēng)和選擇等概念引入到算法中,通過維持一組可行解,并通過對(duì)可行解的重新組合,改進(jìn)可行解在多維空間內(nèi)的移動(dòng)軌跡或趨向,最終走向最優(yōu)解

15、。它克服了傳統(tǒng)優(yōu)化方法容易陷入局部極值的缺點(diǎn),是一種全局優(yōu)化算法。遺傳算法遺傳算法以生物進(jìn)化過程為背景,模擬生物進(jìn)化的步驟,將遺傳算法編碼方式 基于聚類劃分的整數(shù)編碼方式適應(yīng)度函數(shù)選擇操作 輪盤賭選擇法交叉變異過程遺傳算法編碼方式粒子群算法粒子群算法(particle swarm optimization,簡(jiǎn)稱PSO)可用于解決大量非線性、不可微和多峰值的復(fù)雜優(yōu)化問題。PSO有較強(qiáng)的全局搜索能力,但同時(shí)也有容易陷入局部極值導(dǎo)致的收斂精度低和不易收斂到全局最優(yōu)的缺點(diǎn)。PSO是一種基于進(jìn)化計(jì)算和群智能的算法,每個(gè)優(yōu)化問題的解看作搜索空間中的一個(gè)粒子,粒子的位置代表優(yōu)化問題在搜索空間中的潛在解,粒子

16、的速度決定他們飛行的方向和距離,所有的粒子都有一個(gè)被優(yōu)化的函數(shù)決定的適應(yīng)值。粒子群算法粒子群算法(particle swarm opti第3節(jié) 獨(dú)立成分分析第3節(jié) 獨(dú)立成分分析認(rèn)識(shí)獨(dú)立主成分分析CA最初所希望解決的問題是著名的雞尾酒會(huì)問題(cocktailpartyproblem)。假設(shè)在一個(gè)房間內(nèi)有兩個(gè)人同時(shí)講話,在房間的不同位置有兩個(gè)麥克風(fēng),而每個(gè)麥克風(fēng)記錄下來的是兩個(gè)人聲音信號(hào)的混合。我們的問題是:如何僅利用麥克風(fēng)的混合聲音信息來獲得每個(gè)講話者所說的話(即源信號(hào))?人類復(fù)雜的聽覺系統(tǒng)可以很好的解決這個(gè)問題,將注意力集中于一個(gè)說話者,人們可以聽出他所說的話。但如何利用計(jì)算機(jī)或利用機(jī)器,使其

17、智能化,來模仿人類并有效的解決這個(gè)問題?認(rèn)識(shí)獨(dú)立主成分分析CA最初所希望解決的問題是著名的雞尾酒會(huì)問獨(dú)立成分分析基本原理獨(dú)立成分分析基本原理獨(dú)立成分分析獨(dú)立成分分析的假設(shè)條件各個(gè)成分之間是相互統(tǒng)計(jì)獨(dú)立的。獨(dú)立成分是服從非高斯分布的。假設(shè)混合矩陣是方陣。獨(dú)立成分分析無法確定的因素不能確定獨(dú)立成分的方差(能量)。不能確定獨(dú)立成分的順序。獨(dú)立成分分析獨(dú)立成分分析的假設(shè)條件獨(dú)立成分分析數(shù)據(jù)的中心化可以假設(shè)混合變量和獨(dú)立成分是零均值的。如果零均值并不成立,我們可以通過預(yù)處理來達(dá)到這個(gè)條件。一般的,我們使用中心化觀測(cè)變量這一技術(shù),即減去樣本均值。混合矩陣在預(yù)處理之后保持不變,因此我們可以進(jìn)行中心化而不影響

18、混合矩陣的估計(jì)。獨(dú)立成分分析數(shù)據(jù)的中心化可以假設(shè)混合變量和獨(dú)立成分是零均不相關(guān)和白化獨(dú)立和不相關(guān)(uncorrelated)是緊密相關(guān)的概念,因此,可以設(shè)想使用估計(jì)不相關(guān)變量的方法來同樣估計(jì)獨(dú)立成分,這樣的典型方法為白化(whitening)或球化(sphering),通常由主成分分析來進(jìn)行。但用這樣的方法來估計(jì)獨(dú)立成分通常是不可行的,一般的,白化是以獨(dú)立成分分析的預(yù)處理技術(shù)身份出現(xiàn)的。不相關(guān)是獨(dú)立的較弱形式,兩個(gè)隨機(jī)變量 和 是不相關(guān)的,如果它們的協(xié)方差是零。白化的隨機(jī)向量 指的是它的各分量是不相關(guān)的,并且具有單位方差。不相關(guān)和白化獨(dú)立和不相關(guān)(uncorrelated)是緊密相獨(dú)立成分分析

19、估計(jì)原理和估計(jì)方法估計(jì)原理非線性不相關(guān)性極大化非高斯性估計(jì)方法極大似然估計(jì)方法信息極大化方法互信息極小化方法非高斯性極大化方法獨(dú)立成分分析估計(jì)原理和估計(jì)方法估計(jì)原理獨(dú)立成分分析應(yīng)用案例分析同一連鎖店中若干商店的現(xiàn)金流轉(zhuǎn),試圖找到影響商店現(xiàn)金流量的一些公共基本因素,由此可以分析這些因素對(duì)任何一個(gè)特定商店的影響,即管理行為對(duì)個(gè)體店的具體所在環(huán)境下帶來的具體后果。數(shù)據(jù)為同一個(gè)零售連鎖品牌下40個(gè)商店的周現(xiàn)金流量,時(shí)間跨度為140周。利用FastICA算法對(duì)原始數(shù)據(jù)估計(jì)出4個(gè)獨(dú)立成分。獨(dú)立成分分析應(yīng)用案例分析同一連鎖店中若干商店的現(xiàn)金流轉(zhuǎn),第4節(jié) 探索性數(shù)據(jù)分析案例第4節(jié) 探索性數(shù)據(jù)分析案例數(shù)據(jù)來源與

20、說明Fernande提供的數(shù)據(jù)集抓取了2015年1月8日Mashable網(wǎng)站上所刊載的所有新聞博客文章,并提取出文章的基本信息,包括文章的分享數(shù)、標(biāo)題包含的詞匯數(shù)、正文包含的詞匯數(shù)、文章包含的視頻數(shù),等等。在正式建模之前,應(yīng)首先了解數(shù)據(jù)集的基本規(guī)律。使用R繪制變量之間的相關(guān)圖datamcorcorrplot(mcor,order=hclust)#相關(guān)矩陣圖數(shù)據(jù)來源與說明Fernande提供的數(shù)據(jù)集抓取了2015年1描述性分析從圖中可以看到,變量之間有著明顯的相關(guān)性,部分變量基本可以歸為一類。描述性分析從圖中可以看到,變量之間有著明顯的相關(guān)性,部分變量建模過程#對(duì)發(fā)布頻道進(jìn)行分析chfor(ii

21、n1:6)chdata.channel,i=1,boxplot(sharesch,main=BoxplotofSharesvs.Channel)#繪制箱線圖ch1aov1summary(aov1)#對(duì)發(fā)布時(shí)間進(jìn)行分析wkfor(iin1:7)wkdata.weekday,i=1,boxplot(shareswk,main=BoxplotofSharesvs.Weekday)#繪制箱線圖wk1aov2summary(aov2) 建模過程#對(duì)發(fā)布頻道進(jìn)行分析建模過程不同發(fā)布頻道的文章對(duì)應(yīng)的關(guān)注度有著顯著差異不同星期日時(shí)的文章分享數(shù)存在顯著差異建模過程不同發(fā)布頻道的文章對(duì)應(yīng)的關(guān)注度有著顯著差異建模過

22、程由于定量自變量個(gè)數(shù)眾多,以下將通過投影尋蹤分析對(duì)自變量的數(shù)據(jù)規(guī)律進(jìn)行探索。因而,我們?cè)赗中選擇KurtosisMin這個(gè)投影指標(biāo), 使用PSO算法,經(jīng)過20次仿真,得到使得峰度最小的排名前5個(gè)投影方向。對(duì)目標(biāo)變量和5個(gè)投影變量做回歸分析。建模過程由于定量自變量個(gè)數(shù)眾多,以下將通過投影尋蹤分析對(duì)自變結(jié)論和建議1.文章標(biāo)題及文章主題。讀者在點(diǎn)擊或分享一篇文章時(shí),往往先關(guān)注的是一篇文章的標(biāo)題或主題。文章標(biāo)題的客觀性越強(qiáng),對(duì)立性越強(qiáng),文章越容易獲得較高的關(guān)注度,而與特定主題模型相關(guān)度高的文章也往往可以獲得更高關(guān)注。對(duì)應(yīng)的網(wǎng)站如果想提升其文章的關(guān)注度,可以首先在文章的題目和主題上做文章。2.發(fā)布頻道與

23、發(fā)布時(shí)間。對(duì)定性變量的分析結(jié)果顯示,不同頻道、不同時(shí)間發(fā)布的文章關(guān)注度存在顯著差異。發(fā)布頻道的差異有利于網(wǎng)站方更好地獲知用戶的偏好,發(fā)布時(shí)間的差異則有利于網(wǎng)站更好地把握文章關(guān)注度的時(shí)間規(guī)律,在特定的時(shí)間推出有影響力的文章。結(jié)論和建議1.文章標(biāo)題及文章主題。讀者在點(diǎn)擊或分享一篇文章時(shí)第5節(jié) 探索性數(shù)據(jù)分析綜合應(yīng)用第5節(jié) 探索性數(shù)據(jù)分析綜合應(yīng)用數(shù)據(jù)說明手機(jī)問卷數(shù)據(jù)是通過設(shè)計(jì)手機(jī)問卷,得到的人們對(duì)于不同品牌手機(jī)用戶的滿意度調(diào)查結(jié)果,調(diào)查人數(shù)為106人,每人對(duì)三星、蘋果、HTC、華為四個(gè)品牌手機(jī)的滿意度進(jìn)行調(diào)查,最終獲得了424個(gè)樣本數(shù)據(jù)。數(shù)據(jù)包含32個(gè)變量,其中前28個(gè)問題是使用7級(jí)李克特量表(1表示非常不同意,7表示非常同意),對(duì)手機(jī)的28個(gè)方面進(jìn)行打分得到。數(shù)據(jù)說明手機(jī)問卷數(shù)據(jù)是通過設(shè)計(jì)手機(jī)問卷,得到的人們對(duì)于不同品描述性分析將Q1Q28提取到data1數(shù)據(jù)集中,首先對(duì)數(shù)據(jù)集進(jìn)行簡(jiǎn)單的描述性分析,觀察到箱線圖中有三個(gè)明顯的異常值,需要對(duì)數(shù)據(jù)進(jìn)行清洗。描述性分析將Q1Q28提取到data1數(shù)據(jù)集中,首先對(duì)數(shù)據(jù)數(shù)據(jù)清洗首先對(duì)填補(bǔ)缺失值,通過is.na()查找缺失值,發(fā)現(xiàn)Q4和Q15中存在缺失值,使用隨機(jī)插補(bǔ)法對(duì)缺失值進(jìn)行隨機(jī)插補(bǔ),得到完整的數(shù)據(jù)集data1。接下來對(duì)異常值進(jìn)行處理。由于自變量應(yīng)該全都是17之間的整數(shù)取值,因此構(gòu)造error變量,找出Q8,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論