Python數(shù)據(jù)挖掘算法與應(yīng)用 課件 第4章 數(shù)據(jù)的描述與可視化_第1頁
Python數(shù)據(jù)挖掘算法與應(yīng)用 課件 第4章 數(shù)據(jù)的描述與可視化_第2頁
Python數(shù)據(jù)挖掘算法與應(yīng)用 課件 第4章 數(shù)據(jù)的描述與可視化_第3頁
Python數(shù)據(jù)挖掘算法與應(yīng)用 課件 第4章 數(shù)據(jù)的描述與可視化_第4頁
Python數(shù)據(jù)挖掘算法與應(yīng)用 課件 第4章 數(shù)據(jù)的描述與可視化_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

DescriptionandVisualizationofData第4章數(shù)據(jù)的描述與可視化概述4.2學(xué)習(xí)目標(biāo)4.14.34.44.5數(shù)據(jù)對象與屬性類型數(shù)據(jù)的基本統(tǒng)計(jì)描述數(shù)據(jù)對象的相似性度量數(shù)據(jù)可視化1概述Summarize4.1數(shù)據(jù)描述從提取信息的角度來看,當(dāng)我們采集到一堆雜亂無章的數(shù)據(jù)后,首先需要科學(xué)合理地描述這些信息。例如,對于連續(xù)變量數(shù)據(jù)進(jìn)行分析時(shí),可以用百分位值、集中趨勢、離散趨勢和數(shù)據(jù)分布的統(tǒng)計(jì)量來描述;對于分析數(shù)據(jù)向其中心值聚集的程度這類問題時(shí),可以通過平均值、中位數(shù)和眾數(shù)等數(shù)據(jù)來描述;對于討論數(shù)據(jù)遠(yuǎn)離中心值程度的這些問題時(shí),可以通過范圍、標(biāo)準(zhǔn)差和方差等數(shù)據(jù)來描述;對于樣本量較大情況下連續(xù)變量的研究,有時(shí)在數(shù)據(jù)描述時(shí)會提前提出假設(shè),認(rèn)為數(shù)據(jù)應(yīng)當(dāng)服從某種分布,可以采用一系列的指標(biāo)來描述數(shù)據(jù)離散分布的程度。在數(shù)據(jù)描述方面,中學(xué)講得比較多的是統(tǒng)計(jì)圖表,有時(shí)我們還需要用列表,畫圖來描述,這就是數(shù)據(jù)的可視化問題,因此利用可視化反應(yīng)信息是一種非常重要的數(shù)據(jù)描述方法。同時(shí)也要注意到不同的數(shù)據(jù)圖和表反應(yīng)的信息是不一樣的。比如對數(shù)據(jù)分類時(shí),如果需要了解數(shù)據(jù)分布,則可以選擇條形圖;如果需要了解數(shù)據(jù)結(jié)構(gòu),則選擇餅圖;而對于連續(xù)數(shù)據(jù),也可以選擇直方圖。數(shù)據(jù)可視化數(shù)據(jù)可視化數(shù)據(jù)可視化(DataVisualization)是借助于圖形化手段,清晰有效地表達(dá)數(shù)據(jù)信息。數(shù)據(jù)可視化的客體是數(shù)據(jù),它是以數(shù)據(jù)為工具,可視化為手段,目的是描述真實(shí)的世界和探索世界。常用數(shù)據(jù)可視化工具:Tableau可以幫助用戶快速分析、可視化并分享信息。QlikView是一個(gè)完整的商業(yè)分析軟件,使開發(fā)者和分析者能夠構(gòu)建和部署強(qiáng)大的分析應(yīng)用。DataFocus是一款新型的商業(yè)智能產(chǎn)品,主要用于智能的大數(shù)據(jù)分析領(lǐng)域。FineBI支持多種視圖對數(shù)據(jù)表進(jìn)行可視化管理?,F(xiàn)代數(shù)據(jù)可視化技術(shù)指的是運(yùn)用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換為圖形或圖像在屏幕上顯示出來,并進(jìn)行交互處理的理論、方法和技術(shù)。它涉及到計(jì)算機(jī)圖形學(xué)、圖像處理、計(jì)算機(jī)輔助設(shè)計(jì)、計(jì)算機(jī)視覺和人機(jī)交互技術(shù)等多個(gè)領(lǐng)域。在數(shù)據(jù)分析的初始階段,通常都要進(jìn)行可視化處理。Python數(shù)據(jù)可視化是利用matplotlib,它是建立在Numpy之上的一個(gè)Python圖庫,包括了很多繪圖函數(shù),類似Matlab的繪圖框架。2數(shù)據(jù)對象與屬性類型DataObjectandAttributeTypes4.2數(shù)據(jù)對象(DataObject)是指客觀存在并且可以相互區(qū)別事物的數(shù)據(jù)描述。又稱為樣本或?qū)嵗?。?shù)據(jù)對象可以是外部實(shí)體(如產(chǎn)生或使用信息的任何事物)、事物(如報(bào)表)、行為(如打電話)、事件(如響警報(bào))、角色(如教師、學(xué)生)、單位(如會計(jì)科)、地點(diǎn)(如倉庫)或結(jié)構(gòu)(如文件)的數(shù)據(jù)描述等。總之,可以由一組屬性值來確定的實(shí)體都可以被認(rèn)為是數(shù)據(jù)對象。數(shù)據(jù)對象例如,一個(gè)班級只有一個(gè)班長,而每個(gè)班長只在一個(gè)班級任職,則班級對象與班長對象的聯(lián)系是一對一的。(1)一對一聯(lián)系(1∶1)例如,一個(gè)班級有多名學(xué)生,而每名學(xué)生只屬于一個(gè)班級,則班級對象與學(xué)生對象的聯(lián)系是一對多的。(2)一對多聯(lián)系(1∶N)例如,一名學(xué)生可以學(xué)習(xí)多門課程,而每一門課程又可以有多名學(xué)生來學(xué),則學(xué)生對象和課程對象之間的聯(lián)系是多對多的。(3)多對多聯(lián)系(M∶N)數(shù)據(jù)對象彼此之間相互連接的方式稱為聯(lián)系,也稱為關(guān)系。聯(lián)系可分為以下3種類型:屬性與屬性類型屬性(Attribute)是一個(gè)數(shù)據(jù)字段,表示數(shù)據(jù)對象的一個(gè)特征。數(shù)據(jù)對象可以由若干個(gè)屬性來描述,但屬性具有原子性,不可再分解。例如,學(xué)生是一個(gè)數(shù)據(jù)對象,可以由屬性(字段)學(xué)號、姓名、性別、出生日期、專業(yè)等來描述。一個(gè)屬性的類型由該屬性可能具有的值集合決定,一般分為兩大類,一類是定性描述的屬性,即用文字語言進(jìn)行相關(guān)描述的屬性,如標(biāo)稱屬性、二元屬性和序數(shù)屬性等;另一類是定量描述的屬性,即用數(shù)學(xué)語言進(jìn)行描述的屬性,可以是整數(shù)值或連續(xù)值。標(biāo)準(zhǔn)屬性標(biāo)稱屬性(NominalAttribute)的值是一些符號或事物名稱。每個(gè)值代表某種類別、編碼或狀態(tài),因此標(biāo)稱屬性又被看做是分類的(Categorical)。標(biāo)稱屬性的值是枚舉的,可以用數(shù)字表示這些符號或名稱。如姓名、性別、籍貫、郵政編碼或婚姻狀態(tài)等。標(biāo)稱屬性的值不僅僅是不同的名字,它提供了足夠的信息用于區(qū)分對象。鑒于標(biāo)稱屬性值并不具有有意義的序,因此統(tǒng)計(jì)它的中位數(shù)和均值是沒有意義的,但是可以找出某個(gè)出現(xiàn)次數(shù)最多的值。比如,出現(xiàn)次數(shù)最多的姓名等,這個(gè)就可以用眾數(shù)(Mode)來表示。因此,標(biāo)稱屬性的中心趨勢度量一般是眾數(shù)。屬性與屬性類型二元屬性分為對稱的和非對稱的:(1)對稱的二元屬性:如果兩種狀態(tài)具有同等價(jià)值,并且攜帶相同權(quán)重。如拋硬幣的結(jié)果狀態(tài),出生嬰兒的性別屬性等,分別用0和1表示。(2)非對稱的二元屬性:兩種狀態(tài)的結(jié)果不是同等重要的。如新冠肺炎核酸檢測的陽性和陰性結(jié)果。為了方便研究,通常將重要結(jié)果(通常是稀有的)的編碼置為1,非重要結(jié)果的編碼置為0。二元屬性二元屬性(BinaryAttribute)是標(biāo)稱屬性的特例,只有兩個(gè)狀態(tài):0或1,其中0通常表示該屬性不出現(xiàn),1表示該屬性出現(xiàn)。常見的二元屬性如拋一枚硬幣是正面朝上還是反面朝上,新冠肺炎的核酸檢測結(jié)果為陰性還是陽性等。二元屬性又稱布爾屬性,兩種狀態(tài)分別對應(yīng)False和True。屬性與屬性類型序數(shù)屬性序數(shù)屬性(OrdinalAttribute)的可能值之間存在有意義的序或秩評定,但是相繼值之間的差是未知的,也就是說對應(yīng)的值有先后次序。如五級評分標(biāo)準(zhǔn):優(yōu)秀(90≤X≤100)、良好(80≤X<90)、中等(70≤X<80)、及格(60≤X<70)和不及格(X<60)等,這些值都具有有意義的先后次序,因此也可以用數(shù)字如1、2、3、4、5分別對應(yīng)屬性的取值。序數(shù)屬性可以通過把數(shù)值量的值域劃分成有限個(gè)有序類別,如客戶滿意度評價(jià):0-很不滿意、1-不滿意、2-中性、3-滿意、4-很滿意等,即可以把數(shù)值屬性離散化。由于序數(shù)屬性是有序的,它的中位數(shù)是有意義的,因此序數(shù)屬性的中心趨勢度量可以是眾數(shù)和中位數(shù)。標(biāo)稱數(shù)屬、二元數(shù)屬和序數(shù)屬性都是定性的,所以它們只能描述對象的特征,而不能給出實(shí)際大小或數(shù)值。屬性與屬性類型數(shù)值屬性離散屬性與連續(xù)屬性數(shù)值屬性(NumericAttribute)是可以度量的量,用整數(shù)或?qū)崝?shù)值表示,如成績、年齡、體重等。數(shù)值屬性分為區(qū)間標(biāo)度和比率標(biāo)度兩類,區(qū)分的原則主要是該屬性是否有固有的零點(diǎn)。區(qū)間標(biāo)度屬性(Interval-scaledAttribute):用相等的單位尺度度量,區(qū)間屬性的值有序,取值可以為正、0、負(fù)。如溫度屬性表示為:-7℃~+3℃。比率標(biāo)度屬性(Ratiao-scaledAttribute):具有固定零點(diǎn)的數(shù)值屬性,比值有意義。如重量、高度、速度和貨幣量等屬性。由于比率標(biāo)度數(shù)據(jù)屬性值是有序的,因此可以計(jì)算均值、方差、中位數(shù)、眾數(shù)等。機(jī)器學(xué)習(xí)中的分類算法通常把屬性分為離散的和連續(xù)的。離散屬性(DiscreteAttribute)是指具有有限個(gè)或無限個(gè)可數(shù)個(gè)數(shù)的屬性。如年齡(有限個(gè)值)、顧客編號(無限可數(shù))等屬性。連續(xù)屬性(ContinuousAttribute)是指非離散屬性的那些屬性。如人的身高屬性取值是連續(xù)的。連續(xù)值是有范圍的。在實(shí)踐中,實(shí)數(shù)值用有限位數(shù)字表示,連續(xù)屬性一般用浮點(diǎn)變量表示。3數(shù)據(jù)的基本統(tǒng)計(jì)描述BasicStatisticalDescriptionofTheData4.3中心趨勢度量均值數(shù)據(jù)集“中心”的最常用的數(shù)值度量是(算術(shù))均值(MeanValue)。設(shè)某屬性X的N個(gè)觀測值為x1,x2,…,xN,則該集合的均值(Mean)為:中心趨勢在統(tǒng)計(jì)學(xué)中是指一組數(shù)據(jù)向某一中心值靠攏的程度,它反映了一組數(shù)據(jù)中心點(diǎn)的位置所在。中心趨勢度量就是尋找數(shù)據(jù)水平的代表值或中心值。中心趨勢度量包括均值、中位數(shù)、眾數(shù)和中列數(shù)。在實(shí)際問題中,對于X的每個(gè)xi可以與一個(gè)權(quán)重

關(guān)聯(lián)。權(quán)重反映它們所依附對應(yīng)值的重要性或出現(xiàn)的頻率。當(dāng)各項(xiàng)權(quán)重不相等時(shí),計(jì)算平均數(shù)時(shí)就要采用加權(quán)平均數(shù)(WeighedMean)。式(4-2)說明了加權(quán)平均值的大小不僅取決于總體中各單位數(shù)值的大小,而且取決于各數(shù)值出現(xiàn)的次數(shù)(頻數(shù))。(4-1)(4-2)中心趨勢度量中位數(shù)中位數(shù)(Median)又稱中點(diǎn)數(shù)或中值,它是按順序排列的一組數(shù)據(jù)中居于中間位置的數(shù)。即在這組數(shù)據(jù)中,有一半的數(shù)據(jù)比它大,另一半的數(shù)據(jù)比它小。在概率論與統(tǒng)計(jì)學(xué)中,中位數(shù)一般用于數(shù)值型數(shù)據(jù),在數(shù)據(jù)挖掘中可以把中位數(shù)推廣到序數(shù)型數(shù)據(jù)中。假定有某屬性X的N個(gè)值按遞增順序排列,如果N是奇數(shù),則中位數(shù)是該有序數(shù)列的中間值;如果N是偶數(shù),則中位數(shù)是中間兩個(gè)值的任意一個(gè)。對數(shù)值型區(qū)間,一般約定中位數(shù)取中間兩個(gè)數(shù)的平均值,中間數(shù)位置如式(4-3)所示。

(4-3)中心趨勢度量眾數(shù)眾數(shù)(Mode)是一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)值,可以對定性和定量型屬性確定眾數(shù)。眾數(shù)是一種位置平均數(shù),是總體中出現(xiàn)次數(shù)最多的變量值。從分布的角度看,眾數(shù)是具有明顯集中趨勢點(diǎn)的數(shù)值,一組數(shù)據(jù)分布最高峰點(diǎn)所對應(yīng)的數(shù)值即為眾數(shù)。有時(shí)眾數(shù)在一組數(shù)中有好幾個(gè)。具有一個(gè)、兩個(gè)或三個(gè)眾數(shù)的數(shù)據(jù)集分別稱為單峰(Unimodal)、雙峰(Bimodal)和三峰(Trimodal)。一般具有兩個(gè)或兩個(gè)以上眾數(shù)的數(shù)據(jù)集稱為多峰的(Multimodal)。在極端情況下,如果每個(gè)數(shù)值只出現(xiàn)一次則它沒有眾數(shù)。其中L表示眾數(shù)所在的下限;Δ1表示眾數(shù)所在組次數(shù)與其下限的鄰組次數(shù)之差;Δ2表示眾數(shù)所在組次數(shù)與其上限的鄰組次數(shù)之差;d表示所在組組距。對于非對稱的單峰型數(shù)據(jù)集,一般有下面的經(jīng)驗(yàn)關(guān)系:mean-mode≈3×(mean-median)。中列數(shù)中列數(shù)(Midrange)在統(tǒng)計(jì)中指的是數(shù)據(jù)集里最大值和最小值的算術(shù)平均值,也可以度量數(shù)值數(shù)據(jù)的中心趨勢。(4-4)例4.1某企業(yè)50名工人日加工零件的數(shù)據(jù)如表4.1所示,分別計(jì)算加工零件數(shù)值的均值、中位數(shù)和眾數(shù)。表4.1加工零件數(shù)統(tǒng)計(jì)表按零件數(shù)分組(個(gè))頻數(shù)(人)105~1103110~1155115~1208120~12514125~13010130~1356135~1404

例4.2利用Python求均值、中位數(shù)和眾數(shù)。importpandasaspdimportnumpyasnpss=pd.Series(np.random.randint(8,size=18))

#生成0~7的18個(gè)整數(shù)print(ss)print('均值:\n',ss.mean())print('中位數(shù):\n',ss.median())print('眾數(shù):\n',ss.mode())數(shù)據(jù)散布的度量數(shù)據(jù)散布的度量用于評估數(shù)值數(shù)據(jù)散布或發(fā)散的程度。散布度量的測定是對統(tǒng)計(jì)資料分散狀況的測定,即找出各個(gè)變量值與集中趨勢的偏離程度。通過度量散布趨勢,可以清楚地了解一組變量值的分布情況。數(shù)據(jù)散布的度量包括極差、分位數(shù)、四分位數(shù)、百分位數(shù)和四分位數(shù)極差。五數(shù)概括可以用盒圖顯示,它對于識別離群點(diǎn)是有用的;方差和標(biāo)準(zhǔn)差也可以反映數(shù)據(jù)分布的散布狀況。極差(Range)又稱范圍誤差或全距,是一組觀測值的最大值與最小值之間的差距。它是標(biāo)志值變動的最大范圍,是測定標(biāo)志變動的最簡單指標(biāo)。極差沒有充分利用數(shù)據(jù)的信息,但計(jì)算十分簡單,僅適用樣本容量較小(n<10)情況。分位數(shù)又稱分位點(diǎn),是指將一個(gè)隨機(jī)變量的概率分布范圍分為幾個(gè)等份的數(shù)值點(diǎn),常用的有中位數(shù)(即二分位數(shù))、四分位數(shù)和百分位數(shù)等。四分位數(shù)是將全部數(shù)據(jù)由小到大(或由大到?。┡判蚝?,用3個(gè)點(diǎn)將全部數(shù)據(jù)分為4等份,與這3個(gè)點(diǎn)位置上相對應(yīng)的數(shù)值稱為四分位數(shù),分別記為Q1(下四分位數(shù),25%)、Q2(中位數(shù),50%)、Q3(上四分位數(shù),75%)。其中,Q3到Q1之間距離差的一半又稱為半四分位差,半四分位差越小,說明中間部分的數(shù)據(jù)越集中;半四分位差越大,則意味著中間部分的數(shù)據(jù)越分散。Q1和Q3之間的距離是散布的一種簡單度量,它給出被數(shù)據(jù)的中間一半所覆蓋的范圍。該距離稱為四分位數(shù)極差(IQR),定義為:IQR=Q3-Q1極差、四分位數(shù)和四分位數(shù)極差數(shù)據(jù)散布的度量例4.3在一個(gè)班級中隨機(jī)抽取10名學(xué)生,得到每名學(xué)生的英語考試分?jǐn)?shù)(單位:分)如下:91,69,83,75,78,81,96,92,88,86。求IQR。解:第一步,9名學(xué)生考試分?jǐn)?shù)進(jìn)行排序:69,75,78,81,83,86,88,91,92,96第二步,計(jì)算機(jī)Q1、Q3:Q1位置=(10+1)/4=2.75,即Q1在第2個(gè)數(shù)值(75)和第3個(gè)數(shù)值(78)之間0.75的位置上,因此,Q1=75+(78-75)×0.75=77.25(分);Q3位置=3(10+1)/4=8.25,即Q3在第8個(gè)數(shù)值(91)和第9個(gè)數(shù)值(92)之間0.25的位置上,因此Q3=91+(92-91)×0.25=91.25(分)第三步,計(jì)算四分位數(shù)極差I(lǐng)QR:IQR=Q3-Q1=91.25-77.25=14(分)數(shù)據(jù)散布的度量在對稱分布中,中位數(shù)(和其它中心度量)把數(shù)據(jù)劃分成相同大小的兩半。對于偏斜分布,除中位數(shù)之外,還提供兩個(gè)四分位數(shù)Q1和Q3更加有益。識別可疑離群點(diǎn)的通常規(guī)則是,挑選落在上四分位數(shù)之上或下四分位數(shù)之下至少1.5×IQR處的值。

五數(shù)概括法(Five-numberSummary)即用下面的五個(gè)數(shù)來概括數(shù)據(jù)集,分別是最小值、下四分位數(shù)(Q1)、中位數(shù)(Q2)、上四分位數(shù)(Q3)和最大值。箱線圖(BoxPlot)又稱為盒圖或盒式圖,是一種用作顯示一組數(shù)據(jù)分散情況的統(tǒng)計(jì)圖,因形狀像箱子而得名,箱線圖體現(xiàn)了五數(shù)概括,在各種領(lǐng)域也經(jīng)常用到,常見于品質(zhì)管理,快速識別異常值等。一般異常對象被稱為離群點(diǎn)。箱線圖示意圖如圖4.1所示。離群點(diǎn)上限中位數(shù)上四分位數(shù)Q3下四分位數(shù)Q1下限圖4.1箱線圖示意圖圖4.1中的參數(shù)下限、下四分位數(shù)、中位數(shù)、上四分位數(shù)和上限統(tǒng)稱為箱線圖的五大參數(shù)。其中上限是非異常范圍內(nèi)的最大值,且上限=Q3+1.5×IQR,下限是非異常范圍內(nèi)的最小值,且下限=Q1-1.5×IQR。

圖4.2例4.5程序運(yùn)行結(jié)果4數(shù)據(jù)對象的相似性度量SimilarityMeasuresforDataObjects4.4數(shù)據(jù)矩陣與相似矩陣假設(shè)有n個(gè)對象(如人),被p個(gè)屬性(又稱維或特征,如年齡、身高、體重或性別)刻畫,這些對象記作x1=(x11,x12,…,x1p),x2=(x21,x22,…,x2p),……,其中xij是對象xi的第j個(gè)屬性的值,對象xi也稱作對象的特征向量。把xi的集合叫做數(shù)據(jù)矩陣,各個(gè)對象之間的距離構(gòu)成的矩陣,叫做相異性矩陣,通常情況下,常用的聚類算法都需要在這兩種數(shù)據(jù)結(jié)構(gòu)上運(yùn)行。數(shù)據(jù)矩陣或稱為對象-屬性結(jié)構(gòu),這種數(shù)據(jù)結(jié)構(gòu)用關(guān)系表的形式或n×p(n個(gè)對象×p個(gè)屬性)矩陣存放n個(gè)對象,每行對應(yīng)于一個(gè)對象。相異矩陣或稱對象-對象結(jié)構(gòu):存放n個(gè)對象兩兩之間的相異度,通常用一個(gè)n×n矩陣表示。其中d(i,j)是對象i和對象j之間的相異性或“差別”的度量,一般而言,d(i,j)是一個(gè)非負(fù)的數(shù)值,對象i和j彼此高度相似或“接近”時(shí),d(i,j)值接近于0;對象i和j越不同,d(i,j)值就越大。注意,d(i,i)=0,即一個(gè)對象與自己的相異性為0。此外,如果d(i,j)=d(j,i)時(shí),則矩陣是對稱的。標(biāo)準(zhǔn)屬性的相異性兩個(gè)標(biāo)稱屬性對象i和j之間的相異性d可以根據(jù)不匹配率來計(jì)算:其中,m表示匹配的數(shù)目,即i和j取值相同狀態(tài)的屬性數(shù);p表示對象的屬性總數(shù)。有時(shí)可以通過賦予m較大的權(quán)重,或者賦給有較多狀態(tài)屬性的匹配具有更大權(quán)重來增加m的影響。對象i和j之間的相似性為:sim(i,j)=1-d(i,j)。例4.6標(biāo)稱屬性之間相異性矩陣示例,數(shù)據(jù)如表4.2所示。表4.2例4.6數(shù)據(jù)表對象(標(biāo)識)籍貫(標(biāo)稱屬性)1北京2湖南3江蘇4北京由于我們只有一個(gè)標(biāo)稱屬性籍貫,即p=1,當(dāng)對象i和j相匹配時(shí),d(i,j)=0;當(dāng)對象不匹配時(shí),d(i,j)=1。于是,我們得到相異性矩陣:二元屬性的相異性二元屬性(DoubleAttributes)只有兩種狀態(tài):0或1,其中0表示該屬性不出現(xiàn),1表示它出現(xiàn)。例如,給出一個(gè)描述患者的屬性是吸煙,1表示患者吸煙,而0表示患者不吸煙。不能像數(shù)值一樣來處理二元屬性,需要采用特定的方法來計(jì)算二元數(shù)據(jù)的相異性。如果所有的二元數(shù)據(jù)都被看作具有相同的權(quán)重,則我們得到一個(gè)兩行兩列的列聯(lián)表,如表4.3示,其中q是對象i和j都取1的屬性數(shù),r是在對象i中取1、在對象j中取0的屬性數(shù),s是在對象i中取0、在對象j中取1的屬性數(shù),而t是對象i和j都取0的屬性數(shù)。屬性的總數(shù)是p,其中p=q+r+s+t。對于對稱的二元屬性,每個(gè)狀態(tài)都同樣重要?;趯ΨQ二元屬性的相異性稱為對稱二元相異性。如果對象i和對象j都用對稱的二元屬性刻畫,則i和j的相異性為:(4-7)表4.3二元屬性的列聯(lián)表對象i對象j

10sum1qrq+r0sts+tsumq+sr+tp二元屬性的相異性對于非對稱的二元屬性,兩個(gè)狀態(tài)不是同等重要的,如核酸檢測的陽性(1)和陰性(0)結(jié)果。給定兩個(gè)非對稱的二元屬性,兩個(gè)都取值1的情況(正匹配)被認(rèn)為比兩個(gè)都取0的情況(負(fù)匹配)更有意義。因此,這樣的二元屬性經(jīng)常被認(rèn)為是“一元的”(只有一種狀態(tài)),基于這種屬性的相異性稱為非對稱的二元相異性,其中負(fù)匹配t被認(rèn)為是不重要的,因此在計(jì)算時(shí)常常被忽略,如式(4-8)所示。(4-8)互補(bǔ)地,也可以基于相似性而不是基于相異性來度量兩個(gè)二元屬性的差別,則對于i和j之間非對稱的二元相似性可以用下式計(jì)算:(4-9)式(4-9)的系數(shù)sim(i,j)被稱為Jaccard系數(shù),它在文獻(xiàn)中被廣泛使用。二元屬性的相異性例4.7二元屬性之間相異性矩陣示例。假設(shè)一個(gè)患者記錄表(見表4.4)包含屬性:姓名、性別、發(fā)燒、咳嗽、因素1、因素2、因素3和因素4,其中姓名是對象標(biāo)識符,性別是對稱屬性,其余都是非對稱二元的屬性。表4.4患者記錄的數(shù)據(jù)表姓名性別發(fā)燒咳嗽因素1因素2因素3因素4劉世元MYNPNNN李吉友MYYNNNN于金鳳FYNPNPN……………………對于非對稱屬性,值Y和P被設(shè)置為1,值N被設(shè)置為0。假設(shè)患者(對象)之間的距離只基于非對稱屬性來計(jì)算。根據(jù)(4-7)式,三個(gè)患者劉世元、李吉友和于金鳳兩兩之間的相異性如下:這些度量值顯示了劉世元和李吉友、李吉友和于金鳳都不大可能患類似的疾病,因?yàn)樗麄兊南喈愋暂^高。在這三個(gè)患者中,劉世元和于金鳳最有可能患類似的疾病。數(shù)值屬性的相似性度量

在數(shù)據(jù)分析過程中,常常需要把數(shù)據(jù)對象區(qū)分為不同的類別,判斷不同對象是否歸于同一個(gè)類別的依據(jù)是對象之間的相似性較高,而對象相似性一般由對象之間的距離來度量。距離是指把一個(gè)對象看做N維空間中的一個(gè)點(diǎn),并在空間中定義距離。基于距離的相似性是指當(dāng)兩個(gè)對象距離較近時(shí)其相似性就大,否則相似性就小。假設(shè)n維空間兩個(gè)點(diǎn)Xi(xi1,xi2,…,xin),Xj(xj1,xj2,…,xjn),定義Xi與Xj的距離如下:歐幾里得距離(EuclideanDistance)是數(shù)據(jù)分析算法中最常用的距離度量,表示空間中兩點(diǎn)之間的直線距離。公式如下:歐幾里得距離歐幾里得距離(EuclideanDistance)是數(shù)據(jù)分析算法中最常用的距離度量,表示空間中兩點(diǎn)之間的直線距離。公式如下:切比雪夫距離(4-10)(4-11)

數(shù)值屬性的相似性度量曼哈頓距離(ManhattanDistance)表示城市中兩個(gè)點(diǎn)之間的街區(qū)距離,也稱為城市街區(qū)距離。公式如下:曼哈頓距離將曼哈頓距離與歐氏距離推廣,可以得到閔可夫斯基距離(MinkowskiDistance),也叫范數(shù)。公式如下:閔可夫斯基距離(4-12)(4-13)其中p是一個(gè)可變參數(shù),根據(jù)可變參數(shù)的不同,閔氏距離可以表示不同類型的距離:當(dāng)p=1時(shí),就是曼哈頓距離;當(dāng)p=2時(shí),就是歐氏距離;當(dāng)p→∞時(shí),就是切比雪夫距離。數(shù)值屬性的相似性度量例4.8

Python計(jì)算各類距離。importnumpyasnpXi=np.array([1,2,3])Xj=np.array([4,5,6])d_Eu=np.sqrt(np.sum(np.square(Xi-Xj)))#歐氏距離d_Ch=np.abs(Xi-Xj).max()#切比雪夫距離d_Ma=np.sum(np.abs(Xi-Xj))#曼哈頓距離print('Xi與Xj的歐氏距離為:',d_Eu)print('Xi與Xj的切比雪夫距離為:',d_Ch)print('Xi與Xj的曼哈頓距離為:',d_Ma)序數(shù)屬性的相似性度量在計(jì)算對象之間的相異性時(shí),序數(shù)屬性的處理與數(shù)值屬性非常類似。假設(shè)f是用于描述n個(gè)對象的一組序數(shù)屬性之一。關(guān)于f的相異性計(jì)算涉及如下步驟:第i個(gè)對象的f值為xif,屬性f有Mf有序的狀態(tài),表示排位1,…,Mf。用對應(yīng)的排位rif∈{1,…,Mf}取代xif。由于每個(gè)序數(shù)屬性都可以有不同的狀態(tài)值,所以通常需要將每個(gè)屬性的值域映射到[0.0,1.0]上,以便每個(gè)屬性都有相同的權(quán)重。用zif代替第i個(gè)對象的rif來實(shí)現(xiàn)數(shù)據(jù)規(guī)格化,其中(3)相異性可以用4.4.4節(jié)介紹的任意一種數(shù)值屬性的距離度量計(jì)算,使用zif作為第i個(gè)對象的f值。

(4-14)例4.9序數(shù)型屬性間的相異性示例。假定在表4.4中的樣本數(shù)據(jù)中,某患病因素為高血壓,共有三種狀態(tài),一級高血壓、二級高血壓、三級高血壓。也就是Mf

=3。第一步,如果把血壓的每個(gè)值替換為它的排位數(shù)1、2、3,假如4名患者血壓屬性分別被賦值為3、1、2、3。第二步,通過將排位數(shù)1映射為0.0、排位2映射為0.5、排位3映射為1.0來實(shí)現(xiàn)對排位的規(guī)格化。第三步,我們可以使用比如說歐幾里得距離(4-10)式得到如下的相異性矩陣:由相異性矩陣可以看出,對象1與對象2不相似,對象2與對象4也不相似,即d(2,1)=1.0,d(4,2)=1.0。這符合直觀,因?yàn)閷ο?和對象4都是三級高血壓,對象2是一級高血壓。序數(shù)屬性的相似性值也可以由相異性值得到,如:sim(i,j)=1-d(i,j)?;旌项愋蛯傩缘南嗨菩运^混合類型屬性是指一組數(shù)據(jù)擁有多種類型的屬性。計(jì)算混合屬性類型對象之間的相異性方法有兩種:一種方法是將每種類型的屬性分成一組,對每種類型分別進(jìn)行數(shù)據(jù)挖掘分析(例如聚類分析)。如果這些分析得到兼容的結(jié)果,則這種方法是可行的。然而,在實(shí)際應(yīng)用中,每種屬性類型分別分析不大可能產(chǎn)生兼容的結(jié)果。另一種更為可取的方法是將所有屬性類型一起處理,只做一次分析。這樣就需要將不同的屬性組合在單個(gè)相異性矩陣中,把有意義的屬性都轉(zhuǎn)換到共同的區(qū)間[0.0,1.0]上。假設(shè)數(shù)據(jù)集包含p個(gè)混合類型的屬性,對象i和對象j之間的相異性d(i,j)定義為:(4-15)

混合類型屬性的相似性例4.10混合類型屬性間的相異性。我們來計(jì)算表4.5中對象的相異性矩陣。表4.5包含混合類型屬性的樣本數(shù)據(jù)集對象標(biāo)識符屬性1(標(biāo)稱的)屬性2(序數(shù)的)屬性3(數(shù)值的)1北京優(yōu)秀452天津中等223上海良好644北京優(yōu)秀28利用上面公式(與4.4.2和4.4.5方法相同)分別計(jì)算出屬性1、屬性2的相異性矩陣M1和M2:

由表4.5可以看出,對象1和對象4在屬性1和屬性2上的值相同,因此能夠直觀地猜測出它們兩個(gè)最相似。這一猜測通過相異性矩陣得到了印證,因?yàn)閐(4,1)是任何兩個(gè)不同對象的最小值。余弦相似性余弦相似性是用向量空間中兩個(gè)向量夾角的余弦值作為衡量兩個(gè)對象間差異的大小,它的取值范圍在-1到1之間。余弦值越接近1,也就是兩個(gè)向量越相似,完全相同時(shí)數(shù)值為1;相反方向時(shí)為-1;正交或不相關(guān)為0。二維向量余弦相似性如圖4.3所示。最常見的應(yīng)用是計(jì)算文本相似度,具體做法是分別抽取兩個(gè)文檔的所有特征詞,建立兩個(gè)文本向量,計(jì)算這兩個(gè)向量的余弦值,就可以知道兩個(gè)文檔在統(tǒng)計(jì)學(xué)方法中的相似情況。實(shí)踐證明,這是一個(gè)非常有效的方法。θX1=(x11,x12)X2=(x21,x22)x1x2圖4.3平面向量余弦相似性示意圖假設(shè)n維向量Xi=(xi1,xi2,…,xin),Xj=(xj1,xj2,…,xjn),θ是Xi和Xj的夾角,余弦相似性公式如下:其中Xi·Xj為向量的內(nèi)積(數(shù)量積),||Xi||為向量的模。例4.11用上述理論計(jì)算文本相似性。為了簡單起見,這里只計(jì)算句子的相似度。句子A:這只皮靴號碼大了,那只號碼合適。句子B:這只皮靴號碼不小,那只更合適。計(jì)算上面兩個(gè)句子相似程度的基本思路是:如果這兩個(gè)句子所用特征詞相同的越多,則它們的內(nèi)容就應(yīng)該越相似。因此,可以從詞頻入手,計(jì)算它們的相似程度。第一步,分詞:句子A:這只/皮靴/號碼/大了,那只/號碼/合適。句子B:這只/皮靴/號碼/不/小,那只/更/合適。第二步,列出所有的詞:這只,皮靴,號碼,大了,那只,合適,不,小,更第三步,計(jì)算詞頻:句子A:這只1,皮靴1,號碼2,大了1,那只1,合適1,不0,小0,更0句子B:這只1,皮靴1,號碼1,大了0。那只1,合適1,不1,小1,更1第四步,寫出詞頻向量:句子A:(1,1,2,1,1,1,0,0,0)句子B:(1,1,1,0,1,1,1,1,1)利用式(4-16)余弦相似性計(jì)算過程如下:例4.12利用Python求例4.11中文本向量的余弦相似性。求余弦相似性需要用到np.linalg.norm來求向量的范式,等同于求向量的歐式距離。

importnumpyasnpX1=np.array([1,1,2,1,1,1,0,0,0])X2=np.array([1,1,1,0,1,1,1,1,1])X1_norm=np.linalg.norm(X1)X2_norm=np.linalg.norm(X2)cos=np.dot(X1,X2)/(X1_norm*X2_norm)#引用計(jì)算內(nèi)積函數(shù)np.dot()print('X1和X2余弦相似性:',cos)5數(shù)據(jù)可視化DataVisualization4.5基于像素的可視化技術(shù)基于像素的可視化技術(shù)(Pixel-orientedTechnique)在屏幕上創(chuàng)建m個(gè)窗口,每維一個(gè),記錄著m個(gè)維值映射到這些窗口中對應(yīng)位置上的m個(gè)像素,像素的顏色反映對應(yīng)的值。在窗口內(nèi),數(shù)據(jù)值按所有窗口共用的某種全局序安排,全局序可以用一種對研究問題有一定意義的方法,通過對所有記錄排序得到。近些年來,基于像素的可視化技術(shù)在很多具體場景中得到了廣泛的應(yīng)用并且充分驗(yàn)證了該方法的有效性。例4.13基于像素的可視化示例。假設(shè)某電商的顧客信息表,包含4個(gè)維(屬性):收入、信貸額度、成交量和年齡。通過可視化技術(shù)分析收入屬性與其它屬性之間的相關(guān)性。對所有顧客按收入遞增序排序,并使用這個(gè)序,在四個(gè)可視化窗口安排顧客數(shù)據(jù),如圖4.4所示。像素顏色這樣選擇:值越小,顏色越淡。使用基于像素的可視化,可以很容易地得到如下觀察:信貸額度隨收入增加而增加;收入處于中部區(qū)間的顧客更可能從該電商處購物;收入與年齡之間沒有明顯的相關(guān)性?;谙袼乜梢暬夹g(shù)的一個(gè)缺點(diǎn)是,它們對于理解多維空間的數(shù)據(jù)分布幫助不大,例如它們并不能顯示在多維子空間是否存在稠密區(qū)域。幾何投影可視化技術(shù)二維數(shù)據(jù)的散點(diǎn)圖二維數(shù)據(jù)的散點(diǎn)圖是在笛卡爾坐標(biāo)系兩個(gè)坐標(biāo)軸下繪制的二維數(shù)據(jù)的散點(diǎn)圖。也可以使用不同顏色或形狀表示不同的數(shù)據(jù)點(diǎn)以增加到第三維。例4.14Python繪制二維散點(diǎn)圖并用不同顏色顯示。importmatplotlib.pyplotaspltimportnumpyasnpn=50x=np.random.rand(n)*2#隨機(jī)產(chǎn)生50個(gè)0~2之間的x,y坐標(biāo)值y=np.random.rand(n)*2colors=np.random.rand(50)#隨產(chǎn)生50個(gè)0~1之間的顏色值area=np.pi*(10*np.random.rand(n))**2#點(diǎn)的半徑范圍:0~10plt.scatter(x,y,s=area,c=colors,alpha=0.5,marker=(9,3,30))plt.show()程序運(yùn)行結(jié)果如圖4.5所示。圖4.5例4.14程序運(yùn)行結(jié)果幾何投影可視化技術(shù)三維數(shù)據(jù)的散點(diǎn)圖三維數(shù)據(jù)散點(diǎn)圖是在笛卡爾坐標(biāo)系的三個(gè)坐標(biāo)軸下繪制的散點(diǎn)圖。如果使用顏色信息,也可以顯示4維數(shù)據(jù)點(diǎn)。對于超過4維的數(shù)據(jù)集,散點(diǎn)圖一般不太有效。例4.15利用鳶尾花數(shù)據(jù)集前三個(gè)特征,繪制三維散點(diǎn)圖并用不同顏色顯示。importpandasaspdimportmatplotlib.pyplotaspltfrommpl_toolkits.mplot3dimportAxes3D#繪制3D坐標(biāo)的函數(shù)fromsklearn.datasetsimportload_irisiris=load_iris()#導(dǎo)入鳶尾花df=pd.DataFrame(iris.data[:],columns=iris.feature_names[:])x=df['sepallength(cm)']#設(shè)置x、y、z軸y=df['sepalwidth(cm)']z=df['petallength(cm)']fig=plt.figure()#繪圖ax=Axes3D(fig)ax.scatter(x,y,z)ax.set_xlabel('sepallength(cm)',fontdict={'size':10,'color':'black'})ax.set_xlabel('sepalwidth(cm)',fontdict={'size':10,'color':'black'})ax.set_xlabel('petallength(cm)',fontdict={'size':10,'color':'black'})plt.show()程序運(yùn)行結(jié)果如圖4.6所示。圖4.6例4.15程序運(yùn)行結(jié)果幾何投影可視化技術(shù)散點(diǎn)圖矩陣散點(diǎn)圖矩陣(ScatterMatrix)是散點(diǎn)圖的一種擴(kuò)充,提供每個(gè)維與其它維的可視化。Python通過函數(shù)scatter_matrix()繪制散點(diǎn)圖矩陣。例4.16繪制散點(diǎn)圖矩陣示例。importnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltv1=np.random.normal(0,1,100)#生成數(shù)據(jù)v2=np.random.randint(0,23,100)v3=v1*v2df=pd.DataFrame([v1,v2,v3]).T#3*100的數(shù)據(jù)集pd.plotting.scatter_matrix(df,diagonal='kde',color='b')#繪制散點(diǎn)圖矩陣plt.show()程序運(yùn)行結(jié)果如圖4.7所示。圖4.7例4.16程序運(yùn)行結(jié)果幾何投影可視化技術(shù)平行坐標(biāo)圖隨著維度的增加,散點(diǎn)圖矩陣變得不太有效。平行坐標(biāo)圖(ParallelCoordinatesPlot)是對具有多個(gè)屬性問題的一種可視化方法。在平行坐標(biāo)圖中,數(shù)據(jù)集的一行數(shù)據(jù)在平行坐標(biāo)圖中用一條折線表示,縱向是屬性值,橫向是屬性類別(用索引表示)。例4.17Pandas包繪制平行坐標(biāo)圖示例。importpandasaspdimportmatplotlib.pyplotaspltfrompandas.plottingimportparallel_coordinatesimportseabornasseadata=sea.load_dataset('iris')fig,axes=plt.subplots()parallel_coordinates(data,'species',ax=axes)plt.legend(loc='uppercenter',bbox_to_anchor=(0.5,-0.1),ncol=3,fancybox=True,shadow=True)plt.show()程序運(yùn)行結(jié)果如圖4.8所示。圖4.8例4.17程序運(yùn)行結(jié)果基于圖符的可視化技術(shù)切爾諾夫臉切爾諾夫臉(ChernoffFaces)是統(tǒng)計(jì)學(xué)家赫爾曼·切爾諾夫于1973年引進(jìn)的。切爾諾夫臉把多達(dá)18個(gè)變量的多維數(shù)據(jù)以卡通人物的臉顯示出來,有助于揭示數(shù)據(jù)中的趨勢。臉的要素有眼、耳、口和鼻等,用其形狀、大小、位置和方向表示維度的值。切爾諾夫臉利用人的思維能力,識別面部特征的微小差異并且立即消化、理解許多面部特征。觀察大型數(shù)據(jù)表可能是令人乏味的,切爾諾夫臉可以濃縮數(shù)據(jù),從而更容易被人們消化理解,有助于數(shù)據(jù)的可視化。切爾諾夫臉有對稱的切爾諾夫臉(18維)和非對稱的切爾諾夫臉(36維)兩種類型。如圖4.9所示。圖4.9切爾諾夫臉(每張臉表示一個(gè)n維數(shù)據(jù))由于人類非常善于識別臉部特征,臉譜化使得多維度數(shù)據(jù)容易被分析人員消化理解,有助于數(shù)據(jù)的規(guī)律和不規(guī)律性的可視化。而切爾諾夫臉的局限性在于,它無法表示數(shù)據(jù)的多重聯(lián)系,以及未能顯示具體的數(shù)據(jù)值。這種方法已被應(yīng)用于多地域經(jīng)濟(jì)戰(zhàn)略指標(biāo)數(shù)據(jù)分析,空間數(shù)據(jù)可視化等領(lǐng)域?;趫D符的可視化技術(shù)人物線條畫人物線條畫(StickFigure)可視化技術(shù)是把多維數(shù)據(jù)映射到5-段人物線條畫中,其中每幅畫都有一個(gè)四肢和一個(gè)軀體。兩個(gè)維度被映射到顯示軸(X軸和Y軸),而其余的被映射到四肢角度和長度。下圖顯示的是人口普查數(shù)據(jù),其中年齡和收入被映射到顯示軸,而其他維被映射到人物線條畫。如果數(shù)據(jù)項(xiàng)關(guān)于兩個(gè)顯示維相對稠密,則結(jié)果可視化顯示紋理模式,從而反應(yīng)數(shù)據(jù)趨勢,如圖4.10所示。圖4.10人物線條畫層次可視化技術(shù)對于大型高維數(shù)據(jù)集,很難同時(shí)對所有維可視化。層次可視化(HierarchicalVisualization)技術(shù)是把所有維劃分成子集(即子空間),然后對這些子空間可視化。一種常用的方法就是給定某些變量固定值時(shí)的子空間的可視化,常常通過3D圖形展現(xiàn)。為了繪制3D圖形,需要調(diào)用Axes3D對象的plot_surface()方法來完成。Matplotlib的3D繪圖函數(shù)plot_surface()功能非常強(qiáng)大,繪圖質(zhì)量很好。

程序運(yùn)行結(jié)果如圖4.11所示。圖4.11u=[sin(x)+2]×cos(z)函數(shù)圖像2

程序運(yùn)行結(jié)果如圖4.12所示。

層次可視化技術(shù)高維數(shù)據(jù)的可視化一般很難直觀地理解高維(維數(shù)大于3)的數(shù)據(jù),如果將這些數(shù)據(jù)轉(zhuǎn)化為可視化的形式,就可以幫助理解和分析高維空間中的數(shù)據(jù)特性。高維數(shù)據(jù)可視化旨在用相關(guān)的低維數(shù)據(jù)圖形表現(xiàn)高維度的數(shù)據(jù),并輔之以交互手段,幫助人們分析和理解高維數(shù)據(jù)。降維方法降維方法是將高維數(shù)據(jù)投影到低維空間,盡量保留高維空間中原有的特性和聚類關(guān)系。常見的降維方法有主成分分析(PrincipleComponentAnalysis,PCA)、多維度分析(Multi-dimensionalScaling,MDS)和自組織圖(Self-organizationMap,SOM)等。這些方法通過數(shù)學(xué)模型將高維數(shù)據(jù)降維,進(jìn)而在低維空間中顯示。通常,數(shù)據(jù)在高維空間中的距離越近,在投影圖中兩點(diǎn)的距離也越近。高維投影圖可以很好地展示高維數(shù)據(jù)間的相似度以及聚類情況等,但并不能表示數(shù)據(jù)在每個(gè)維度上的信息,也不能表現(xiàn)維度間的關(guān)系。高維投影圖損失了數(shù)據(jù)在原始維度上的細(xì)節(jié)信息,但直觀地提供了數(shù)據(jù)之間宏觀的結(jié)構(gòu)。高維數(shù)據(jù)降維常用方法如圖4.13所示。圖4.13高維數(shù)據(jù)降維常用方法高維數(shù)據(jù)的可視化非降維方法非降維方法保留了高維數(shù)據(jù)在每個(gè)維度上的信息,可以展示所有的維度。各種非降維方法的主要區(qū)別在于如何對不同的維度進(jìn)行數(shù)據(jù)到圖像屬性的映射。當(dāng)維度較少時(shí),可以直接通過與位置、顏色、形狀等多種視覺屬性相結(jié)合的方式對高維數(shù)據(jù)進(jìn)行編碼。當(dāng)維度數(shù)量增多,數(shù)據(jù)量變大,或?qū)?shù)據(jù)呈現(xiàn)精度的需要提高時(shí),這些方法難以滿足需要。文本詞云圖繪制文本詞云圖需要用到wordcloud模塊,該模塊依賴numpy庫和PIL庫。Wordcloud模塊中的WordCloud()函數(shù)用于生成或者繪制詞云的對象。WordCloud()函數(shù)常用形式為:wordcloud.WordCloud(font_path=None,width=400,height=200,mask=None,scale=1,max_words=200,min_font_size=4,max_font_size=None,background_color='black',color_func=None,mode='RGB',prefer_horizontal=0.9,random_state=None,relative_scaling=0.5,font_step=1,regexp=None,collocations=True,colormap=’viridis’,contour_width=0,contour_color='black',repeat=False)文本詞云圖(1)font_path:系統(tǒng)中的中文字體文件一般都在C:\Windows\Fonts目錄下(默認(rèn)為wordcloud模塊下的DroidSansMo

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論