版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
數(shù)據(jù)挖掘技術(shù)(工商管理)
哈爾濱商業(yè)大學王磊
概論:大數(shù)據(jù)和數(shù)據(jù)挖掘
學習目的:了解大數(shù)據(jù)基本概念和數(shù)據(jù)挖掘基本思想,掌握市場數(shù)據(jù)處理、分析和展示基本方
法和技能
一、大數(shù)據(jù)和大數(shù)據(jù)時代
1、什么是大數(shù)據(jù)(GigData):一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)
數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)
類型和價值密度低四大特征。
2、計算機數(shù)據(jù)存儲單位:
最小的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、
、、、、
ZBYBBBNBDBO
它們按照進率1024(2的十次方)來計算:
>1Byte=8bit
>1KB=1,024Bytes=8192bit
>1MB=1,024KB=1,048,576Bytes
>1GB=1,024MB=1,048,576KB
>1TB=1,024GB=1,048,576MB
>1PB=1,024TB=1,048,576GB
>1EB=1,024PB=1,048,576TB
>1ZB=1,024EB=1,048,576PB
>1YB=1,024ZB=1,048,576EB
>1BB=1,024YB=1,048,576ZB
>1NB=1,024BB=1,048,576YB
>1DB=1,024NB=1,048,576BB
一般情況下:個數(shù)字或英文字母占個漢字占
1lB=8Bit,12B=16bito
>《紅樓夢》含標點87萬字(不含標點853509字)
>1GB約等于671部紅樓夢
>1TB約等于631,903部
>1PB約等于647,068,911部
A美國國會圖書館藏書(151,785,778冊)(2011年4月:收錄數(shù)據(jù)235TB)
>1EB=4000倍美國國會圖書館存儲的信息量
>
3、大數(shù)據(jù)的特征
/容量(Volume):數(shù)據(jù)量巨大;
/種類(Variety):數(shù)據(jù)類型的多樣性(結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù));
/質(zhì)量(Value):無法保證質(zhì)量(沙里淘金,價值密度低);以監(jiān)控視頻為例,一部一小
時的視頻,在連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅只有一兩秒。如何通過強大
的機器算法更迅速地完成數(shù)據(jù)的價值"提純”是目前大數(shù)據(jù)洶涌背景下亟待解決的難題。
/速度(Velocity):指獲得數(shù)據(jù)的速度(實時獲取需要的信息);
4、大數(shù)據(jù)時代
半個世紀以來,隨著計算機技術(shù)全面融入社會生活,信息爆炸已經(jīng)積累到了一個開始引發(fā)變
革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長速度也在加快。信息爆炸的
如天文學和基因?qū)W,創(chuàng)造出了"大數(shù)據(jù)”這個概念。如今,這個概念幾乎應用到了所有人類
智力與發(fā)展的領(lǐng)域中。21世紀是數(shù)據(jù)信息大發(fā)展的時代,移動互聯(lián)、社交網(wǎng)絡(luò)、電子商務(wù)
等極大拓展了互聯(lián)網(wǎng)的邊界和應用范圍,各種數(shù)據(jù)正在迅速膨脹并變大。
大數(shù)據(jù)時代的一些基本特征:
A硬件成本降低
A網(wǎng)絡(luò)帶寬提升
A云存儲、云計算興起
>網(wǎng)絡(luò)技術(shù)快速發(fā)展
A智能終端的普及
A電子商務(wù)、社交網(wǎng)絡(luò)、電子地圖等的全面應用
A物聯(lián)網(wǎng)("Internetofthings(IoT上顧名思義,物聯(lián)網(wǎng)就是物物相連的互聯(lián)網(wǎng))
二、數(shù)據(jù)挖掘概述
1、什么是數(shù)據(jù)挖掘
>數(shù)據(jù)挖掘(DataMining),一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的
過程。
>數(shù)據(jù)挖掘-從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),是統(tǒng)計學、數(shù)據(jù)庫技術(shù)和人工智能技術(shù)的
綜合;
>數(shù)據(jù)挖掘是從數(shù)據(jù)中自動地抽取模式、關(guān)聯(lián)、變化、異常和有意義的結(jié)構(gòu)。
2、數(shù)據(jù)挖掘必備的基本技能
>計算機科學(軟件);
>統(tǒng)計學和應用數(shù)學;
>專業(yè)技術(shù)水平和實際工作經(jīng)驗。
3、大數(shù)據(jù)時代統(tǒng)計數(shù)據(jù)處理過程
>數(shù)據(jù)收集-DataCollection(數(shù)據(jù)抓?。?/p>
>數(shù)據(jù)處理-DataProcessing(數(shù)據(jù)預處理、數(shù)據(jù)清洗);
>數(shù)據(jù)分析-DataAnalysis(數(shù)據(jù)挖掘、建模、規(guī)律發(fā)現(xiàn));
>數(shù)據(jù)存儲-DataDtorage(海量數(shù)據(jù)存儲和使用);
>數(shù)據(jù)交換(數(shù)據(jù)傳遞方式:E、、微信等;數(shù)據(jù)交換格式:格式化字符、HTML、XML、
JSON);
>數(shù)據(jù)展示(圖形、表格、公式、地圖;文字、圖像、視頻;網(wǎng)頁、博客。);
基本目的:
/預言(Predication):用歷史預測未來
/描述(Description):了解數(shù)據(jù)中潛在的規(guī)律
/展示(Presentation):展示和演示數(shù)據(jù)趨勢和規(guī)律
4、數(shù)據(jù)挖掘基本技術(shù)
/分類(Classification):首先從數(shù)據(jù)中選出已經(jīng)分好類的訓練集,在該訓練集上運用數(shù)據(jù)
挖掘分類的技術(shù),建立分類模型,對于沒有分類的數(shù)據(jù)進行分類(信用卡申請者:分類
為低、中、高風險);
/估計(Estimation):根據(jù)購買模式,估計一個家庭的孩子個數(shù),或估計一個家庭的收入;
/預測(Prediction):通過分類或估值得出模型,該模型用于對未知變量的預言;
/相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinitygroupingorassociationrules):超市中客戶在購買A
的同時,經(jīng)常會購買B,即A=>B(關(guān)聯(lián)規(guī)則)??蛻粼谫徺IA后,隔一段時間,會購買
B(序列分析);
/聚類(Clustering):聚類是對記錄分組,把相似的記錄放在一個聚集里。聚集和分類的區(qū)
別是聚類不依賴于預先定義好的類,不需要訓練集;
/描述和可視化(DescriptionandVisualization):是對數(shù)據(jù)挖掘結(jié)果的表示方式。一般只
是指數(shù)據(jù)可視化工具,包含報表工具和商業(yè)智能分析產(chǎn)品(BI)的統(tǒng)稱
/異常檢測(AnomalyDetection):數(shù)據(jù)挖掘中一個重要方面,用來發(fā)現(xiàn)“小的模式"(相
對于聚類),即數(shù)據(jù)集中間顯著不同于其它數(shù)據(jù)的對象。異常探測應用在如下領(lǐng)域:
令電信和信用卡欺騙
令貸款審批
令藥物研究
令氣象預報
令客戶分類
令網(wǎng)絡(luò)入侵檢測
令故障檢測與診斷等
5、數(shù)據(jù)挖掘經(jīng)典算法
/C4.5:是機器學習算法中的一種分類決策樹算法,其核心算法是ID3算法;
/K-means算法:是一種聚類算法;
/SVM:一種監(jiān)督式學習方法,廣泛運用于統(tǒng)計分類以及回歸分析中;
/Apriori:是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的算法。
/EM:最大期望值法;
/pagerank:是google算法的重要內(nèi)容;
/Adaboost:是一種迭代算法,其核心思想是針對同一個訓練集訓練不同的分類器然后把
弱分類器集合起來,構(gòu)成一個更強的最終分類器;
/KNN:是一個理論上比較成熟的方法,也是最簡單的機器學習方法;
/NaiveBayes:在眾多分類方法中,應用最廣泛的有決策樹模型和樸素貝葉斯(Naive
Bayes);
/Cart:分類與回歸樹,在分類樹下面有兩個關(guān)鍵的思想,第一個是關(guān)于遞歸地劃分自變
量空間的想法,第二個是用驗證數(shù)據(jù)進行減枝。
三、大數(shù)據(jù)和數(shù)據(jù)挖掘案例
L一天之間,互聯(lián)網(wǎng)上要發(fā)生多少事
/每天有2940億封電子郵件發(fā)出,如果這些是紙質(zhì)信件,在美國需要花費兩年時間處理;
,每天有200萬篇博客在網(wǎng)上發(fā)布,這些文章相當于《時代》雜志刊發(fā)770年的總量;
,每天有2.5億張照片上傳至社交網(wǎng)站Facebook,如果都打印出來,摞在一起能有80
個埃菲爾鐵塔那么高;
/每天有86.4萬小時視頻被上傳至視頻網(wǎng)站Youtube,相當于不間斷播放視頻98年;
/每天有1.87億個小時的音樂會在流媒體音樂網(wǎng)站Pandora上播放,如果一臺電腦從公
元元年就開始播放這些音樂會,到現(xiàn)在還沒完沒了地接著放;
/谷歌翻譯每天處理的文字數(shù)量,每天翻譯次數(shù)達十億次,相當于一百萬冊圖書,超過了
全世界的專業(yè)翻譯人員一年能夠翻譯的文字規(guī)模;
/百度每天的關(guān)鍵詞搜索量50億,谷歌33.3億;
淘寶天貓雙11那一天營業(yè)額達191億人民幣。中國小商品城全年成交額才580.03億
兀人民幣。
累積起來,互聯(lián)網(wǎng)一天之內(nèi)產(chǎn)生的信息總量,可以裝滿1.68億張DVD光盤。
2、尿布與啤酒”的故事
在一家超市里,有一個有趣的現(xiàn)象:尿布和啤酒赫然擺在一起出售。但是這個奇怪的舉
措?yún)s使尿布和啤酒的銷量雙雙增加了。這不是一個笑話,而是發(fā)生在美國沃爾瑪連鎖店超市
的真實案例,并一直為商家所津津樂道。沃爾瑪擁有世界上最大的數(shù)據(jù)倉庫系統(tǒng),為了能夠
準確了解顧客在其門店的購買習慣,沃爾瑪對其顧客的購物行為進行購物籃分析,想知道顧
客經(jīng)常一起購買的商品有哪些。沃爾瑪數(shù)據(jù)倉庫里集中了其各門店的詳細原始交易數(shù)據(jù)。在
這些原始交易數(shù)據(jù)的基礎(chǔ)上,沃爾瑪利用數(shù)據(jù)挖掘方法對這些數(shù)據(jù)進行分析和挖掘。一個意
外的發(fā)現(xiàn)是:"跟尿布一起購買最多的商品竟是啤酒!經(jīng)過大量實際調(diào)查和分析,揭示了一
個隱藏在“尿布與啤酒”背后的美國人的一種行為模式:在美國,一些年輕的父親下班后經(jīng)常
要到超市去買嬰兒尿布,而他們中有30%~40%的人同時也為自己買一些啤酒。產(chǎn)生這一
現(xiàn)象的原因是:美國的太太們常叮囑她們的丈夫下班后為小孩買尿布,而丈夫們在買尿布后
又隨手帶回了他們喜歡的啤酒。
按常規(guī)思維,尿布與啤酒風馬牛不相及,若不是借助數(shù)據(jù)挖掘技術(shù)對大量交易數(shù)據(jù)進行挖掘
分析,沃爾瑪是不可能發(fā)現(xiàn)數(shù)據(jù)內(nèi)在這一有價值的規(guī)律的。
四、數(shù)據(jù)挖掘和統(tǒng)計分析技術(shù)有什么不同?
硬要去區(qū)分DataMining和Statistics的差異其實是沒有太大意義的。DataMining技術(shù)
或計算等理論方法,都是由統(tǒng)計學者根據(jù)統(tǒng)計理論所發(fā)展衍生。換另一個角度看,Data
Mining有相當大的比重是由高等統(tǒng)計學中的多變量分析(多元統(tǒng)計分析)所支撐。但是為
什么DataMining的出現(xiàn)會引發(fā)各領(lǐng)域的廣泛注意呢?主要原因在相較于傳統(tǒng)統(tǒng)計分析而
言,DataMining有下列幾項特性:
/處理大量實際數(shù)據(jù)更強勢,且無須太專業(yè)的統(tǒng)計背景去使用DataMining的工具;
/數(shù)據(jù)分析趨勢為從大型數(shù)據(jù)庫抓取所需數(shù)據(jù)并使用專屬計算機分析軟件,DataMining
的工具更符合企業(yè)需求;
/純就理論的基礎(chǔ)點來看,DataMining和統(tǒng)計分析有應用上的差別,畢竟DataMining
目的是方便企業(yè)終端用戶使用而非給統(tǒng)計學家檢測用的。
五、數(shù)據(jù)處理工具和軟件(經(jīng)濟類專業(yè))
1、微信、百度云和博客
參考博客::blog.sina/galaxystatistics
:cnblogs/abdata/articles/4896229.html
2、WORD、PPT
3、EXCEL.VBAforEXCEL.R
第一章數(shù)據(jù)處理
學習目的:理解運用數(shù)據(jù)挖掘方法前需要對數(shù)據(jù)進行清理、標準化等基礎(chǔ)工作,掌握數(shù)據(jù)相似
性和相異下分析方法
一、數(shù)據(jù)清理
二、數(shù)據(jù)標準化和歸一化
1、最大最小值標準化方法;
TZ乃一minX—〃maxX-X
Y=或y=
maxX-minXmaxX-minX
2、均值方差標準化方法
y=---
S
三、數(shù)據(jù)相似性分析
相似性和相異性被許多數(shù)據(jù)挖掘技術(shù)所使用,如聚類、最近鄰分類、異常檢測等。兩個對象之
間的相似度是這兩個對象相似程度的數(shù)值度量,通常相似度是非
負值,并常常在0(不相似)和1(完全相似)之間取值。兩個對象之間的相異度是這兩個對
象差異程度的數(shù)值度量,兩個對象越相似,它們的相異度就越低,通常
用"距離"作為相異度的同義詞。數(shù)據(jù)對象之間相似性和相異性的度量有很多,如何選擇度量
方法依賴于對象的數(shù)據(jù)類型,數(shù)據(jù)的量值是否重要,數(shù)據(jù)的稀疏性等。
1.歐氏距離(EuclideanDistance)
歐氏距離是最易于理解的一種距離計算方法,源自歐氏空間中兩點間的距離公式。
(1)二維平面上兩點a(xl,yl)與b(x2,y2)間的歐氏距離:
d12=-%2)2+(71—丫2)2
(2)三維空間兩點a(xl,yl,zl)與b(x2,y2,z2)間的歐氏距離:
d12=JW一只)2+-丫2尸+(Z]—Z2)2
(3)兩個n維向量a(xll,xl2,...,xln)與b(x21,x22,…,x2n)間的歐氏距離:
d12=力2
也可以用表示成向量運算的形式:
d12—J(a-b)(a-
歐式距離是高維空間中兩點之間的距離,它計算簡單、應用廣泛,但是沒有考慮變量之間的相
關(guān)性,當體現(xiàn)單一特征的多個變量參與計算時會影響結(jié)果的準確性,同時它對向量中得每個分
量的誤差都同等對待,一定程度上放大了較大變量誤差在距離測度中的作用。
兩個n維向量A(xll,xl2,...,xln)與B(x21,x22,...,x2n)間的歐氏距離定義為:
D(A,B)=[(xll-x21)A2+(xl2-x22)A2+...+(xln-x2n)A2]A0.5
歐式距離的公式是
d=sqrt(J(xil-xi2)A)這里i=L2..n
歐氏距離:(w(Xi-Yi)2)1/2,即兩項間的差是每個變量值差的平方和再平方根,目的是計
算其間的整體距離即不相似性。
歐氏距離雖然很有用,但也有明顯的缺點。它將樣品的不同屬性(即各指標或各變量)之間的
差別等同看待,這一點有時不能滿足實際要求。例如,在教育研究中,經(jīng)常遇到對人的分析和
判別,個體的不同屬性對于區(qū)分個體有著不同的重要性。因此,有時需要采用不同的距離函數(shù)。
歐氏距離看作信號的相似程度。距離越近就越相似,就越容易相互干擾,誤碼率就越高。
2.曼哈頓距離(ManhattanDistance)
(1)二維平面兩點a(xl,yl)與b(x2,y2)間的曼哈頓距離
4=1%-M1+1%-y2l
(2)兩個n維向量a(xll,xl2,…,xln)與b(x21,x22,…,x2n)間的曼哈頓距離
n
d[2=W|xlk-X2kl
k=l
曼哈頓距離也稱為城市街區(qū)距離(CityBlockdistance),想象在曼哈頓要從一個十字路口開車
到另外一個十字路口,駕駛距離是兩點間的直線距離嗎?顯然不是,除非你能穿越大樓。實際
駕駛距離就是"曼哈頓距離"。
兩個n維向量A(xll,xl2,..”xln)與B(x21,x22,...,x2n)間的曼哈頓距離定義為:
D(A,B)=|xll-x21|+|xl2-x22|+...+|xln-x2n|
兩個n維向量a(xll,xl2xln)^b(x21,x22,…,x2個間的曼哈頓距離
以上兩個距離都具有的數(shù)學性質(zhì)是:
非負性:d(i,j)>0距離是一個非負的數(shù)值
同一性:d(i,i)=0對象到自身的距離為0
對稱性:d(i,j)=距離是一個對稱函數(shù)
三角不等式:d(i,j)sd(i,k)+d(k,j)從對象i到對象j的直接距離不會大于途經(jīng)的任何其他對象k
的距離
3.切比雪夫距離(ChebyshevDistance)
數(shù)學上,切比雪夫距離(Chebyshevdistance)或是1_8度量是向量空間中的一種度量,二個
點之間的距離定義為其各座標數(shù)值差的最大值。以(xl,yl)和(x2,y2)二點為例,其切比雪夫距離
為max(|x2-xl|,|y2-yl|)o切比雪夫距離得名自俄羅斯數(shù)學家切比雪夫。
切比雪夫距離也稱為棋盤距離,國際象棋中,國王走一步能夠移動到相鄰的8個方格中的任意
一個,那么國王從格子A(xl,yl)走到格子B(x2,y2)最少需要多少步?你會發(fā)現(xiàn)最少步數(shù)總是
max{|x2-xl|,|y2-yl|)^o
兩個n維向量A(向l,xl2,…,xln)與B(x21,x22,…,x2n)間的切比雪夫距離定義為:
D(A,B)=max{|xll-
x21|,|xl2-x22|,...,|xln-x2n|}該公式的另一種等價形式是:口/8)=[僅11以21)人1<+僅12-
x22)Ak+...+(xln-x2n)Ak]A(l/k),其中k趨向于無窮大。
4.閔氏距離(MinkowskiDistance)
閔可夫斯基距離:
P=(Ti,T2%)andQ=(血./,…C/
閔可夫斯基距離(Minkowskidistance)是衡量數(shù)值點之間距離的一種非常常見的方法,假設(shè)
數(shù)值點P和Q坐標如下:
那么,閔可夫斯基距離定義為:
/n\1/P
£出-什.
閔氏距離不是一種距離,而是一組距離的定義。
該距離最常用的p是2和1,前者是歐幾里得距離(Euclideandistance),后者是曼哈頓
距離(Manhattandistance)。假設(shè)在曼哈頓街區(qū)乘坐出租車從P點到Q點,白色表示高
樓大廈,灰色表示街道:
綠色的斜線表示歐幾里得距離,在現(xiàn)實中是不可能的。其他三條折線表示了曼哈頓距離,這三
條折線的長度是相等的。
當p趨近于無窮大時,閔可夫斯基距離轉(zhuǎn)化成切比雪夫距離(Chebyshevdistance):
1
/螞方_/|P)=破千出—圻|.
我們知道平面上到原點歐幾里得距離(p=2)為1的點所組成的形狀是一個圓,當p取其
他數(shù)值的時候呢?
注意,當P<1時,閔可夫斯基距離不再符合三角形法則,舉個例子:當P<L(0,0)至U(LD
的距離等于(1l)A{l/p}>2,而(0,1)到這兩個點的距離都是1。
閔可夫斯基距離比較直觀,但是它與數(shù)據(jù)的分布無關(guān),具有一定的局限性,如果X方向的幅值
遠遠大于y方向的值,這個距離公式就會過度放大X維度的作用。所以,在計算距離之前,
我們可能還需要對數(shù)據(jù)進行z-transform處理,即減去均值,除以標準差:
3?例)T(,-)
〃:該維度上的均值
。:該維度上的標準差
可以看到,上述處理開始體現(xiàn)數(shù)據(jù)的統(tǒng)計特性了。這種方法在假設(shè)數(shù)據(jù)各個維度不相關(guān)的情況
下利用數(shù)據(jù)分布的特性計算出不同的距離。如果維度相互之間數(shù)據(jù)相關(guān)(例如:身高較高的信
息很有可能會帶來體重較重的信息,因為兩者是有關(guān)聯(lián)的),這時候就要用到馬氏距離
(Mahalanobisdistance)了。
兩個n維變量A(xll,xl2,…,xln)與B(x21,x22,...,x2n)間的閔氏距離定義為:D(A,B)=[|xll-
x21|Ap+|xl2-x22|Ap+...+|xln-x2nrp]A(l/p),其中p是一個可變參數(shù)。當p=l時為曼哈
頓距離,當p=2時為歐氏距
離,當p-8時為切比雪夫距離。
閔氏距離,包括曼哈頓距離、歐氏距離和切比雪夫距離都存在明顯的缺點:(1)對各個分量的量
綱(Scale)沒有區(qū)別對待。(2)未考慮各個分量的分布(期望,方差等)可能是不同的。
5.標準化歐氏距離(StandardizedEuclideanDistance)
標準化歐氏距離是針對簡單歐氏距離的缺點而作的一種改進,其基本思想是先將數(shù)據(jù)對象的各
個分量都進行均值為口、標準差為s的標準化,然后再計算歐式距離。
兩個n維向量A(向l,xl2,…,xln)與B(x21,x22,...,x2n)的標準化歐氏距離定義為:
D(A,B)={[(xll-x21)/sl]A2+[(xl2-x22)/s2]A2+...+[(xln-x2n)/sn]A2}A0.5
6.馬氏是巨離(MahalanobisDistance)
馬氏距離由印度統(tǒng)計學家馬哈拉諾斯(P.C.Mahalanobis)提出,表示數(shù)據(jù)的協(xié)方差距離,與
歐式距離不同,它考慮了各指標之間相關(guān)性的干擾,而且不受各指標量綱的影響,但是它的缺
點是夸大了變化微小的變量的作用。
設(shè)A、B是從均值向量為|j,協(xié)方差陣為£的總體G中抽取的兩個樣本,A、B兩點之間的馬氏
距離定義為:D(A,B)=[(A-B)TI-l(A-B)]A0.5,A與總體G的馬氏距離定義為
D(A,G)=[(A-p)T2-l(A-p)]^0.5o
當協(xié)方差矩陣W是單位矩陣(各個樣本向量之間獨立同分布),則馬氏公式就轉(zhuǎn)化為歐氏距離;
當協(xié)方差矩陣W是對角陣時,則馬氏距離就轉(zhuǎn)化為標準化歐式距離;
7.漢明距離(HammingDistance)
在信息論中,兩個等長字符串之間的漢明距離是兩個字符串對應位置的不同字符的個數(shù)。換句
話說,它就是將一個字符串變換成另外一個字符串所需要替換的字符個數(shù)。
例如:例11101與1001001之間的漢明距離是2例toned"與"roses”之間的漢明距
離是3。
8.皮爾遜相關(guān)系數(shù)(PearsonCorrelationcoefficient)
相關(guān)公式:
Px_cov(星,y)_E&x_〃*)(y_〃y))__(仃)_6(幻右位)
''々by/byJ/(X?)-爐(X)j£(Y2)-爐(Y)
^XY-^X^Y
PXy—,j二
,在次一⑵工尸1匯U—[2丫)2
v7yAyZ-
p_L乙N
皮爾遜相關(guān)系數(shù)也稱為簡單相關(guān)系數(shù),它是衡量隨機變量X與Y相關(guān)程度的一種方法,相關(guān)系
數(shù)的取值范圍是[-L1]。相關(guān)系數(shù)的絕對值越大,則表明X與Y相關(guān)度越高,負值表示負相關(guān),
正值表示正相關(guān)。
皮爾遜相關(guān)系數(shù)定義如下:r(X,Y)=Cov(X,Y)/[(D(X)A0.5)*(D(Y)A0.5)]=E((X-EX)*(Y-EY))/
[(D(X)A0.5)*(D(Y)A0.5)]=[(Xl-X_bar)(Yl-Y_bar)+(X2-X_bar)(Y2-Y_bar)+...+
(Xn-X_bar)(Yn-Y_bar)]/{[(Xl-X_bar)A2+(X2-X_bar)A2+...(Xn-X_bar)]*[(Yl-
AAA
Y_bar)2+(Y2-Y_bar)2+...(Yn-Y_bar)]}0.5o
Pearson相關(guān)系數(shù)要求參與計算的變量為服從雙變量正態(tài)分布的連續(xù)型數(shù)據(jù),并且僅適用于線
性相關(guān)的情況。另外,當極值對Pearson相關(guān)系數(shù)的影響非常大,因此在計算之前要首先進行
極值處理。
9.斯皮爾曼秩相關(guān)系數(shù)(SpearmanRankCorrelation)
與Pearson相關(guān)系數(shù)一樣,它也可以反映兩組變量聯(lián)系的緊密程度,取值在-1到+1之間,計
算方法上也完全相同,不同的是它建立在秩次的基礎(chǔ)之上,對原始變量的分布和樣本容量的大
小不作要求,屬于非參數(shù)統(tǒng)計方法,適用范圍更廣。
設(shè)R(Rl,R2,...,Rn)表示X在(Xl,X2,...,Xn)
中的秩,Q(Q1,Q2,…,QrO表示Y在(Y1,Y2,…,Yn)中的秩,如果X和Y具有同步性,那么R
和Q也會表現(xiàn)出同步性,反之依然,將其代入
Pearson相關(guān)系數(shù),就得到秩之間的一致性,也就是Spearman相關(guān)系數(shù)??紤]到
Rl+R2+...Rn=Ql+Q2+...+Qn=n(n+l)/2,
RlA2+R2A2+...+RnA2=QlA2+Q2A2+...+QnA2=n(n+l)
(2n+l)/6,Spearman相關(guān)系數(shù)可以定義為:
r(X,Y)=l-6*[(Rl-Ql)A2+(R2-Q2)A2+...(Rn-Qn)A2]
/[n(nA2-l)]
10.肯德爾秩相關(guān)系數(shù)(KendallRankCorrelation)
Kendall在本質(zhì)設(shè)想方面與Spearman是一樣的,它從兩個變量是否協(xié)同一致的角度出發(fā)檢驗
兩變量之間是否存在相關(guān)性。什么是協(xié)同?假設(shè)兩
個變量X、Y有n對觀察值(XI,Yl)(X2,Y2)...(Xn,Yn),如果(Xj-Xi)(Yj-Yi)>0(j>i),稱
(Xi,Yi)與(Xj,\j)滿足協(xié)同性(concordant),或者說變化方向一致。否則,不滿足協(xié)同性。
全部數(shù)據(jù)共有n(n-l)/2對,如果用Nc表示同向數(shù)對的數(shù)目,Nd表示反向數(shù)對的數(shù)目,則
Nc+Nd=
相關(guān)系數(shù)由兩者的平均差定義:相關(guān)系數(shù)的
n(n-l)/2,Kendall(Nc-Nd)/[n(n-l)/2]oKendall
取值范圍在-1到1之
間,當?shù)扔?時,表示兩個隨機變量擁有一致的等級相關(guān)性;當?shù)扔?1時,表示兩個隨機變量
擁有完全相反的等級相關(guān)性;當?shù)扔?時,表示兩個隨機變量是相互
獨立的。
11.余弦相似度(CosineSimilarity)
幾何中夾角余弦可用來衡量兩個向量方向的差異,機器學習中用這一概念來衡量樣本向量之間
的差異。夾角余弦的取值范圍為卜1,1]。夾角余弦越大表
示兩個向量的夾角越小,夾角余弦越小表示兩向量的夾角越大。當兩個向量的方向重合時夾角
余弦取最大值1,當兩個向量的方向完全相反夾角余弦取最小值-1。
兩個n維樣本向量A(xll,xl2,…,xln)和B(x21,x22,...,x2n)的夾角余弦定義為:cosO=
(AB)/(|A|*|B|)
=(xll*x21+xl2*x22+...Xln*X2n)/[(xllA2+xl2A2+...+xlnA2)A0.5*
(x21A2+x22A2+...+x2nA2)A0.5],夾角余弦經(jīng)常應用于像文檔這樣的稀疏數(shù)據(jù),它變量的長
度無關(guān),如向量(L2)和(2,4)的夾
角余弦與向量(L2)和(10,20)的相等。
歐氏距離是最常見的距離度量,而余弦相似度則是最常見的相似度度量,很多的距離度量和相
似度度量都是基于這兩者的變形和衍生,所以下面重點比較下兩者在衡量個體差異時實現(xiàn)方式
和應用環(huán)境上的區(qū)別。
借助三維坐標系來看下歐氏距離和余弦相似度的區(qū)別:
Y
dist(A,B)
從圖上可以看出距離度量衡量的是空間各點間的絕對距離,跟各個點所在的位置坐標(即個體
特征維度的數(shù)值)直接相關(guān);而余弦相似度衡量的是空間向量的夾角,更加的是體現(xiàn)在方向上
的差異,而不是位置。如果保持A點的位置不變,B點朝原方向遠離坐標軸原點,那么這個時
候余弦相似度cosG是保持不變的,因為夾角不變,而A、B兩點的距離顯然在發(fā)生改變,這就
是歐氏距離和余弦相似度的不同之處。
根據(jù)歐氏距離和余弦相似度各自的計算方式和衡量特征,分別適用于不同的數(shù)據(jù)分析模型:歐
氏距離能夠體現(xiàn)個體數(shù)值特征的絕對差異,所以更多的用于需要從維度的數(shù)值大小中體現(xiàn)差異
的分析,如使用用戶行為指標分析用戶價值的相似度或差異;而余弦相似度更多的是從方向上
區(qū)分差異,而對絕對的數(shù)值不敏感,更多的用于使用用戶對內(nèi)容評分來區(qū)分用戶興趣的相似度
和差異,同時修正了用戶間可能存在的度量標準不統(tǒng)一的問題(因為余弦相似度對絕對數(shù)值不
敏感)。
12.調(diào)整余弦相似度(AdjustedCosineSimilarity)
余弦相彳以度更多的是從方向上區(qū)分差異,而對絕對的數(shù)值不敏感。因此沒法衡量每個維數(shù)值的
差異,會導致這樣一個情況:比如用戶對內(nèi)容評分,5分制,X
和Y兩個用戶對兩個內(nèi)容的評分分別為(1,2)和(4,5),使用余弦相似度得出的結(jié)果是0.98,兩者
極為相似,但從評分上看X似乎不喜歡這2個內(nèi)容,
而Y比較喜歡,余弦相似度對數(shù)值的不敏感導致了結(jié)果的誤差,需要修正這種不合理性。
調(diào)整余弦相似度,將所有維度上的數(shù)值都減去一個均值,比如X和Y的評分均值都是3,那么
調(diào)整后為(-2,-1)和(1,2),再用余弦相似度計算,得到-0.8,相似度為負值并且差異不小,但顯
然更加符合現(xiàn)實。
13.簡單匹配系數(shù)(SimpleMatchingCoefficient,SMC)
設(shè)A、B是兩個二元屬性組成的對象,這兩個對象的比較導致如下四個頻率變量:f00:A取0
并且B取。屬性的個數(shù);f01:A取。并且B取1屬性的個數(shù);f10:A取1并且B取。屬性
的個數(shù);fll:A取1并且B取1屬性的個數(shù)。
那么SMC就是兩個對象A、B屬性值匹配的屬性個數(shù)與所有屬性個數(shù)的比值,即
SMC(A,B)=(fll+fOO)/(fOl+flO+fll+fOO)
14.Jaccard系數(shù)(JaccardCoefficient)
當數(shù)據(jù)對象的二元屬性是非對稱的時,例如用1表示商品被購買,用0表示商品未被購買。由
于未被購買的商品數(shù)遠遠大于被購買的商品數(shù),因此,如果用SMC計算數(shù)據(jù)對象的相似度,
其結(jié)果必然是所有的數(shù)據(jù)對象都是相似的。
Jaccard系數(shù)可以處理僅包含非對稱二元屬性的對象,它是匹配屬性的個數(shù)與不涉及0-0匹配
的屬性個數(shù)的比值,BPJ(A,B)=fll/(f01+fl0+fll)o
15.廣義Jaccard系數(shù)(ExtendedTanimotoCoefficient)
廣義Jaccard系數(shù)又稱為Tanimoto系數(shù),常常用于文檔數(shù)據(jù),并在二元屬性情況下規(guī)約為
Jaccard系數(shù)。
該系數(shù)用EJ表示,定義如下:EJ(A,B)=(A-B)/(|A|*|A|+|B|*|B|-
AB)=(xll*x21+xl2*x22+...+xln*x2n)/[(xllA2+xl2A+...xlnA2)+(x21A2+x22A2+...+x
2nA2)-(xll*x21+xl2*x22+...+xln*x2n)]
第二章EXCEL基礎(chǔ)
一、EXCEL絕對和相對單元格操作
二、EXCEL常用函數(shù)
三、EXCEL在數(shù)據(jù)挖掘算法中的運用
四、EXCEL在線練習(單選和判斷題)
鏈接::galaxystatistics/sjfxsTK/mypastExcel.html
第三章KNN算法
KNearestNeighbor算法又叫KNN算法,這個算法是機器學習里面一個比較經(jīng)典的算法,總體來說KNN
算法是相對比較容易理解的算法。其中的K表示最接近自己的K個數(shù)據(jù)樣本。KNN算法和K-Means算法
不同的是,K-Means算法用來聚類,用來判斷哪些東西是一個比較相近的類型,而KNN算法是用來做歸類
的,也就是說,有一個樣本空間里的樣本分成很幾個類型,然后,給定一個待分類的數(shù)據(jù),通過計算接近自
己最近的K個樣本來判斷這個待分類數(shù)據(jù)屬于哪個分類。你可以簡單的理解為由那離自己最近的K個點來投
票決定待分類數(shù)據(jù)歸為哪一類。
一個比較經(jīng)典的KNN圖如下:
從上圖中我們可以看到,圖中的有兩個類型的樣本數(shù)據(jù),一類是藍色的正方形,另一類是紅色的三角形。而
那個綠色的圓形是我們待分類的數(shù)據(jù)。
如果K=3,那么離綠色點最近的有2個紅色三角形和1個藍色的正方形,這3個點投票,于是綠色的這個
待分類點屬于紅色的三角形。
如果K=5,那么離綠色點最近的有2個紅色三角形和3個藍色的正方形,這5個點投票,于是綠色的這個
待分類點屬于藍色的正方形。
我們可以看到,機器學習的本質(zhì)一是基于一種數(shù)據(jù)統(tǒng)計的方法!那么,這個算法有什么用呢?我們來看幾
個示例。
>KNN分類
產(chǎn)品質(zhì)量判斷假設(shè)我們需要判斷紙巾的品質(zhì)好壞,紙巾的品質(zhì)好壞可以抽像出兩個向量,一個是"酸腐蝕的
時間",一個是"能承受的壓強"。如果我們的樣本空間如下:(所謂樣本空間,又叫TrainingData,也就是
用于機器學習的數(shù)據(jù))
向量XI向量X2
品質(zhì)Y
耐酸時間(秒)JE強(公斤/平方米)
77壞
74壞
34好
14好
那么,如果XI=3和X2=7,這個毛巾的品質(zhì)是什么呢?這里就可以用到KNN算法來判
斷了。
假設(shè)K=3,K應該是一個奇數(shù),這樣可以保證不會有平票,下面是我們計算(3,7)到所有點
的距離。
向量XI向量X2
計算到(3,7)的距離向量Y
耐酸時間(秒)壓強(公斤/平方米)
77(7—3)2+(7-7)2=16壞
74(7-3)2+(4-7)2=25N/A
34(3—3尸+(4—7尸=9好
14(1-3)2+(4-7)2=13好
所以,最后的投票,好的有2票,壞的有1票,最終需要測試的(3,7)是合格品。(當然,你還可以使用
權(quán)重——可以把距離值做為權(quán)重,越近的權(quán)重越大,這樣可能會更準確一些)
>KNN預測
假設(shè)我們有下面一組數(shù)據(jù),假設(shè)X是流逝的秒數(shù),Y值是隨時間變換的一個數(shù)值(你可以想像是股票值)
那么,當時間是6.5秒的時候,Y值會是多少呢?我們可以用KNN算法來預測之。
這里,讓我們假設(shè)K=2,于是我們可以計算所有X點到6.5的距離,如:X=5.1,距離是|6.5-5.11=1.4,
X=1.2那么距離是|6.5-1.2|=5.3。于是我們得到下面的表:
XYX間距離
1235.5
1.2175.3
3.2123.3
4272.5
5.181.4
6.5?
KY預測值
217.5
315.66667
注意,上圖中因為K=2,所以得到X=4和X=5.1的點最近,得到的Y的值分別為27和8,在這種情況
下,我們可以簡單的使用平均值來計算:(27+8)/2=17.5。
第四章聚類分析(最短距離法)
一、什么是聚類分析
聚類分析又稱群分析,它是研究(樣品或指標)分類問題的一種多元統(tǒng)計方法,所謂類,通俗地說,就
是指相似元素的集合。嚴格的數(shù)學定義是較麻煩的,在不同問題中類的定義是不同的。詳見參考文獻口]。
聚類分析起源于分類學,在考古的分類學中,人們主要依靠經(jīng)驗和專業(yè)知識來實現(xiàn)分類。隨著生產(chǎn)技術(shù)
和科學的發(fā)展,人類的認識不斷加深,分類越來越細,要求也越來越高,有時光憑經(jīng)驗和專業(yè)知識是不能進
行確切分類的,往往需要定性和定量分析結(jié)合起來去分類,于是數(shù)學工具逐漸被引進分類學中,形成了數(shù)值
分類學。后來隨著多元分析的引進,聚類分析又逐漸從數(shù)值分類學中分離出來而形成一個相對獨立的分支。
在社會經(jīng)濟領(lǐng)域中存在著大量分類問題,比如對我國30個省市自治區(qū)獨立核算工業(yè)企業(yè)經(jīng)濟效益進行
分析,一般不是逐個省市自治區(qū)去分析,而較好地做法是選取能反映企業(yè)經(jīng)濟效益的代表性指標,如百元固
定資產(chǎn)實現(xiàn)利稅、資金利稅率、產(chǎn)值利稅率、百元銷售收入實現(xiàn)利潤、全員勞動生產(chǎn)率等等,根據(jù)這些指標
對30個省市自治區(qū)進行分類,然后根據(jù)分類結(jié)果對企業(yè)經(jīng)濟效益進行綜合評價,就易于得出科學的分析。
又比如若對某些大城市的物價指數(shù)進行考察,而物價指數(shù)很多,有農(nóng)用生產(chǎn)物價指數(shù)、服務(wù)項目價指數(shù)、食
品消費物價指數(shù)、建材零售價格指數(shù)等等。由于要考察的物價指數(shù)很多,通常先對這些物價指數(shù)進行分類。
總之,需要分類的問題很多,因此聚類分析這個有用的數(shù)學工具越來越受到人們的重視,它在許多領(lǐng)域中都
得到了廣泛的應用。
值得提出的是將聚類分析和其它方法聯(lián)合起來使用,如判別分析、主成分分析、回歸分析等往往效果更
好。
聚類分析內(nèi)容非常豐富,有系統(tǒng)聚類法、有序樣品聚類法、動態(tài)聚類法、模糊聚類法、圖論聚類法、聚
類預報法等。本章主要介紹常用的系統(tǒng)聚類法。
二、八種系統(tǒng)聚類方法
正如樣品之間的距離可以有不同的定義方法一樣,類與類之間的距離也有各種定義。例如可以定義類與
類之間的距離為兩類之間最近樣品的距離,或者定義為兩類之間最遠樣品的距離,也可以定義為兩類重心之
間的距離等等。類與類之間用不同的方法定義距離,就產(chǎn)生了不同的系統(tǒng)聚類方法。本節(jié)介紹常用的八種系
統(tǒng)聚類方法,即最短距離法、最長距離法、中間距離法、重心法、類平均法、可變類平均法、可變法、離差
平方和法。系統(tǒng)聚類分析盡管方法很多,但歸類的步驟基本上是一樣的,所不同的僅是類與類之間的距離有
不同的定義方法,從而得到不同的計算距離的公式。這些公式在形式上不大一樣,但最后可將它們統(tǒng)一為一
個公式,對上機計算帶來很大的方便,詳見后。
以下用。表示樣品X,與Xj之間距離,用生表示類G,與G,之間的距離。
1最短距離法
定義類G,與G)之間的距離為兩類最近樣品的距離,即
D::=mind,:
JG"G產(chǎn)GjIJ
設(shè)類Gp與Gq合并成一個新類記為Gr,則任一類Gk與G,的距離是:
D,-mind?
《d:.,d>
=minminvmin:i
[XgQ.XjeG,X,eGt.XyeG.,"J
最短距離法聚類的步驟如下:
(1)定義樣品之間距離,計算樣品兩兩距離,得一距離陣記為。(0),開始每個樣品自成一類,顯然這
時Dg=djj0
(2)找出的非對角線最小元素,設(shè)為。內(nèi),則將G,,和G,合并成一個新類,記為G,.,即
G'=同。}。
(3)給出計算新類與其它類的距離公式:
與,=min{2,%}
將。⑼中第Rq行及p、g列用上面公式并成Y新行新列,新行新列對應G一所得到的矩陣記為外)。
(4)對。⑺重復上述對2。)的(21(3)兩步得。⑵;如此下去,直到所有的元素并成一類為止。
如果某一步。”,中非對角線最小的元素不止一個,則對應這些最小元素的類可以同時合并。
為了便于理解最短距離法的計算步驟,現(xiàn)在舉一個最簡單的數(shù)字例子。
例1設(shè)抽取五個樣品,每個樣品只測一個指標,它們是1,2,3.5,7,9,試用最短距離法對五個樣
品進行分類。
(1)定義樣品間距離采用絕對距離,計算樣品兩兩距離,得距離陣。(°)如下:
表1
G[={X]}G?={^2}63={X3}G4={Xj65={X5}
G]={xj0
G?={^2}10
G3E}2.51.50
G4HX4}653.50
G5={X5}875.520
(2)找出O(o)中非對角線最小元素是1,即功2=42=1,則將G1與G2并成一個新類,記為
G6={X.,X2)O
(3)計算新類G<,與其它類的距離,按公式:
G,6=min(Dit,Di2)i=3,4,5
即將表Ro,的前兩例取較小的一列得表)如下:
表2
GeG3GA65
G6={X1,X2}0
G3={X3}1.50
G4={X4}53.50
G4={XJ75.520
(4)找出中非對角線最小元素是1.5,則將相應的兩類。和位合并為G7={X,,X2,X.},然后再
按公式計算各類與&的距離,即將Gi,a相應的兩行兩列歸并一行一列,新的行列由原來的兩行(歹11)中
較小的一個組成,計算結(jié)果得表。⑵如下:
GIGA65
G1={Xl,X2,Xi}0
G4={X/3.50
G4HX4}5.520
⑸找出。⑵中非對角線最小元素是2,則將&與統(tǒng)合并成Gg={X4,Xs},最后再按公式計算G與
&的距離,即將G>,8相應的兩行兩列歸并成一行一列,新的行列由原來的兩行(列)中較小的一個組成,
得表。⑶如下:
表4
GIGs
G.={X1,X2,X.}0
G8={X4,X5}3.50
最后將67和伍合并成a,上述并類過程可用下圖表達。橫坐標的刻度是并類的距離。
X1
x4-
由上圖看到分布兩類{X”X2,X3}及{X4,Xs}比較合適,在實際問題中有時給出一個閾值T,要求類與
類之間的距離小于T,因此有些樣品可能歸不了類。
最短距離法也可用于指標(變量)分類,分類時可以用距離,也可以用相似系數(shù)。但用相似系數(shù)時應找
最大的元素并類,也就是把公式D*=min(Dip,%)中的min換成max。
2最長距離法
定義類G,與類G,之間距離為兩類最遠樣品的距離,即
Dpq=maxdy
,qXjeGp,XjeGqJ
最長距離法與最短距離法的并類步驟完全一樣,也是將各樣品先自成一類,然后將非對角線上最小元素對應
的兩類合并。設(shè)某一步將類與Gq合并為G,.,則任一類G*與G,的距離用最長距離公式為
Dkr=maxd::
XfGk,XjWG,,J
=max<maxd”,maxd-:>
J7
[XieGk,XJeGpX產(chǎn)G-X/GgJ
=max{%,%}
再找非對角線最小元素的兩類并類,直至所有的樣品全歸為一類為止。
易見最長距離法與最短距離法只有兩點不同:一是類與類之間的距離定義不同;另一是計算新類與其它
類的距離所用的公式不同。下面將要介紹的其它系統(tǒng)聚類法之間的不同點也表現(xiàn)在這兩個方面,而并類步驟
完全一樣,所以下面介紹其它系統(tǒng)聚類方法時,主要指出這兩個方面:定義和公式。
舉例1應用最長距離法按聚類步驟(1)—(3)可得下表:
。⑼為
表5
G3G4
GG2G5
G[=俾}0
G[={^2}10
G3={X3}2.51.50
G4={X4}653.50
875.520
G5={^5}
口⑴為
表6
G3G4G5
G6={XltX2}0
G3={X3}2.50
G4={xj63.50
85.520
G5={^}
D⑵為
表7
GsG7
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版知識產(chǎn)權(quán)反擔保保證合同書2篇
- 2025版土地抵押權(quán)抵押資產(chǎn)證券化合同模板3篇
- 設(shè)備監(jiān)理合同-《設(shè)備監(jiān)理合同管理》押題密卷2
- 土壤污染治理與農(nóng)業(yè)生態(tài)環(huán)境保護考核試卷
- 唇部護理產(chǎn)品的選擇與涂抹技巧考核試卷
- 2025年銷售部勞動合同加班時間規(guī)定范本2篇
- 2025年家政服務(wù)服務(wù)調(diào)整協(xié)議
- 2025年度木材行業(yè)綠色認證及產(chǎn)品檢測服務(wù)合同范本4篇
- 2025年婚禮廣告合作協(xié)議
- 二零二五年度房地產(chǎn)項目納稅擔保及貸款擔保合同2篇
- 2024年安全教育培訓試題附完整答案(奪冠系列)
- 神農(nóng)架研學課程設(shè)計
- 文化資本與民族認同建構(gòu)-洞察分析
- 2025新譯林版英語七年級下單詞默寫表
- 小學語文閱讀教學落實學生核心素養(yǎng)方法的研究-中期報告
- 眼內(nèi)炎患者護理查房課件
- 唯物史觀課件
- 2021-2022學年四川省成都市武侯區(qū)部編版四年級上冊期末考試語文試卷(解析版)
- 中國傳統(tǒng)文化服飾文化
- 大氣污染控制工程 第四版
- 淺析商務(wù)英語中模糊語言的語用功能
評論
0/150
提交評論