數(shù)據(jù)分析For數(shù)學(xué)建模培訓(xùn)_第1頁(yè)
數(shù)據(jù)分析For數(shù)學(xué)建模培訓(xùn)_第2頁(yè)
數(shù)據(jù)分析For數(shù)學(xué)建模培訓(xùn)_第3頁(yè)
數(shù)據(jù)分析For數(shù)學(xué)建模培訓(xùn)_第4頁(yè)
數(shù)據(jù)分析For數(shù)學(xué)建模培訓(xùn)_第5頁(yè)
已閱讀5頁(yè),還剩32頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)分析喬立山qiaolishan@數(shù)學(xué)建模培訓(xùn)系列之內(nèi)容提要簡(jiǎn)介:什么是數(shù)據(jù)分析?方法?工具?…數(shù)據(jù)分析方法入門(以成績(jī)數(shù)據(jù)為例,以實(shí)際問題驅(qū)動(dòng))描述性統(tǒng)計(jì)分析層次教學(xué)分組缺失成績(jī)補(bǔ)全觸類旁通圖像碎片拼接(2013年數(shù)學(xué)建模題)人臉識(shí)別/智能視頻監(jiān)控(本人研究領(lǐng)域)總結(jié)簡(jiǎn)介:什么是數(shù)據(jù)分析?信息時(shí)代,大數(shù)據(jù)時(shí)代……密切關(guān)系?!“數(shù)據(jù)是信息的載體”。數(shù)據(jù)無(wú)處不在!銷售情況國(guó)民經(jīng)濟(jì)天氣情況銀行交易課程成績(jī)化驗(yàn)報(bào)告圖像聲音……看得見的摸得著的耳聞目睹任何感覺人工采集機(jī)器獲取……簡(jiǎn)介:什么是數(shù)據(jù)分析?然而,數(shù)據(jù)不等于信息。實(shí)際情況:數(shù)據(jù)泛濫,信息貧乏。腫么辦?數(shù)據(jù)分析:從數(shù)據(jù)中獲取信息。怎么分析?數(shù)據(jù)分析的方法?從加減乘除到統(tǒng)計(jì)(特別是多元統(tǒng)計(jì))、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)…只要面向的是數(shù)據(jù),并期望從數(shù)據(jù)中獲取信息的方法數(shù)據(jù)分析的工具?統(tǒng)計(jì)數(shù)據(jù)分析的工具軟件:SAS、SPSS、EXCEL、MATLAB數(shù)據(jù)分析方法入門以成績(jī)數(shù)據(jù)為例,以實(shí)際問題驅(qū)動(dòng)數(shù)據(jù)分析方法入門以成績(jī)數(shù)據(jù)為例,以實(shí)際問題驅(qū)動(dòng)1.給我盡可能多的信息?(描述性統(tǒng)計(jì)分析)2.分層次教學(xué)分組3*.缺失數(shù)據(jù)補(bǔ)全4*.圖像碎片拼接(2013年建模題)5*.人臉識(shí)別/智能監(jiān)控(本人研究領(lǐng)域)數(shù)據(jù)分析方法入門數(shù)據(jù)讀入MATLAB數(shù)據(jù)格式?矩陣,.mat文件(1)直接輸入(2)Load.mat文件(3)復(fù)制粘貼,例,A=[‘Ctrl+V’];(4)菜單操作(5)高級(jí)命令,如xlsread(),…(6)某些特殊矩陣的輸入數(shù)據(jù)存儲(chǔ)(1)save()(2)菜單操作問題1:提供盡可能多信息描述性數(shù)據(jù)分析描述性:集中程度分散程度偏斜程度相關(guān)程度…怎么描述?數(shù)字圖形成績(jī)數(shù)據(jù)分析報(bào)告姓名:xxx每個(gè)人平均分-》排序:xx成績(jī)好,xx成績(jī)差每門課平均分-》排序:xx課難度大,xx課容易些每門課成績(jī)方差:區(qū)分度好不好每個(gè)人成績(jī)方差:偏科程度?。。????直方圖:?jiǎn)栴}1:提供盡可能多信息集中程度:均值:mean()中值:median()分位數(shù):prctile(x,25);prctile(x,75);眾數(shù):mode()其它:geomean():幾何平均harmean():調(diào)和平均…問題1:提供盡可能多信息分散程度:方差:var()標(biāo)準(zhǔn)差:std()變異系數(shù)std()./mean()極差:max()-min()或range()……數(shù)據(jù)的歸一化(X-repmat(min(X),n,1))./(repmat(max(X),n,1)-repmat(min(X),n,1))01%思考:可否用于衡量偏科情況?問題1:提供盡可能多信息偏斜程度:偏度:skewness()問題1:提供盡可能多信息相關(guān)性分析:相關(guān)系數(shù):corrcoef()loadscore2011;cor=corrcoef(score);fori=1:35

cor(i,i)=1;endfori=1:35[junk,idx]=min(cor(i,:));fprintf('%s%s%f\n',className{i},className{idx},cor(i,idx));end問題1:提供盡可能多信息圖形的作用:百聞不如一見,一目了然…常用matlab命令:plot(),subplot(),stem(),hist(),bar(),boxplot(),…問題1:提供盡可能多信息圖形的作用fori=1:15[a,b]=ecdf(score(:,i))subplot(3,5,i);ecdfhist(a,b);axis([0,10000.1]);title(className{i});end問題1:提供盡可能多信息成績(jī)數(shù)據(jù)分析報(bào)告姓名:xxx每個(gè)人平均分-》排序:xx成績(jī)好,xx成績(jī)差每門課平均分-》排序:xx課難度大,xx課容易些每門課成績(jī)方差:區(qū)分度好不好每個(gè)人成績(jī)方差:偏科程度?。。????直方圖-》密度估計(jì):用心良苦相關(guān)系數(shù):課程之間的關(guān)聯(lián)性/從統(tǒng)計(jì)上來(lái)說,頭腦簡(jiǎn)單則四肢發(fā)達(dá),反之亦然。各種圖形。。。問題2:分層次教學(xué)分組若只有一門成績(jī)的話(如英語(yǔ)),簡(jiǎn)單,每個(gè)人都會(huì)做!比如,按成績(jī)排序,分A,B,C…事實(shí)上,隱含著一個(gè)原則:成績(jī)相近的盡可能分到一個(gè)班如何根據(jù)2門以上(如29門、35門)成績(jī)分組?原則沒變:成績(jī)相近的盡可能分到一個(gè)班首要問題是,在多門成績(jī)下如何度量學(xué)生之間的相似性?距離度量!問題2:分層次教學(xué)分組符號(hào):xi(第i行);xj(第j行)X問題2:分層次教學(xué)分組常用距離度量:歐氏距離:絕對(duì)距離:(cityblockmetric)明氏距離:馬氏距離:海明距離、切比雪夫距離、余弦距離...問題2:分層次教學(xué)分組解決思路1:數(shù)據(jù)降維+簡(jiǎn)單排序數(shù)據(jù)降維方法很多,最經(jīng)典的當(dāng)屬主成份分析1933年,可能是最古老的降維方法但是,仍然是目前應(yīng)用最廣泛的降維方法什么是降維?數(shù)學(xué)O語(yǔ)文張三李四王五趙六主成份分析降維的動(dòng)機(jī):以兩門課為例問題2:分層次教學(xué)分組主成份分析的動(dòng)機(jī)散度最大原則:數(shù)據(jù)降維后盡可能散開(方差盡可能大)距離保持原則:原始空間距離近的點(diǎn),降維后距離近;相反,原始空間距離遠(yuǎn)的點(diǎn),降維后距離仍然遠(yuǎn)。重建誤差最小原則:(可通過最小二乘原則實(shí)現(xiàn))……問題2成績(jī)數(shù)據(jù)分析:“分組”解決思路2:聚類分析層次聚類(hierarchicalclustering)k-均值聚類(k-meansclustering)……問題2:分層次教學(xué)分組層次聚類(hierarchicalclustering)問題2:分層次教學(xué)分組逐對(duì)距離計(jì)算:pdist(X,’distance’)MetricDescription'euclidean'Euclideandistance(default).'seuclidean'StandardizedEuclideandistance.'cityblock'Cityblockmetric.'minkowski'Minkowskidistance.'chebychev'Chebychevdistance(maximumcoordinatedifference).'mahalanobis'Mahalanobisdistance.'cosine'Cosinedistance.'correlation'Oneminusthesamplecorrelationbetweenpoints.'spearman'OneminusthesampleSpearman‘srankcorrelationbetweenobservations.'hamming'Hammingdistance.'jaccard'OneminustheJaccardcoefficient,whichisthepercentageofnonzerocoordinatesthatdiffer.customdistancefunctionAdistancefunctionspecifiedusing@:D=pdist(X,@distfun).問題2:分層次教學(xué)分組例.樣本點(diǎn)包括:1,2,6,8,11G1G2G3G4G5G1015710G210469G354025G476203G5109530G6G3G4G5G60469G34025G46203G59530G6G7G5G6049G7403G5930G6G8G604G840問題2:分層次教學(xué)分組點(diǎn)集之間的距離:最小距離:最大距離:中間距離:類平均距離:……問題2:分層次教學(xué)分組樹狀圖/冰狀圖/dendrogram問題2:分層次教學(xué)分組算法:Step1.將每個(gè)樣本各自作為一類,計(jì)算樣本之間的逐對(duì)距離,得到逐對(duì)距離矩陣A0;Step2.尋找A0中最小元素,記為DKL,將GK和GL聚成一個(gè)新類,記為GM={GK,GL};Step3.計(jì)算新類GM與其它類之間的距離(注:此處為集合之間的距離),生產(chǎn)新的逐對(duì)距離矩陣A1;Step4.對(duì)A1重復(fù)step2,如此迭代…問題2:分層次教學(xué)分組MatlabCodesX=score;y=pdist(X,’distance’);%ys=squareform(y);Z=linkage(y,’method’);%注意Z的含義dendrogram(Z);%畫柱狀圖index=cluster(Z,c);%%%%%%%%%%[WD]=eig(X'*(eye(75)-ones(75)/75)*X);Y=X*W(:,1:2);plot(Y(find(index==1),1),Y(find(index==1),2),’b*’);holdon……問題2:分層次教學(xué)分組問題2:分層次教學(xué)分組k均值聚類(k-meansclustering)問題2:分層次教學(xué)分組k均值聚類算法Step1.隨機(jī)選取c個(gè)樣本作為聚類中心;Step2.按照樣本的到中心的距離將其分到不同的類,并將每類樣本的中心作為新的聚類中心;Step3.重復(fù)step2,直至收斂(注:收斂性可證明)MatlabCodesindex=kmeans(X,k);問題3:缺失成績(jī)補(bǔ)全問題4:圖像碎片拼接(2

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論