版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
數(shù)學建模缺失數(shù)據(jù)補充及異常數(shù)據(jù)修正數(shù)學建模缺失數(shù)據(jù)補充及異常數(shù)據(jù)修正數(shù)學建模缺失數(shù)據(jù)補充及異常數(shù)據(jù)修正數(shù)學建模缺失數(shù)據(jù)補充及異常數(shù)據(jù)修正編制僅供參考審核批準生效日期地址:電話:傳真:郵編:題目:數(shù)據(jù)的預處理問題摘要數(shù)據(jù)處理貫穿于社會生產(chǎn)和社會生活的各個領域。數(shù)據(jù)處理技術的發(fā)展及其應用的廣度和深度,極大地影響著人類社會發(fā)展的進程。數(shù)據(jù)補充,異常數(shù)據(jù)的鑒別及修正,在各個領域也起到了重要作用。對于第一問,我們采用了多元線性回歸的方法對缺失數(shù)據(jù)進行補充,我們將(見附表一)中的數(shù)據(jù)導入matlab。首先作出散點圖,設定y(X59287)與x1(X54511)、x2(X57494)的關系為二元線性回歸模型,即y=b0+b1x1+b2x2。之后作多元回歸,求出系數(shù)b0=,b1=,b2=,所以多元線性回歸多項式為:Y=+*x1+*x2。再作出殘差分析圖驗證擬合效果,殘差較小,說明回歸多項式與源數(shù)據(jù)吻合得較好。若x1=,x2=時,y的數(shù)據(jù)缺失,則將x1,x2帶入回歸多項式,算出缺失值y=。類似地,若x1=,x2=時,y的數(shù)據(jù)缺失,則將x1,x2帶入回歸多項式,算出缺失值y=,即可補充缺失數(shù)據(jù)。對于第二問,我們使用了異常值檢驗中標準差未知的t檢驗法。將除可疑測定值以外的其余測定值當做一個總體,并假設該總體服從正態(tài)分布。由這些測定值計算平均值與標準差s,而將可疑值當做一個樣本容量為1的特殊總體。如果與其余測定值同屬于一個總體,則它與其余測定值之間不應有顯著性差異。檢測統(tǒng)計量為:,假設可由標準差s替代來進行檢驗,則檢測統(tǒng)計量可視為:。若統(tǒng)計量值大于相應置信度下的t檢驗法的臨界值(該臨界值通過查表法得出),則將判為異常值。由此算法即可鑒別出相應的異常數(shù)據(jù)。對于第三問,對于問題三,我們采用了分段線性插值,最近方法插值,三次樣條函數(shù)插值以及三次多項式方法插值法來修正數(shù)據(jù)異常。同時也需利用外插法修正最后一個數(shù)據(jù)的異常。通過各種插值方法的比較,發(fā)現(xiàn)三次樣條方法較為準確,并較好的對異常數(shù)據(jù)進行修正。關鍵詞:多元線性回歸,t檢驗法,分段線性插值,最近方法插值,三次樣條插值,三次多項式插值C38姓名學號專業(yè)隊長康偉振032應數(shù)長望隊員一卜維新033網(wǎng)絡工程隊員二李蘭馨059應用氣象問題重述背景在數(shù)學建模過程中總會遇到大數(shù)據(jù)問題。一般而言,在提供的數(shù)據(jù)中,不可避免會出現(xiàn)較多的檢測異常值,怎樣判斷和處理這些異常值,對于提高檢測結果的準確性意義重大。需要解決的問題(1)給出缺失數(shù)據(jù)的補充算法;(2)給出異常數(shù)據(jù)的鑒別算法;(3)給出異常數(shù)據(jù)的修正算法。模型分析問題(1)的分析屬性值數(shù)據(jù)缺失經(jīng)常發(fā)生甚至不可避免。較為簡單的數(shù)據(jù)缺失平均值填充如果空值為數(shù)值型的,就根據(jù)該屬性在其他所有對象取值的平均值來填充缺失的屬性值;如果空值為非數(shù)值型的,則根據(jù)眾數(shù)原理,用該屬性在其他所有對象的取值次數(shù)最多的值(出現(xiàn)頻率最高的值)來補齊缺失的屬性值。 (2)熱卡填充(就近補齊)對于包含空值的數(shù)據(jù)集,熱卡填充法在完整數(shù)據(jù)中找到一個與其最相似的數(shù)據(jù),用此相似對象的值進行填充。 (3)刪除元組 將存在遺漏信息屬性值的元組刪除。(二)較為復雜的數(shù)據(jù)缺失 (1)多元線性回歸 當有缺失的一組數(shù)據(jù)存在多個自變量時,可以考慮使用多元線性回歸模型。將所有變量包括因變量都先轉化為標準分,再進行線性回歸,此時得到的回歸系數(shù)就能反映對應自變量的重要程度。 問題(2)的分析屬性值異常數(shù)據(jù)鑒別很重要。我們可以采用異常值t檢驗的方法比較前后兩組數(shù)據(jù)的平均值,與臨界值相比較即可辨別數(shù)據(jù)異常并剔除異常數(shù)據(jù)。將除可疑測定值以外的其余測定值當做一個總體,并假設該總體服從正態(tài)分布。由這些測定值計算平均值與標準差s,而將可疑值當做一個樣本容量為1的特殊總體。如果與其余測定值同屬于一個總體,則它與其余測定值之間不應有顯著性差異。檢測統(tǒng)計量為:,假設可由標準差s替代來進行檢驗,則檢測統(tǒng)計量可視為:。若統(tǒng)計量值大于相應置信度下的t檢驗法的臨界值(該臨界值通過查表法得出),則將判為異常值。問題(3)的分析對于數(shù)據(jù)修正,我們采用各種插值算法進行修正,這是一種行之有效的方法。(1)分段線性插值將每兩個相鄰的節(jié)點用直線連起來,如此形成的一條折線就是分段線性插值函數(shù),記作,它滿足,且在每個小區(qū)間上是線性函數(shù)??梢员硎緸橛辛己玫氖諗啃?,即對于有,用計算x點的插值時,只用到x左右的兩個節(jié)點,計算量與節(jié)點個數(shù)n無關。但n越大,分段越多,插值誤差越小。實際上用函數(shù)表作插值計算時,分段線性插值就足夠了,如數(shù)學、物理中用的特殊函數(shù)表,數(shù)理統(tǒng)計中用的概率分布表等。(2)三次多項式算法插值當用已知的n+1個數(shù)據(jù)點求出插值多項式后,又獲得了新的數(shù)據(jù)點,要用它連同原有的n+1個數(shù)據(jù)點一起求出插值多項式,從原已計算出的n次插值多項式計算出新的n+1次插值多項式很困難,而此算法可以克服這一缺點。(3)三次樣條函數(shù)插值[4]數(shù)學上將具有一定光滑性的分段多項式稱為樣條函數(shù)。三次樣條函數(shù)為:對于上的分劃:=b,則,利用樣條函數(shù)進行插值,即取插值函數(shù)為樣條函數(shù),稱為樣條插值。模型假設1.假設只有因變量存在數(shù)據(jù)缺失,而自變量不存在缺失。2.利用t檢驗法時,將除可疑測定值以外的其余測定值當做一個總體,并假設該總體服從正態(tài)分布。問題(1)的分析與求解問題分析 本題需要對缺失數(shù)據(jù)進行補充,情況可分為數(shù)據(jù)集中單一元素缺失及某一元組缺失兩種情況。因此,對數(shù)據(jù)處理采用同上模型分析的處理方法。問題處理我們將(見附表一)中的數(shù)據(jù)導入matlab(程序見附錄一)。首先作出散點圖。設定y(X59287)與x1(X54511)、x2(X57494)的關系為二元線性回歸模型,即y=b0+b1x1+b2x2。之后作多元回歸,求出系數(shù)b0=,b1=,b2=,所以多元線性回歸多項式為:Y=+*x1+*x2。由matlab編程所得結果圖如下4-2所示。 圖4-2再作出殘差分析圖驗證擬合效果,殘差較小,說明回歸多項式與源數(shù)據(jù)吻合得較好。若x1=,x2=時,y的數(shù)據(jù)缺失,則將x1,x2帶入回歸多項式,算出缺失值y=。類似地,若x1=,x2=時,y的數(shù)據(jù)缺失,則將x1,x2帶入回歸多項式,算出缺失值y=,即可補充缺失數(shù)據(jù)。 問題(2)的分析與求解問題分析本題需要對給定缺失數(shù)據(jù)進行鑒別,可以采用的方法為t檢驗檢測法。T檢驗用t分布理論來推論差異發(fā)生的概率,從而比較兩個平均數(shù)的差異是否顯著。問題處理 (一)隨機產(chǎn)生數(shù)據(jù)由R系統(tǒng)隨機產(chǎn)生數(shù)據(jù)對其進行缺失數(shù)據(jù)鑒別,代碼如附錄四所示,結果圖如下5-1,5-2,5-3所示。圖5-1圖5-2圖5-3 (二)給定相應數(shù)據(jù)對于問題二,在數(shù)據(jù)完整但出現(xiàn)異常的情況下,可以考慮使用異常值檢驗中標準差未知的t檢驗法。將除可疑測定值以外的其余測定值當做一個總體,并假設該總體服從正態(tài)分布。由這些測定值計算平均值與標準差s,而將可疑值當做一個樣本容量為1的特殊總體。如果與其余測定值同屬于一個總體,則它與其余測定值之間不應有顯著性差異。檢測統(tǒng)計量為:,假設可由標準差s替代來進行檢驗,則檢測統(tǒng)計量可視為:。若統(tǒng)計量值大于相應置信度下的t檢驗法的臨界值(該臨界值通過查表法得出),則將判為異常值。具體數(shù)據(jù)見附表二,具體程序詳見附錄二,結果圖如下5-4所示。圖5-4問題(3)的分析與求解問題分析對于問題三,我們采用了分段線性插值,最近方法插值,三次樣條函數(shù)插值以及三次多項式方法插值法來修正數(shù)據(jù)異常。同時也需利用外插法修正最后一個數(shù)據(jù)的異常。詳見對問題三的處理原理。 具體代碼見附錄三。附錄一多元線性回歸matlab程序clear;data1=xlsread('C:\Users\Lenovo\Desktop\');%做出散點圖figure(1)scatter3(data1(:,4),data1(:,5),data1(:,6),'r');x=[ones(262,1),data1(:,4),data1(:,5)];y=data1(:,6);[b,bint,r,rint,stats]=regress(y,x);xlabel('X54511(x1)');ylabel('X57494(x2)');zlabel('X59287(y)');text,,,'回歸方程式為:y=++','color','b');title('x1,x2,y的關系:','color','m');%做殘差分析圖figure(2)reoplot(r,rint);xlabel('數(shù)據(jù)');ylabel('殘差');title('殘差繪制圖');%補缺失數(shù)據(jù)x1=[,];y1=x1*b;x2=[,];y2=x2*b;附錄二t檢驗spss代碼GETDATA/TYPE=XLS/FILE='C:\Users\bwx\Desktop\'/SHEET=name'Sheet1'/CELLRANGE=full/READNAMES=on/ASSUMEDSTRWIDTH=32767.EXECUTE.DATASETNAME數(shù)據(jù)集2WINDOW=FRONT.T-TEST/TESTVAL=0/MISSING=ANALYSIS/VARIABLES=y/CRITERIA=CI(.95).附錄三插值修正數(shù)據(jù)matlab代碼clear>>T=0:5:65T=05101520253035404550556065>>X=2:5:57X=2712172227323742475257>>F=[,,,,,,,,,,,,,];>>F1=interp1(T,F,X)F1=+003*Columns1through10Columns11through12>>F1=interp1(T,F,X,'nearest')F1=+003*Columns1through10Columns11through12>>F1=interp1(T,F,X,'nearest')%最近方法插值F1=+003*Columns1through10Columns11through12>>F1=interp1(T,F,X,'spline')%三次樣條方法插值F1=+003*>>F1=interp1(T,F,X,'cubic')%三次多項式方法插值F1=+003*附錄四隨機數(shù)據(jù)缺失鑒別R語言代碼(2016)>x<-rnorm(100)>summary(x)Min.1stQu.MedianMean3rdQu.Max.>summary(x)Min.1stQu.MedianMean3rdQu.Max.>#outliers>(x)#out$stats[1]$n[1]100$conf[1]$out[1]>(x)$out[1]>boxplot(x)>y<-rnorm(100)>df<(x,y)>rm(x,y)>head(df)xy1-3.230.40.50.60.>attach(df)>
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 買賣合同第三方保證擔保合同(2024版)
- 二零二五年度旅行社旅游培訓合作合同4篇
- 2025年度女方婚內(nèi)出軌離婚財產(chǎn)分割及贍養(yǎng)費協(xié)議
- 2025年度個人商鋪租賃合同能源消耗監(jiān)測與管理合同4篇
- 2025年度個人與企業(yè)間特殊用途車輛租賃合同3篇
- 二零二五年度農(nóng)民工勞動保護補貼發(fā)放合同標準
- 2024苗木運輸合同范本全面規(guī)范運輸過程中的風險防控3篇
- 二零二五年度加油站LED廣告屏安裝裝修合同3篇
- 二零二五年度農(nóng)業(yè)科技園區(qū)運營管理服務合同-@-1
- 二零二五年度企業(yè)內(nèi)部講師培訓班報名協(xié)議4篇
- 2024年全國體育專業(yè)單獨招生考試數(shù)學試卷試題真題(含答案)
- 北師大版小學三年級上冊數(shù)學第五單元《周長》測試卷(含答案)
- DB45T 1950-2019 對葉百部生產(chǎn)技術規(guī)程
- 2025屆河北省衡水市衡水中學高考仿真模擬英語試卷含解析
- 新修訂《保密法》知識考試題及答案
- 電工基礎知識培訓課程
- 住宅樓安全性檢測鑒定方案
- 廣東省潮州市潮安區(qū)2023-2024學年五年級上學期期末考試數(shù)學試題
- 市政道路及設施零星養(yǎng)護服務技術方案(技術標)
- 選擇性必修一 期末綜合測試(二)(解析版)2021-2022學年人教版(2019)高二數(shù)學選修一
- 《論語》學而篇-第一課件
評論
0/150
提交評論