KNN數(shù)據(jù)挖掘算法在霾等級預報中的應用

上傳人：I*** IP屬地：浙江上傳時間：2022-08-18 格式：DOCX 頁數(shù)：7 大?。?84.36KB 積分：25 舉報 版權(quán)申訴

已閱讀5頁，還剩2頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領

文檔簡介

1、 KNN數(shù)據(jù)挖掘算法在霾等級預報中的應用陳星燦徐冰Summary：在對2017年A地地區(qū)氣象數(shù)據(jù)進行對比分析后發(fā)現(xiàn)影響A地地區(qū)霾等級的主要因素有以下七個：氣溫、氣壓、相對濕度、露點溫度、地面U風、地面V風以及PM2.5濃度。上述的七項主要因素是影響A地區(qū)霾等級的屬性特征，將霾的等級劃分當作標志量，以此來構(gòu)建樣本集合，再用KNN數(shù)據(jù)挖掘算法來構(gòu)建劃分霾等級的預報分類器，從而進行試驗。得到如下結(jié)論：當K=3時該分類器的預報效果最佳，準確度高達88.2%。基于該算法構(gòu)建的KNN模型預報無霾時準確度很高，達91.8%，且對于霧霾的空報率也較低，但對霾等級的預報精確度還有待改善。Key：數(shù)據(jù)挖掘；K

2、NN；霾；預報：TP311 ：A：1009-3044（2019）09-0003-02霾的定義簡而言之就是在空氣中懸浮的微粒，這些微粒主要由煙、塵等物質(zhì)形成，在區(qū)域空氣中形成渾濁現(xiàn)象，空氣中的能見度低于10千米。隨著城市和工業(yè)的不斷發(fā)展霧霾現(xiàn)象日益頻繁，嚴重影響著人們的生產(chǎn)生活活動。因此，對霾等級的預報也尤為重要。根據(jù)相關研究數(shù)據(jù)可知，氣候因素在很大程度上能夠影響到霾的發(fā)生。從近年來對霾進行預報的方式來看，主要有兩種預報方式：數(shù)值預報和模式輸出統(tǒng)計預報。在運用數(shù)值預報方法進行計算時，方法通過對大氣污染和大氣氣象要素的變化過程進行模擬。但此類方法受不確定因素較多，在日常業(yè)務化預報中有較大的局限。在

3、查閱陳亦君、毛宇清、鄭峰等人做的相關實驗的基礎上，得出以下結(jié)論：氣溶膠的濃度嚴重影響著霾程度的大小。但是，目前同時采用數(shù)值天氣預報模式和環(huán)境模式的兩類輸出結(jié)果的相關試驗研究還較少。因此，在本次研究中，為了更好地對霾等級進行預測，將數(shù)值天氣預報模式和環(huán)境模式這樣兩種方法結(jié)合在一起，從而能夠保證霾預報模型能夠?qū)崟r對霾進行動態(tài)預報，并采用KNN數(shù)據(jù)挖掘算法對霾等級進行分類。為了保證研究結(jié)果真實可靠，在本次研究中將A地作為研究的對象，將2017年A地13個區(qū)的資料作為研究數(shù)據(jù)，其中包括這個13個區(qū)的溫度、氣壓、濕度、風以及能見度、PM2.5含量等氣象要素，要買數(shù)據(jù)采取的數(shù)據(jù)頻為3h/次。隨著科技的發(fā)展

4、，數(shù)據(jù)挖掘算法也廣泛應用于氣象學中。本文在調(diào)研黃穎等實驗的基礎上決定使用KNN數(shù)據(jù)挖掘算法。KNN是一種非參數(shù)化監(jiān)督算法，又叫作“K近鄰算法。在KNN數(shù)據(jù)挖掘算法下，對不同對象的分類處理主要根據(jù)對象間不同特征值的距離進行劃分，一直在這種算法下，能夠保持挖掘結(jié)果的精準度高、受異常數(shù)值的影響。當前數(shù)值天氣預報解釋仍廣泛采用建立回歸預報方程的方法，但由于大氣運動具有混沌性和非線性特征，因此采用回歸方程的方法較為復雜。KNN算法的思路是：根據(jù)客觀性、規(guī)律性，其結(jié)果也應具有相似性。數(shù)值天氣預報解釋使用到KNN算法時，直接以歷史天氣個例樣本做訓練集，并將天氣學預報思路和數(shù)值預報結(jié)果進行融合，就可避開建立回

5、歸預報方程帶來的弊端。1 實驗分析1.1 KNN中屬性變量選取根據(jù)上面的分析，充分證明了能見度變化的復雜性。通過每個因素分別于可見度進行了相關性分析可知，對能見度影響最大的因素是風速和風向，因此KNN分類集中將風分解u、v兩個分量。除了濕度和能見度以外，氣溫和氣壓也是能夠代表氣候情況的兩個因素，特別是對空氣活動和天氣系統(tǒng)的檢測發(fā)揮非常重要的作用，因此也被選入到訓練屬性集中。1.2 K參數(shù)的選取KNN算法的準確度很大程度上受K值的影響。一般來講，K值的選取一般為大小適中的奇數(shù)。交叉驗證（Crossvalidation）又稱為循環(huán)估計法，它的操作過程是將樣本整體分化為較小的子集，對每一個自己進行分

6、別驗證。通常采用先分析一個子集，再用其他子集進行驗證。交叉驗證通常用來評估統(tǒng)計分析、訓練數(shù)據(jù)的數(shù)據(jù)集的泛化能力。本文的K值由交叉驗證方式來確定。表2給出了K分別取3、5和7時的分類準確率。結(jié)果表明：當K=3、5或7時，交叉檢驗準確率均在80%以上，且K=3時的分類準確率明顯高于K=5或7時的結(jié)果。因此，本文中的KNN模型的K值選為3。1.3 KNN分類器的準確率分析在表3中，詳細地展示了運用KNN分類器對霾進行分類交叉檢驗后的結(jié)果。由表可知：（1）當無霾時，預報準確率高達91.8%；輕微霾漏報率為6.9%，其他霾概等級漏報率均1%。（2）當輕微霾時，空報率為16.1%，預報正確率達67.4%，

7、輕度霾漏報率為11.2%，中、重度霾漏報率均5%。（3）當輕度霾時，空報率為4.7%，預報正確率為59.8%。中、重度霾漏報率分別為10.4%和3.7%。（4）當中度霾時，空率僅為1.4%，預報正確率為53.4%，實況情況還要略低。（5）當重度霾時，空報率為2.6%，預報正確率為60.4%。結(jié)合以上觀點可以看出，KNN分類器的使用可靠性更高，在有霾情況下的空報率和漏報率很低，對霧霾登記的預報相對準確。雖然對于相鄰霾等級的區(qū)分仍存在誤差，但是誤差在可接受范圍內(nèi)。因此所構(gòu)建的KNN分類器具有較強的實用性。2 基于KNN算法的實際業(yè)務預報系統(tǒng)本研究使用Python編寫KNN算法來搭建霾等級預報系統(tǒng)。

8、圖2所展示的是A地區(qū)的三個基本站在72小時內(nèi)，每間隔三小時進行一次實況數(shù)據(jù)收集和霾預報。圖2a表示在25個觀測時次中，霾等級程度均各不相同，在最終預報出的19個時次中，對霧霾的有無進行預報準確率高達76%。而在B站點和C站點中，雖然能夠預測出有無霾，準確率分別為64%和84%，但實在對買等級進行化劃分時，精準度略有欠缺。3 結(jié)論本文研究了基于KNN算法的霾等級預報分級的方法，得到如下結(jié)論：（1）溫度、氣壓、相對濕度、溫度、U風、V風以及PM2.5濃度等7變量構(gòu)成了霾預報的KNN分類器的特征屬性，并且選霾的等級為標志項。（2）根據(jù)KNN分類器分別K=3、5或7的實驗結(jié)果證明A地地區(qū)13個站點的交

9、叉檢驗準確率分別：88.2%、85.8%、84.7%，K=3時的分類準確率較高。在對無霾天氣進行預報時準確率保持在91.8%，雖然存在漏報的概念，但是概率數(shù)據(jù)相對降低。（3）由于監(jiān)測資料的有限，訓練樣本集只選取了2017年的分析數(shù)據(jù)，在一定程度上影響了預報準確率。而且，目前是將BREMPS的結(jié)果直接運用到了KNN霾分類算法預報中，預報的準確度存在一定風險，為了進一步提升KNN霾分類算法的預報準確度，會在日后的研究中通過對PM 2.5濃度資料不斷積累，達到一定程度后，可以運用在BREMPS的預報結(jié)果修正上。因此，未來對KNN霾分類算法KNN霾分類算法的準確率仍然有進一步提升的空間。Refere

10、nce：1 溫榮坤.基于偏微積分分類數(shù)學模型的關聯(lián)挖掘改進技術J/OL.現(xiàn)代電子技術，2018（13）：95-99.2 潘燕.關聯(lián)規(guī)則下的數(shù)據(jù)挖掘算法分析J.信息記錄材料，2018（07）：212-213.3 米保全.數(shù)據(jù)挖掘技術在高職院校教學管理中的應用J/OL.軟件導刊，2018（8）：1-4.4 嚴嘉維，張琛，李成蹊，等.基于Hadoop的可信計算平臺日志分析模型J/OL.軟件導刊，2018.5 孫金鑫.數(shù)據(jù)挖掘中的關聯(lián)規(guī)則的研究J.智能計算機與應用，2018，8（03）：132-135.6 熊亞軍，徐敬，孫兆彬，等.基于數(shù)據(jù)挖掘算法和數(shù)值模擬技術的大氣污染減排效果評估J/OL.環(huán)境科學學報，2019，39（1）：116-125.7 李博.APRIORI數(shù)據(jù)挖掘算法

人人文庫> 全部分類> 專業(yè)文獻 > IT計算機

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

KNN數(shù)據(jù)挖掘算法在霾等級預報中的應用

文檔簡介

溫馨提示

最新文檔

評論

KNN數(shù)據(jù)挖掘算法在霾等級預報中的應用

文檔簡介

溫馨提示

最新文檔

評論

相關文檔