大數(shù)據(jù)挖掘與算法_第1頁
大數(shù)據(jù)挖掘與算法_第2頁
大數(shù)據(jù)挖掘與算法_第3頁
大數(shù)據(jù)挖掘與算法_第4頁
大數(shù)據(jù)挖掘與算法_第5頁
已閱讀5頁,還剩55頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、大數(shù)據(jù)挖掘與算法第三章數(shù)據(jù)挖掘算法3.1數(shù)據(jù)挖掘概述3.2分類3.3聚類3.4關(guān)聯(lián)規(guī)則3.5預(yù)測規(guī)模習(xí)題3.6數(shù)據(jù)挖掘算法綜合應(yīng)用of3923.1數(shù)據(jù)挖掘概述第三章 數(shù)據(jù)挖掘算法20世紀(jì)80年代末,數(shù)據(jù)挖掘(Data Mining,DM)提出。1989年,KDD 這個名詞正式開始出現(xiàn)。1995年,“數(shù)據(jù)挖掘” 流傳。從科學(xué)定義分析,數(shù)據(jù)挖掘是從大量的、有噪聲的、不完全的、模糊和隨機(jī)的數(shù)據(jù)中,提取出隱含在其中的、人們事先不知道的、具有潛在利用價值的信息和知識的過程。從技術(shù)角度分析,數(shù)據(jù)挖掘就是利用一系列的相關(guān)算法和技術(shù),從大數(shù)據(jù)中提取出行業(yè)或公司所需要的、有實際應(yīng)用價值的知識的過程。知識表示形式

2、可以是概念、規(guī)律、規(guī)則與模式等。準(zhǔn)確地說,數(shù)據(jù)挖掘是整個知識發(fā)現(xiàn)流程中的一個具體步驟,也是知識發(fā)現(xiàn)過程中最重要的核心步驟。特征處理大數(shù)據(jù)的能力更強(qiáng),且無須太專業(yè)的統(tǒng)計背景就可以使用數(shù)據(jù)挖掘工具數(shù)據(jù)挖掘的最終目的是方便企業(yè)終端用戶使用,而并非給統(tǒng)計學(xué)家檢測用的從使用與需求的角度上看,數(shù)據(jù)挖掘工具更符合企業(yè)界的需求of3933.1.1 數(shù)據(jù)挖掘概念3.1數(shù)據(jù)挖掘概述第三章 數(shù)據(jù)挖掘算法使用廣義角度分類聚類估值預(yù)測關(guān)聯(lián)規(guī)則數(shù)理基礎(chǔ)角度機(jī)器學(xué)習(xí)方法統(tǒng)計方法神經(jīng)網(wǎng)絡(luò)方法決策樹基于范例學(xué)習(xí)規(guī)則歸納遺傳算法回歸分析時間序列分析關(guān)聯(lián)分析聚類分析粗糙集探索性分析支持向量機(jī)最近鄰分析模糊集前向神經(jīng)網(wǎng)絡(luò)自組織神經(jīng)網(wǎng)

3、絡(luò)多層神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)感知機(jī)可視化of3943.1.2 數(shù)據(jù)挖掘常用算法3.1數(shù)據(jù)挖掘概述第三章 數(shù)據(jù)挖掘算法1分類數(shù)據(jù)挖掘方法中的一種重要方法就是分類,在給定數(shù)據(jù)基礎(chǔ)上構(gòu)建分類函數(shù)或分類模型,該函數(shù)或模型能夠把數(shù)據(jù)歸類為給定類別中的某一種類別,這就是分類的概念。2聚類3關(guān)聯(lián)規(guī)則4時間序列預(yù)測聚類也就是將抽象對象的集合分為相似對象組成的多個類的過程,聚類過程生成的簇稱為一組數(shù)據(jù)對象的集合。關(guān)聯(lián)規(guī)則屬于數(shù)據(jù)挖掘算法中的一類重要方法,關(guān)聯(lián)規(guī)則就是支持度與信任度分別滿足用戶給定閾值的規(guī)則。時間序列預(yù)測法是一種歷史引申預(yù)測法,也即將時間數(shù)列所反映的事件發(fā)展過程進(jìn)行引申外推,預(yù)測發(fā)展趨勢的一種方法。of

4、3953.1.2 數(shù)據(jù)挖掘常用算法3.1數(shù)據(jù)挖掘概述第三章 數(shù)據(jù)挖掘算法按照數(shù)據(jù)挖掘的應(yīng)用場景分類,數(shù)據(jù)挖掘的應(yīng)用主要涉及通信、股票、金融、銀行、交通、商品零售、生物醫(yī)學(xué)、精確營銷、地震預(yù)測、工業(yè)產(chǎn)品設(shè)計等領(lǐng)域,在這些領(lǐng)域眾多數(shù)據(jù)挖掘方法均被廣泛采用且衍生出各自獨(dú)特的算法。1數(shù)據(jù)挖掘在電信行業(yè)的應(yīng)用2數(shù)據(jù)挖掘在商業(yè)銀行中的應(yīng)用數(shù)據(jù)挖掘廣泛應(yīng)用在電信行業(yè),可以幫助企業(yè)制定合理的服務(wù)與資費(fèi)標(biāo)準(zhǔn)、防止欺詐、優(yōu)惠政策,為公司決策者提供可靠的決策依據(jù),為市場營銷、客戶服務(wù)、全網(wǎng)業(yè)務(wù)、經(jīng)營決策等提供有效的數(shù)據(jù)支撐,進(jìn)一步完善了國內(nèi)電信公司對省、市電信運(yùn)營的指導(dǎo),在業(yè)務(wù)運(yùn)營中發(fā)揮重要的作用,從而為精細(xì)化運(yùn)營

5、提供技術(shù)與數(shù)據(jù)的基礎(chǔ)。在美國銀行業(yè)與金融服務(wù)領(lǐng)域數(shù)據(jù)挖掘技術(shù)的應(yīng)用十分廣泛,由于金融業(yè)務(wù)的分析與評估往往需要大數(shù)據(jù)的支撐,從中可以發(fā)現(xiàn)客戶的信用評級與潛在客戶等有價值的信息,可成功地預(yù)測客戶的需求。of3963.1.3 數(shù)據(jù)挖掘應(yīng)用場景3.1數(shù)據(jù)挖掘概述第三章 數(shù)據(jù)挖掘算法3數(shù)據(jù)挖掘在信息安全中的應(yīng)用4數(shù)據(jù)挖掘在科學(xué)探索中的應(yīng)用利用機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘等前沿技術(shù)與處理方法對入侵檢測的數(shù)據(jù)進(jìn)行自動分析,提取出盡可能多的隱藏安全信息,從中抽象出與安全有關(guān)的數(shù)據(jù)特征,從而能夠發(fā)現(xiàn)未知的入侵行為。數(shù)據(jù)挖掘技術(shù)可以建立一種具備自適應(yīng)性、自動的、系統(tǒng)與良好擴(kuò)展性的入侵檢測系統(tǒng),能夠解決傳統(tǒng)入侵檢測系統(tǒng)適應(yīng)性

6、與擴(kuò)展性較差的弱點(diǎn),大幅度提高入侵檢測系統(tǒng)的檢測與響應(yīng)的效能。近年來,數(shù)據(jù)挖掘技術(shù)已經(jīng)開始逐步應(yīng)用到科學(xué)探索研究中。例如,在生物學(xué)領(lǐng)域數(shù)據(jù)挖掘主要應(yīng)用在分子生物學(xué)與基因工程的研究。 使用概率論模型對蛋白質(zhì)序列進(jìn)行多序列聯(lián)配建模; 特定數(shù)據(jù)挖掘技術(shù)研究基因數(shù)據(jù)庫搜索技術(shù); 在被認(rèn)為是人類征服頑疾的最有前途的攻關(guān)課題“DNA序列分析”過程中,由于DNA序列的構(gòu) 成多種多樣,數(shù)據(jù)挖掘技術(shù)的應(yīng)用可以為發(fā)現(xiàn)疾病蘊(yùn)藏的基因排列信息提供新方法。of3973.1.3 數(shù)據(jù)挖掘應(yīng)用場景3.1數(shù)據(jù)挖掘概述第三章 數(shù)據(jù)挖掘算法根據(jù)適用的范圍,數(shù)據(jù)挖掘工具分為兩類:專用挖掘工具和通用挖掘工具。專用數(shù)據(jù)挖掘工具針對某個

7、特定領(lǐng)域的問題提供解決方案,在涉及算法的時候充分考慮數(shù)據(jù)、需求的特殊性。對任何應(yīng)用領(lǐng)域,專業(yè)的統(tǒng)計研發(fā)人員都可以開發(fā)特定的數(shù)據(jù)挖掘工具。Weka軟件SPSS軟件Clementine軟件RapidMiner軟件其他數(shù)據(jù)挖掘軟件SPSS采用類似Excel表格的方式輸入與管理數(shù)據(jù),數(shù)據(jù)接口較為通用,能方便地從其他數(shù)據(jù)庫中讀入數(shù)據(jù)。突出的特點(diǎn)是操作界面友好,且輸出結(jié)果美觀。Clementine提供出色、廣泛的數(shù)據(jù)挖掘技術(shù),確保用恰當(dāng)?shù)姆治黾夹g(shù)來處理相應(yīng)的商業(yè)問題,得到最優(yōu)的結(jié)果以應(yīng)對隨時出現(xiàn)的問題。RapidMiner并不支持分析流程圖方式,當(dāng)包含的運(yùn)算符比較多時就不容易查看;具有豐富的數(shù)據(jù)挖掘分析和

8、算法功能,常用于解決各種商業(yè)關(guān)鍵問題。公開的數(shù)據(jù)挖掘工作平臺,集成大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對數(shù)據(jù)進(jìn)行預(yù)處理、分類、回歸、聚類、關(guān)聯(lián)規(guī)則,以及交互式界面上的可視化。流行的數(shù)據(jù)挖掘軟件還包括Orange、Knime、Keel與Tanagra等of3983.1.4 數(shù)據(jù)挖掘工具3.2分類3.1數(shù)據(jù)挖掘概述第三章數(shù)據(jù)挖掘算法3.3聚類3.4關(guān)聯(lián)規(guī)則3.5預(yù)測規(guī)模習(xí)題3.6數(shù)據(jù)挖掘算法綜合應(yīng)用of3993.2 分類分類是一種重要的數(shù)據(jù)分析形式,根據(jù)重要數(shù)據(jù)類的特征向量值及其他約束條件,構(gòu)造分類函數(shù)或分類模型(分類器),目的是根據(jù)數(shù)據(jù)集的特點(diǎn)把未知類別的樣本映射到給定類別中。數(shù)據(jù)分類過程

9、主要包括兩個步驟,即學(xué)習(xí)和分類。圖3-1 建立一個模型第一步,建立一個模型第三章 數(shù)據(jù)挖掘算法of3910圖3-2 使用模型進(jìn)行分類3.2 分類第二步,使用模型進(jìn)行分類第三章 數(shù)據(jù)挖掘算法of39113.2 分類分類分析在數(shù)據(jù)挖掘中是一項比較重要的任務(wù),目前在商業(yè)上應(yīng)用最多。分類的目的是從歷史數(shù)據(jù)記錄中自動推導(dǎo)出對給定數(shù)據(jù)的推廣描述,從而學(xué)會一個分類函數(shù)或分類模型(也常常稱作分類器),該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定類別中的某一個類中。為建立模型而被分析的數(shù)據(jù)元組形成訓(xùn)練數(shù)據(jù)集,由一組數(shù)據(jù)庫記錄或元組構(gòu)成,每個元組是一個由有關(guān)字段(又稱屬性或特征)值組成的特征向量,此外,每一個訓(xùn)練樣本都有

10、一個預(yù)先定義的類別標(biāo)記,由一個被稱為類標(biāo)簽的屬性確定。一個具體樣本的形式可表示為 ,其中 表示字段值,C 表示類別分類又稱為有監(jiān)督的學(xué)習(xí)第三章 數(shù)據(jù)挖掘算法of39123.2 分類1條件概率數(shù)學(xué)基礎(chǔ)知識事件A 在另外一個事件B 已經(jīng)發(fā)生條件下的發(fā)生概率,稱為在B 條件下A 的概率。表示為2聯(lián)合概率聯(lián)合概率表示兩個事件共同發(fā)生的概率。 A 與B 的聯(lián)合概率表示為 、 或者3貝葉斯定理貝葉斯定理用來描述兩個條件概率之間的關(guān)系,例如, 與 。根據(jù)乘法法則 可以推導(dǎo)出貝葉斯公式:第三章 數(shù)據(jù)挖掘算法of39133.2.1 貝葉斯決策與分類器3.2 分類4全概率公式全概率公式為概率論中的重要公式,它將對

11、復(fù)雜事件A 的概率求解問題轉(zhuǎn)化為在不同情況下發(fā)生的簡單事件的概率的求和問題。設(shè) 構(gòu)成一個完備事件組,即它們兩兩互不相容,其和為全集,且 ,則事件A的概率為:貝葉斯分類的工作過程如下:(1)每個數(shù)據(jù)樣本均是由一個n 維特征向量 表示,分別描述其n 個屬性的具體取值。第三章 數(shù)據(jù)挖掘算法of39143.2.1 貝葉斯決策與分類器3.2 分類4全概率公式(2)假設(shè)共有m 個不同類別, 。給定一個未知類別的數(shù)據(jù)樣本X(沒有類別號),分類器預(yù)測屬于X 后驗概率最大的那個類別。也就是說,樸素貝葉斯分類器將未知類別的樣本X 歸屬到類別 ,當(dāng)且僅當(dāng) 。也就是 最大。其中類別 就稱為最大后驗概率的假設(shè)。根據(jù)貝葉

12、斯公式可得:(3)由于 對于所有的類別均是相同的,因此,只需要 取最大即可。由于類別的先驗概率是未知的,則通常假定類別出現(xiàn)概率相同,即 。這樣對于式(3-4)取最大轉(zhuǎn)換成只需要求 最大。而類別的先驗概率一般可以通過 公式進(jìn)行估算,其中, 為訓(xùn)練樣本集合中類別 的個數(shù),s 為整個訓(xùn)練樣本集合的大小。(3-4)第三章 數(shù)據(jù)挖掘算法of39153.2.1 貝葉斯決策與分類器3.2 分類4全概率公式(4)根據(jù)所給定包含多個屬性的數(shù)據(jù)集,直接計算 的運(yùn)算量非常大。為實現(xiàn)對的有效估算,樸素貝葉斯分類器通常都假設(shè)各類別是相互獨(dú)立的,即各屬性間不存在依賴關(guān)系,其取值是相互獨(dú)立的??梢愿鶕?jù)訓(xùn)練數(shù)據(jù)樣本估算 的值

13、。如果 是分類屬性,則 ;其中 是在屬性 上具有值 的類 的訓(xùn)練樣本數(shù),而 是 中的訓(xùn)練樣本數(shù)。如果 是連續(xù)值屬性,則通常假定該屬性服從高斯分布。因而 (3-6)給定類 的訓(xùn)練樣本屬性 的值, 是屬性 的高斯密度函數(shù), , 分別為均值和方差。(5)為預(yù)測一個未知樣本X 的類別,可對每個類別 估算相應(yīng)的 。樣本X 歸屬類別 當(dāng)且僅當(dāng) ,即X 屬于 為最大的類 。第三章 數(shù)據(jù)挖掘算法of39163.2.1 貝葉斯決策與分類器3.2 分類第三章 數(shù)據(jù)挖掘算法支持向量機(jī)(Support Vector Machine)是建立在統(tǒng)計學(xué)習(xí)理論的VC 維理論和結(jié)構(gòu)風(fēng)險最小原理基礎(chǔ)上的,根據(jù)有限的樣本信息在模型

14、的復(fù)雜性(對特定訓(xùn)練樣本的學(xué)習(xí)精度,Accuracy)和學(xué)習(xí)能力(無錯誤地識別任意樣本的能力)之間尋求最佳折中,以期獲得最好的推廣能力(或稱泛化能力)。圖3-3 超平面SVM最基本的任務(wù)就是找到一個能夠讓兩類數(shù)據(jù)都離超平面很遠(yuǎn)的超平面,在分開數(shù)據(jù)的超平面的兩邊建有兩個互相平行的超平面。分隔超平面使兩個平行超平面的距離最大化,平行超平面間的距離或差距越大,分類器的總誤差越小。通常希望分類的過程是一個機(jī)器學(xué)習(xí)的過程。設(shè)樣本屬于兩個類,用該樣本訓(xùn)練SVM得到的最大間隔超平面。在超平面上的樣本點(diǎn)也稱為支持向量。of39173.2.2 SVM算法3.2 分類第三章 數(shù)據(jù)挖掘算法線性可分情形SVM非線性可

15、分情形SVM支持向量機(jī)(SVM)的核函數(shù)of39183.2.2 SVM算法3.2 分類第三章 數(shù)據(jù)挖掘算法互聯(lián)網(wǎng)的出現(xiàn)和普及,帶來的網(wǎng)上信息量的大幅增長,出現(xiàn)信息超載問題。為了解決信息過載的問題,提出了很多解決方案,其中最具有代表性的解決方案是分類目錄和搜索引擎。但是隨著互聯(lián)網(wǎng)規(guī)模的不斷擴(kuò)大,分類目錄和搜索引擎,不能解決用戶的需求。推薦系統(tǒng)就是解決這一矛盾的重要工具。推薦系統(tǒng)具有用戶需求驅(qū)動、主動服務(wù)和信息個性化程度高等優(yōu)點(diǎn),可有效解決信息過載問題。推薦系統(tǒng)是一種智能個性化信息服務(wù)系統(tǒng),可借助用戶建模技術(shù)對用戶的長期信息需求進(jìn)行描述,并根據(jù)用戶模型通過一定的智能推薦策略實現(xiàn)有針對性的個性化信息

16、定制,能夠依據(jù)用戶的歷史興趣偏好,主動為用戶提供符合其需求和興趣的信息資源。圖3-6 推薦系統(tǒng)的工作原理of39193.2.3 案例:在線廣告推薦中的分類3.2 分類第三章 數(shù)據(jù)挖掘算法推薦系統(tǒng)利用推薦算法將用戶和物品聯(lián)系起來,能夠在信息過載的環(huán)境中幫助用戶發(fā)現(xiàn)令他們感興趣的信息,也能將信息推送給對他們感興趣的用戶。根據(jù)已有用戶注冊信息和購買信息,使用樸素貝葉斯分類預(yù)測一個新注冊用戶購買計算機(jī)的可能性,從而向該用戶推薦計算機(jī)類廣告。訓(xùn)練樣本如表3-1所示。序號ID年齡Age(歲)收入等級Income_level是否學(xué)生student信用等級Credit rate類別:是否購買計算機(jī)Class:

17、buy computer130以下高否良否230以下高否優(yōu)否331到40高否良是440以上中否良是540以上低是良是640以上低是優(yōu)否731到40低是優(yōu)是830以下中否良否930以下低是良是1040以上中是良是1130以下中是優(yōu)是1231到40中否優(yōu)是1331到40高是良是1440以上中否優(yōu)否表3-1 訓(xùn)練課本of39203.2.3 案例:在線廣告推薦中的分類3.1數(shù)據(jù)挖掘概述第三章數(shù)據(jù)挖掘算法3.2分類3.3聚類3.4關(guān)聯(lián)規(guī)則3.5預(yù)測規(guī)模習(xí)題3.6數(shù)據(jù)挖掘算法綜合應(yīng)用3.3聚類of39213.3 聚類聚類(clustering)就是將具體或抽象對象的集合分組成由相似對象組成的為多個類或簇的

18、過程。由聚類生成的簇是一組數(shù)據(jù)對象的集合,簇必須同時滿足以下兩個條件:每個簇至少包含一個數(shù)據(jù)對象;每個數(shù)據(jù)對象必須屬于且唯一地屬于一個簇。聚類分析是指用數(shù)學(xué)的方法來研究與處理給定對象的分類,主要是從數(shù)據(jù)集中尋找數(shù)據(jù)間的相似性,并以此對數(shù)據(jù)進(jìn)行分類,使得同一個簇中的數(shù)據(jù)對象盡可能相似,不同簇中的數(shù)據(jù)對象盡可能相異,從而發(fā)現(xiàn)數(shù)據(jù)中隱含的、有用的信息。數(shù)據(jù)準(zhǔn)備特征選擇、提出特征提取聚類(或分組)聚類過程聚類算法的要求可擴(kuò)展性處理不同類型屬性的能力發(fā)現(xiàn)任意形狀的聚類需要(由用戶)決定的輸入?yún)?shù)最少處理噪聲數(shù)據(jù)的能力對輸入記錄順序不敏感高維問題基于約束的聚類可解釋性和可用性第三章 數(shù)據(jù)挖掘算法of392

19、23.3.1 非監(jiān)督機(jī)器學(xué)習(xí)方法與聚類3.3 聚類1層次聚類算法層次聚類算法的指導(dǎo)思想是對給定待聚類數(shù)據(jù)集合進(jìn)行層次化分解。此算法又稱為數(shù)據(jù)類算法,此算法根據(jù)一定的鏈接規(guī)則將數(shù)據(jù)以層次架構(gòu)分裂或聚合,最終形成聚類結(jié)果。從算法的選擇上看,層次聚類分為自頂而下的分裂聚類和自下而上的聚合聚類。分裂聚類初始將所有待聚類項看成同一類,然后找出其中與該類中其他項最不相似的類分裂出去形成兩類。如此反復(fù)執(zhí)行,直到所有項自成一類。聚合聚類初始將所有待聚類項都視為獨(dú)立的一類,通過連接規(guī)則,包括單連接、全連接、類間平均連接,以及采用歐氏距離作為相似度計算的算法,將相似度最高的兩個類合并成一個類。如此反復(fù)執(zhí)行,直到所

20、有項并入同一個類。典型代表算法,BIRCH(Balanced Iterative Reducing and Clustering Using Hierarchies,利用層次方法的平衡迭代規(guī)約和聚類)第三章 數(shù)據(jù)挖掘算法of39233.3.2 常用聚類算法3.3 聚類2劃分聚類算法劃分法屬于硬聚類,指導(dǎo)思想是將給定的數(shù)據(jù)集初始分裂為K個簇,每個簇至少包含一條數(shù)據(jù)記錄,然后通過反復(fù)迭代至每個簇不再改變即得出聚類結(jié)果。 K-Means算法也稱作K-平均值算法或者K均值算法,是一種得到廣泛使用的聚類分析算法。1)歐氏距離2)曼哈頓距離3)閔可夫斯基距離4)切比雪夫距離常用距離算法第三章 數(shù)據(jù)挖掘算法

21、of39243.3.2 常用聚類算法3.3 聚類2劃分聚類算法K-Means算法是解決聚類問題的一種經(jīng)典算法,簡單快速,對于處理大數(shù)據(jù)集,該算法是相對可伸縮的和高效的圖3-8 K-Means算法流程第三章 數(shù)據(jù)挖掘算法of39253.3.2 常用聚類算法3.3 聚類3基于密度的聚類算法基于密度聚類的經(jīng)典算法DBSCAN(Density-Based Spatial Clustering of Application with Noise,具有噪聲的基于密度的空間聚類應(yīng)用)是一種基于高密度連接區(qū)域的密度聚類算法。DBSCAN的基本算法流程如下:從任意對象P 開始根據(jù)閾值和參數(shù)通過廣度優(yōu)先搜索提取從

22、P 密度可達(dá)的所有對象,得到一個聚類。若P 是核心對象,則可以一次標(biāo)記相應(yīng)對象為當(dāng)前類并以此為基礎(chǔ)進(jìn)行擴(kuò)展。得到一個完整的聚類后,再選擇一個新的對象重復(fù)上述過程。若P 是邊界對象,則將其標(biāo)記為噪聲并舍棄缺陷如聚類的結(jié)果與參數(shù)關(guān)系較大閾值過大容易將同一聚類分割閾值過小容易將不同聚類合并固定的閾值參數(shù)對于稀疏程度不同的數(shù)據(jù)不具適應(yīng)性密度小的區(qū)域同一聚類易被分割密度大的區(qū)域不同聚類易被合并第三章 數(shù)據(jù)挖掘算法of39263.3.2 常用聚類算法3.3 聚類4基于網(wǎng)格的聚類算法基于網(wǎng)格的聚類算法是采用一個多分辨率的網(wǎng)格數(shù)據(jù)結(jié)構(gòu),即將空間量化為有限數(shù)目的單元,這些單元形成了網(wǎng)格結(jié)構(gòu),所有的聚類操作都在網(wǎng)

23、格上進(jìn)行。STING(STatistical INformation Grid,統(tǒng)計信息網(wǎng)格)算法將空間區(qū)域劃分為矩形單元針對不同級別的分辨率,通常存在多個級別的矩形單元,這些單元形成了一個層次結(jié)構(gòu)高層的每個單元被劃分為多個低一層的單元WaveCluster(Clustering using wavelet transformation,采用小波變換聚類)是一種多分辨率的聚類算法先通過在數(shù)據(jù)空間上加一個多維網(wǎng)格結(jié)構(gòu)來匯總數(shù)據(jù),然后采用一種小波變換來變換原特征空間,在變換后的空間中找到密集區(qū)域第三章 數(shù)據(jù)挖掘算法of39273.3.2 常用聚類算法3.3 聚類5基于模型的聚類算法基于模型的聚類算

24、法是為每一個聚類假定了一個模型,尋找數(shù)據(jù)對給定模型的最佳擬合。統(tǒng)計學(xué)方法(EM和COBWEB算法)神經(jīng)網(wǎng)絡(luò)方法(SOM算法)概念聚類是機(jī)器學(xué)習(xí)中的一種聚類方法,給出一組未標(biāo)記的數(shù)據(jù)對象,它產(chǎn)生一個分類模式。概念聚類除了確定相似對象的分組外,還為每組對象發(fā)現(xiàn)了特征描述,即每組對象代表了一個概念或類。概念聚類過程主要有兩個步驟:首先,完成聚類;其次,進(jìn)行特征描述。神經(jīng)網(wǎng)絡(luò)方法將每個簇描述成一個模型。模型作為聚類的一個“原型”,不一定對應(yīng)一個特定的數(shù)據(jù)實例或?qū)ο?。神?jīng)網(wǎng)絡(luò)聚類的兩種方法:競爭學(xué)習(xí)方法與自組織特征圖映射方法。神經(jīng)網(wǎng)絡(luò)聚類方法存在較長處理時間和復(fù)雜數(shù)據(jù)中復(fù)雜關(guān)系問題,還不適合處理大數(shù)據(jù)庫

25、。第三章 數(shù)據(jù)挖掘算法of39283.3.2 常用聚類算法3.3 聚類圖像分割是圖像處理到圖像分析的關(guān)鍵步驟,也是一種基本的計算機(jī)視覺技術(shù),一般來說,圖像分割是把圖像分成每個區(qū)域并提取感興趣目標(biāo)的技術(shù)和過程。顏色、灰度、紋理是比較常見和主要的特性,目標(biāo)可以對應(yīng)多個區(qū)域,也可以對應(yīng)單個區(qū)域,主要與實際應(yīng)用和目標(biāo)有關(guān)。K-Means聚類算法簡捷,具有很強(qiáng)的搜索能力,適合處理數(shù)據(jù)量大的應(yīng)用場景,在數(shù)據(jù)挖掘和圖像領(lǐng)域中得到了廣泛的應(yīng)用。圖3-9 K-Means聚類算法進(jìn)行圖像分割示意圖第三章 數(shù)據(jù)挖掘算法of39293.3.3 案例:海量視頻檢索中的聚類3.1數(shù)據(jù)挖掘概述第三章數(shù)據(jù)挖掘算法3.2分類3

26、.3聚類3.1數(shù)據(jù)挖掘概述3.5預(yù)測規(guī)模習(xí)題3.6數(shù)據(jù)挖掘算法綜合應(yīng)用3.4關(guān)聯(lián)規(guī)則of65303.4 關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘中最活躍的研究方法之一,是指搜索業(yè)務(wù)系統(tǒng)中的所有細(xì)節(jié)或事務(wù),找出所有能把一組事件或數(shù)據(jù)項與另一組事件或數(shù)據(jù)項聯(lián)系起來的規(guī)則,以獲得存在于數(shù)據(jù)庫中的不為人知的或不能確定的信息,它側(cè)重于確定數(shù)據(jù)中不同領(lǐng)域之間的聯(lián)系,也是在無指導(dǎo)學(xué)習(xí)系統(tǒng)中挖掘本地模式的最普通形式。More應(yīng)用市場:市場貨籃分析、交叉銷售(Crossing Sale)、部分分類(Partial Classification)、金融服務(wù)(Financial Service),以及通信、互聯(lián)網(wǎng)、電子商務(wù) 第三

27、章 數(shù)據(jù)挖掘算法of65313.4 關(guān)聯(lián)規(guī)則第三章 數(shù)據(jù)挖掘算法一般來說,關(guān)聯(lián)規(guī)則挖掘是指從一個大型的數(shù)據(jù)集(Dataset)發(fā)現(xiàn)有趣的關(guān)聯(lián)(Association)或相關(guān)關(guān)系(Correlation),即從數(shù)據(jù)集中識別出頻繁出現(xiàn)的屬性值集(Sets of Attribute Values),也稱為頻繁項集(Frequent Itemsets,頻繁集),然后利用這些頻繁項集創(chuàng)建描述關(guān)聯(lián)關(guān)系的規(guī)則的過程。3.4.1 關(guān)聯(lián)規(guī)則的概念關(guān)聯(lián)規(guī)則挖掘問題:發(fā)現(xiàn)所有的頻繁項集是形成關(guān)聯(lián)規(guī)則的基礎(chǔ)。通過用戶給定的最小支持度,尋找所有支持度大于或等于Minsupport的頻繁項集。通過用戶給定的最小可信度,在

28、每個最大頻繁項集中,尋找可信度不小于Minconfidence的關(guān)聯(lián)規(guī)則。發(fā)現(xiàn)頻繁項集生成關(guān)聯(lián)規(guī)則如何迅速高效地發(fā)現(xiàn)所有頻繁項集,是關(guān)聯(lián)規(guī)則挖掘的核心問題,也是衡量關(guān)聯(lián)規(guī)則挖掘算法效率的重要標(biāo)準(zhǔn)。of65323.4 關(guān)聯(lián)規(guī)則第三章 數(shù)據(jù)挖掘算法3.4.2 頻繁項集的產(chǎn)生及其經(jīng)典算法格結(jié)構(gòu)(Lattice Structure)常常被用來枚舉所有可能的項集。圖3-10 項集的格of65333.4 關(guān)聯(lián)規(guī)則第三章 數(shù)據(jù)挖掘算法3.4.2 頻繁項集的產(chǎn)生及其經(jīng)典算法格結(jié)構(gòu)(Lattice Structure)常常被用來枚舉所有可能的項集。查找頻繁項目集經(jīng)典的查找策略基于精簡集的查找策略基于最大頻繁項集

29、的查找策略按照挖掘的策略不同經(jīng)典的挖掘完全頻繁項集方法基于廣度優(yōu)先搜索策略的關(guān)聯(lián)規(guī)則算法基于深度優(yōu)先搜索策略的算法Apriori算法、DHP算法FP-Growth算法、ECLAT算法COFI算法與經(jīng)典查找不同方法基于精簡集的方法基于最大頻繁項目集的方法A-close算法MAFIA算法、GenMax算法DepthProject算法of65343.4 關(guān)聯(lián)規(guī)則第三章 數(shù)據(jù)挖掘算法3.4.2 頻繁項集的產(chǎn)生及其經(jīng)典算法1Apriori算法Apriori算法基于頻繁項集性質(zhì)的先驗知識,使用由下至上逐層搜索的迭代方法,即從頻繁1項集開始,采用頻繁k項集搜索頻繁k+1項集,直到不能找到包含更多項的頻繁項集

30、為止。Apriori算法由以下步驟組成,其中的核心步驟是連接步和剪枝步:生成頻繁1項集L1連接步剪枝步生成頻繁k項集Lk重復(fù)步驟(2)(4),直到不能產(chǎn)生新的頻繁項集的集合為止,算法中止。性能瓶頸Apriori算法是一個多趟搜索算法可能產(chǎn)生龐大的候選項集of65353.4 關(guān)聯(lián)規(guī)則第三章 數(shù)據(jù)挖掘算法3.4.2 頻繁項集的產(chǎn)生及其經(jīng)典算法2FP-Growth算法頻繁模式樹增長算法(Frequent Pattern Tree Growth)采用分而治之的基本思想,將數(shù)據(jù)庫中的頻繁項集壓縮到一棵頻繁模式樹中,同時保持項集之間的關(guān)聯(lián)關(guān)系。然后將這棵壓縮后的頻繁模式樹分成一些條件子樹,每個條件子樹對應(yīng)

31、一個頻繁項,從而獲得頻繁項集,最后進(jìn)行關(guān)聯(lián)規(guī)則挖掘。FP-Growth算法由以下步驟組成:掃描事務(wù)數(shù)據(jù)庫D,生成頻繁1項集L1將頻繁1項集L1按照支持度遞減順序排序,得到排序后的項集L1構(gòu)造FP樹通過后綴模式與條件FP樹產(chǎn)生的頻繁模式連接實現(xiàn)模式增長1234圖3-11 FP樹的構(gòu)造of65363.4 關(guān)聯(lián)規(guī)則第三章 數(shù)據(jù)挖掘算法3.4.2 頻繁項集的產(chǎn)生及其經(jīng)典算法3辛普森悖論雖然關(guān)聯(lián)規(guī)則挖掘可以發(fā)現(xiàn)項目之間的有趣關(guān)系,在某些情況下,隱藏的變量可能會導(dǎo)致觀察到的一對變量之間的聯(lián)系消失或逆轉(zhuǎn)方向,這種現(xiàn)象就是所謂的辛普森悖論(Simpsons Paradox)。為了避免辛普森悖論的出現(xiàn),就需要斟

32、酌各個分組的權(quán)重,并以一定的系數(shù)去消除以分組數(shù)據(jù)基數(shù)差異所造成的影響。同時必須了解清楚情況,是否存在潛在因素,綜合考慮。of65373.4 關(guān)聯(lián)規(guī)則第三章 數(shù)據(jù)挖掘算法3.4.3 分類技術(shù)分類技術(shù)或分類法(Classification)是一種根據(jù)輸入樣本集建立類別模型,并按照類別模型對未知樣本類標(biāo)號進(jìn)行標(biāo)記的方法。根據(jù)所采用的分類模型不同基于決策樹模型的數(shù)據(jù)分類基于統(tǒng)計模型的數(shù)據(jù)分類基于神經(jīng)網(wǎng)絡(luò)模型的數(shù)據(jù)分類基于案例推理的數(shù)據(jù)分類基于實例的數(shù)據(jù)分類1決策樹決策樹就是通過一系列規(guī)則對數(shù)據(jù)進(jìn)行分類的過程。決策樹分類算法通常分為兩個步驟:構(gòu)造決策樹和修剪決策樹。of65383.4 關(guān)聯(lián)規(guī)則第三章 數(shù)

33、據(jù)挖掘算法3.4.3 分類技術(shù)構(gòu)造決策樹修剪決策樹根據(jù)實際需求及所處理數(shù)據(jù)的特性,選擇類別標(biāo)識屬性和決策樹的決策屬性集在決策屬性集中選擇最有分類標(biāo)識能力的屬性作為決策樹的當(dāng)前決策節(jié)點(diǎn)根據(jù)當(dāng)前決策節(jié)點(diǎn)屬性取值的不同,將訓(xùn)練樣本數(shù)據(jù)集劃分為若干子集 子集中的所有元組都屬于同一類。 該子集是已遍歷了所有決策屬性后得到的。 子集中的所有剩余決策屬性取值完全相同,已不能根據(jù)這些決策屬性進(jìn)一步劃分子集。針對上一步中得到的每一個子集,重復(fù)進(jìn)行以上兩個步驟,直到最后的子集符合約束的3個條件之一根據(jù)符合條件不同生成葉子節(jié)點(diǎn)對決策樹進(jìn)行修剪,除去不必要的分枝,同時也能使決策樹得到簡化。常用的決策樹修剪策略基于代價

34、復(fù)雜度的修剪悲觀修剪最小描述長度修剪按照修剪的先后順序先剪枝(Pre-pruning)后剪枝(Post-pruning)of65393.4 關(guān)聯(lián)規(guī)則第三章 數(shù)據(jù)挖掘算法3.4.3 分類技術(shù)2k-最近鄰最臨近分類基于類比學(xué)習(xí),是一種基于實例的學(xué)習(xí),它使用具體的訓(xùn)練實例進(jìn)行預(yù)測,而不必維護(hù)源自數(shù)據(jù)的抽象(或模型)。它采用n 維數(shù)值屬性描述訓(xùn)練樣本,每個樣本代表n 維空間的一個點(diǎn),即所有的訓(xùn)練樣本都存放在n 維空間中。若給定一個未知樣本,k-最近鄰分類法搜索模式空間,計算該測試樣本與訓(xùn)練集中其他樣本的鄰近度,找出最接近未知樣本的k 個訓(xùn)練樣本,這k 個訓(xùn)練樣本就是未知樣本的k 個“近鄰”。其中的“鄰

35、近度”一般采用歐幾里得距離定義:兩個點(diǎn) 和 的Euclid距離是 。最近鄰分類是基于要求的或懶散的學(xué)習(xí)法,即它存放所有的訓(xùn)練樣本,并且直到新的(未標(biāo)記的)樣本需要分類時才建立分類。其優(yōu)點(diǎn)是可以生成任意形狀的決策邊界,能提供更加靈活的模型表示。of65403.4 關(guān)聯(lián)規(guī)則第三章 數(shù)據(jù)挖掘算法3.4.4 案例:保險客戶風(fēng)險分析1挖掘目標(biāo)由過去大量的經(jīng)驗數(shù)據(jù)發(fā)現(xiàn)機(jī)動車輛事故率與駕駛者及所駕駛的車輛有著密切的關(guān)系,影響駕駛?cè)藛T安全駕駛的主要因素有年齡、性別、駕齡、職業(yè)、婚姻狀況、車輛車型、車輛用途、車齡等。因此,客戶風(fēng)險分析的挖掘目標(biāo)就是上述各主要因素與客戶風(fēng)險之間的關(guān)系,等等。2數(shù)據(jù)預(yù)處理數(shù)據(jù)準(zhǔn)備與

36、預(yù)處理是數(shù)據(jù)挖掘中的首要步驟,高質(zhì)量的數(shù)據(jù)是獲得高質(zhì)量決策的先決條件。在實施數(shù)據(jù)挖掘之前,及時有效的數(shù)據(jù)預(yù)處理可以解決噪聲問題和處理缺失的信息,將有助于提高數(shù)據(jù)挖掘的精度和性能。去除數(shù)據(jù)集之中的噪聲數(shù)據(jù)和無關(guān)數(shù)據(jù),處理遺漏數(shù)據(jù)和清洗“臟”數(shù)據(jù)等。數(shù)據(jù)清洗處理通常包括處理噪聲數(shù)據(jù)、填補(bǔ)遺漏數(shù)據(jù)值/除去異常值、糾正數(shù)據(jù)不一致的問題,等等。在處理完噪聲數(shù)據(jù)后,就可以對數(shù)據(jù)進(jìn)行轉(zhuǎn)化,主要的方法有: 聚集 忽略無關(guān)屬性 連續(xù)型屬性離散化等。數(shù)據(jù)清洗數(shù)據(jù)轉(zhuǎn)化of65413.4 關(guān)聯(lián)規(guī)則第三章 數(shù)據(jù)挖掘算法3.4.4 案例:保險客戶風(fēng)險分析3關(guān)聯(lián)規(guī)則挖掘影響駕駛?cè)藛T安全駕駛的主要因素年齡性別駕齡職業(yè)婚姻狀況

37、車輛車型車輛用途車齡其他根據(jù)前述關(guān)聯(lián)規(guī)則的生成方法,得到挖掘出來的客戶風(fēng)險關(guān)聯(lián)規(guī)則序號關(guān)聯(lián)規(guī)則支持度置信度1駕齡(X,A)被保車輛的價值(X,A)年賠付金額(X,B)0.18250.29652投保人年齡(X,A)駕齡(X,A)年賠付次數(shù)(X,B)0.16790.25713駕齡(X,B)車輛用途(X,A)年賠付金額(X,B)0.16630.33374駕齡(X,B)車輛用途(X,B)年賠付次數(shù)(X,A)0.17890.48515駕齡(X,B)被保車輛的價值(X,C)年賠付金額(X,C)0.18090.30036駕齡(X,C)車輛用途(X,B)年賠付次數(shù)(X,A)0.19940.58647駕齡(X,

38、C)被保車輛的價值(X,C)車輛用途(X,C)年賠付次數(shù)(X,A)0.10310.66398駕齡(X,A)被保車輛的價值(X,A)車輛用途(X,B)年賠付金額(X,B)0.10250.36549投保人年齡(X,B)駕齡(X,A)被保車輛的價值(X,D)年賠付金額(X,D)0.09340.454610駕齡(X,B)被保車輛的價值(X,A)車輛用途(X,A)年賠付金額(X,B)0.09680.448711投保人年齡(X,C)被保車輛的價值(X,C)車輛用途(X,C)年賠付金額(X,B)0.09090.353112投保人年齡(X,C)駕齡(X,B)被保車輛的價值(X,C)年賠付次數(shù)(X,A)0.08

39、270.6094表3-7 客戶風(fēng)險關(guān)聯(lián)規(guī)則詳細(xì)分析所得數(shù)據(jù),可以為公司業(yè)務(wù)提供數(shù)據(jù)支撐,針對不同客戶提供偏好服務(wù),既能確保公司收益,又能給予用戶更多的實惠。of65423.4關(guān)聯(lián)規(guī)則3.1數(shù)據(jù)挖掘概述第三章數(shù)據(jù)挖掘算法3.2分類3.3聚類3.4關(guān)聯(lián)規(guī)則習(xí)題3.6數(shù)據(jù)挖掘算法綜合應(yīng)用3.5預(yù)測規(guī)模of65433.5 預(yù)測模型3.5.1 預(yù)測與預(yù)測模型第三章 數(shù)據(jù)挖掘算法預(yù)測分析是一種統(tǒng)計或數(shù)據(jù)挖掘解決方案,包含可在結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)中使用以確定未來結(jié)果的算法和技術(shù),可為預(yù)測、優(yōu)化、預(yù)報和模擬等許多其他相關(guān)用途而使用。時間序列預(yù)測是一種歷史資料延伸預(yù)測,以時間序列所能反映的社會經(jīng)濟(jì)現(xiàn)象的發(fā)展過程

40、和規(guī)律性,進(jìn)行引申外推預(yù)測發(fā)展趨勢的方法。從時間序列數(shù)據(jù)中提取并組建特征,仍用原有的數(shù)據(jù)挖掘框架與算法進(jìn)行數(shù)據(jù)挖掘?qū)r間序列數(shù)據(jù)作為一種特殊的挖掘?qū)ο?,找尋對?yīng)的數(shù)據(jù)挖掘算法進(jìn)行專門研究依據(jù)研究的方式分類相似性問題挖掘時態(tài)模式挖掘依據(jù)研究的內(nèi)容分類依據(jù)研究的對象分類事件序列的數(shù)據(jù)挖掘事務(wù)序列的數(shù)據(jù)挖掘數(shù)值序列的數(shù)據(jù)挖掘時間序列預(yù)測及數(shù)據(jù)挖掘分類of65443.5 預(yù)測模型3.5.1 預(yù)測與預(yù)測模型第三章 數(shù)據(jù)挖掘算法預(yù)測方案分類時間序列預(yù)測定性預(yù)測方法依據(jù)預(yù)測方法的性質(zhì)因果關(guān)系預(yù)測時間序列的統(tǒng)計特征1)均值函數(shù)2)自協(xié)方差函數(shù)3)自相關(guān)函數(shù)of65453.5 預(yù)測模型3.5.1 預(yù)測與預(yù)測模型

41、第三章 數(shù)據(jù)挖掘算法1)自回歸模型2)移動平均模型3)自回歸移動平均模型of6546時間序列模型預(yù)測方案分類3.5 預(yù)測模型3.5.2 時間序列預(yù)測第三章 數(shù)據(jù)挖掘算法時間序列:對按時間順序排列而成的觀測值集合,進(jìn)行數(shù)據(jù)的預(yù)測或預(yù)估。典型的算法:序貫?zāi)J酵诰騍PMGC算法序貫?zāi)J酵诰蛩惴⊿PMGC(Sequential Pattern Mining Based on General Constrains)SPMGC算法可以有效地發(fā)現(xiàn)有價值的數(shù)據(jù)序列模式,提供給大數(shù)據(jù)專家們進(jìn)行各類時間序列的相似性與預(yù)測研究。項集間的時間限制Cgap序列持續(xù)時間限制Cduration數(shù)據(jù)約束Cdata項的約束Ci

42、tem序列長度的約束CLength其他約束時間序列領(lǐng)域約束規(guī)則of65473.5 預(yù)測模型3.5.2 時間序列預(yù)測第三章 數(shù)據(jù)挖掘算法SPMGC算法的基本處理流程掃描時間序列數(shù)據(jù)庫,獲取滿足約束條件且長度為1的序列模式L1,以序列模式L1作為初始種子集根據(jù)長度為i-1的種子集Li-1,通過連接與剪切運(yùn)算生成長度為i 并且滿足約束條件的候選序列模式Ci,基于此掃描序列數(shù)據(jù)庫,并計算每個候選序列模式Ci 的支持?jǐn)?shù),從而產(chǎn)生長度為I 的序列模式Li,將Li作為新種子集在此重復(fù)上一步,直至沒有新的候選序列模式或新的序列模式產(chǎn)生SPBGC算法首先對約束條件按照優(yōu)先級進(jìn)行排序,然后依據(jù)約束條件產(chǎn)生候選序列

43、。SPBGC算法說明了怎樣使用約束條件來挖掘序貫?zāi)J?,然而,由于?yīng)用領(lǐng)域的不同,具體的約束條件也不盡相同,同時產(chǎn)生頻繁序列的過程也可采用其他序貫?zāi)J剿惴?。of65483.5 預(yù)測模型3.5.3 案例:地震預(yù)警第三章 數(shù)據(jù)挖掘算法1地震波形數(shù)據(jù)存儲和計算平臺南京云創(chuàng)大數(shù)據(jù)有限公司為山東省地震局研發(fā)了一套可以處理海量數(shù)據(jù)的高性能地震波形數(shù)據(jù)存儲和計算平臺,將從現(xiàn)有的光盤中導(dǎo)入地震波形數(shù)據(jù)并加以管理,以提供集中式的地震波形數(shù)據(jù)分析與地震預(yù)測功能,為開展各種地震波形數(shù)據(jù)應(yīng)用提供海量數(shù)據(jù)存儲管理和計算服務(wù)能力。圖3-12山東省地震波測數(shù)據(jù)云平臺的顯示界面of65493.5 預(yù)測模型3.5.3 案例:地震

44、預(yù)警第三章 數(shù)據(jù)挖掘算法2地震波形數(shù)據(jù)存儲和計算平臺的主要性能指標(biāo)數(shù)據(jù)存儲和處理指標(biāo)系統(tǒng)響應(yīng)時間指標(biāo)地震波形數(shù)據(jù)存儲性能指標(biāo)每年的原始地震波形數(shù)據(jù)及相關(guān)輔助信息約為15TB,為保證數(shù)據(jù)存儲的可靠性,要求采用3倍副本方式保存數(shù)據(jù),云平臺每年需要提供約45TB的總存儲量,同時系統(tǒng)必須能實時接收和處理高達(dá)10MB/s的入庫數(shù)據(jù)千兆網(wǎng)絡(luò)環(huán)境下,局域網(wǎng)客戶端從分布式文件存儲系統(tǒng)中讀取4096B存儲內(nèi)容的響應(yīng)時間不高于50毫秒采用HDFS格式進(jìn)行數(shù)據(jù)讀取,讀取性能為4080MB/s節(jié)點(diǎn),數(shù)據(jù)規(guī)模10PB,數(shù)據(jù)負(fù)載均衡時間可依據(jù)流量配置而確定,集群重新啟動時間按10PB規(guī)模計算達(dá)到分鐘級別of65503.5

45、 預(yù)測模型3.5.3 案例:地震預(yù)警第三章 數(shù)據(jù)挖掘算法3地震波形數(shù)據(jù)存儲和計算平臺的功能設(shè)計21345數(shù)據(jù)解析數(shù)據(jù)入庫數(shù)據(jù)存儲管理云計算平臺的數(shù)據(jù)應(yīng)用接口數(shù)據(jù)異地修復(fù)功能設(shè)計of65513.5 預(yù)測模型3.5.3 案例:地震預(yù)警第三章 數(shù)據(jù)挖掘算法4平臺的組成、總體構(gòu)架與功能模塊圖3-13 地震波形數(shù)據(jù)云平臺總體構(gòu)架與功能模塊of65523.5 預(yù)測模型3.5.3 案例:地震預(yù)警第三章 數(shù)據(jù)挖掘算法5地震中的時間序列預(yù)測地震預(yù)測的主要手段也就是對地震序列進(jìn)行特征研究。通過對地震序列的特征研究,可以幫助判斷某大地震發(fā)生后地質(zhì)活動的規(guī)律,掌握一定區(qū)域內(nèi)地震前后震級次序間的某種內(nèi)在關(guān)聯(lián)性,有利于判

46、斷次地震發(fā)生后,震區(qū)地質(zhì)活動的客觀趨勢1)地震數(shù)據(jù)收集和預(yù)處理采用SPBGC算法,預(yù)處理的流程步驟具體如下:設(shè)定地震序列的空間跨度,并劃分震級標(biāo)準(zhǔn)M依據(jù)地震目錄數(shù)據(jù)庫,將震級大于或等于震級標(biāo)準(zhǔn)M的地震信息存入大地震文件獲取大地震文件中的每一條記錄E,并取得震級M與震中所在位置G掃描地震目錄數(shù)據(jù),對每一地震記錄E,均判斷當(dāng)前地震位置與震中G的距離是否滿足設(shè)定的空間跨度。如果滿足空間跨度,則將該記錄標(biāo)注為與震中等同的序列號,同時將震中為圓心的區(qū)域范圍內(nèi)地震的次數(shù)加l;否則繼續(xù)處理下一條地震記錄大地震文件處理完畢后,該階段地震數(shù)據(jù)收集和預(yù)處理階段結(jié)束of65533.4關(guān)聯(lián)規(guī)則3.1數(shù)據(jù)挖掘概述第三章數(shù)據(jù)挖掘算法3.2分類3.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論