大數(shù)據(jù)挖掘技術(shù)地的綜述(2022年-2023年)_第1頁
大數(shù)據(jù)挖掘技術(shù)地的綜述(2022年-2023年)_第2頁
大數(shù)據(jù)挖掘技術(shù)地的綜述(2022年-2023年)_第3頁
大數(shù)據(jù)挖掘技術(shù)地的綜述(2022年-2023年)_第4頁
大數(shù)據(jù)挖掘技術(shù)地的綜述(2022年-2023年)_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、2022年-2023年最新實用標準文案數(shù)據(jù)挖掘技術(shù)綜述隨著計算機、網(wǎng)絡(luò)技術(shù)的開展,獲得有關(guān)資料非常簡單易行。但 對數(shù)量大、涉及面寬的數(shù)據(jù),傳統(tǒng)統(tǒng)計方法無法完成這類數(shù)據(jù)的分析。 因此,一種智能化的、綜合應(yīng)用各種統(tǒng)計分析、數(shù)據(jù)庫、智能語言來 分析龐大數(shù)據(jù)資料的“數(shù)據(jù)挖掘”(Date Mining)技術(shù)應(yīng)運而Th。本 文主要介紹了數(shù)據(jù)挖掘的基本概念以及數(shù)據(jù)挖掘的方法;本文對數(shù)據(jù) 掘的應(yīng)用及其開展前景也進行了描述。隨著信息技術(shù)迅速開展,數(shù)據(jù)庫的規(guī)模不斷擴大,從而產(chǎn)Th 了大 量的數(shù)據(jù)。激增的數(shù)據(jù)背后隱藏著許多重要的信息,人們希望能夠?qū)ζ?行更高層次的分析,以便更好地利用這些數(shù)據(jù)。為給決策者提供一個統(tǒng)

2、一的全局視角,在許多領(lǐng)域建立了數(shù)據(jù)倉庫。但大量的數(shù)據(jù)往往使人們 無法區(qū)分隱藏在其中的能對決策提供支持的信息,而傳統(tǒng)的查詢、報表工 具無法滿足挖掘這些信息的需求。因此,需要一種新的數(shù)據(jù)分析技術(shù)處 理大量數(shù)據(jù),并從中抽取有價值的潛在知識,數(shù)據(jù)挖掘(Data Mining)技術(shù)由此應(yīng)運而Th。數(shù)據(jù)挖掘技術(shù)也正是伴隨著數(shù) 據(jù)倉庫技術(shù)的開展而逐步完善起來的數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動 抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過程,這些信息的表現(xiàn)形式 為:規(guī)那么、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當前 數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進而預(yù)測未來可能發(fā)Th的行為。 數(shù)據(jù)挖掘的過程也叫知識發(fā)現(xiàn)

3、的過程,它是一門涉及面很廣的交叉性新 興學(xué)科,涉及到數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計、可視化、并行計算等領(lǐng) 域。數(shù)據(jù)挖掘是一種新的信息處理技術(shù),其主要特點是精彩文檔2022年-2023年最新實用標準文案查詢優(yōu)化、完整性約束和不一致檢驗等。4、由于數(shù)據(jù)、數(shù)據(jù)挖掘任務(wù)和數(shù)據(jù)挖掘方法的多樣性,給數(shù)據(jù) 挖掘提出了許多挑戰(zhàn)性的課題。同時,數(shù)據(jù)挖掘語言的設(shè)計,高效而有用的數(shù)據(jù)挖掘方法 和系統(tǒng)的開發(fā),交互式和集成的數(shù)據(jù)挖掘環(huán)境的建立,以及應(yīng)用數(shù)據(jù)挖 掘技術(shù)解決大型應(yīng)用問題,都是目前數(shù)據(jù)挖掘研究人員、系統(tǒng)和應(yīng)用開 發(fā)人員所面臨的主要問題?,F(xiàn)今,數(shù)據(jù)挖掘的開展趨勢主要是以下幾方面:應(yīng)用的探索;可伸縮的數(shù)據(jù)挖掘方法;數(shù)

4、據(jù)挖掘與數(shù)據(jù)庫系統(tǒng)、 數(shù)據(jù)倉庫系統(tǒng)和Web數(shù)據(jù)庫系統(tǒng)的集成;數(shù)據(jù)挖掘語言的標準化;可 視化數(shù)據(jù)挖掘;復(fù)雜數(shù)據(jù)類型挖掘的新方法;Web挖掘;數(shù)據(jù)挖掘中的 隱私保護與信息平安。目前,數(shù)據(jù)挖掘技術(shù)雖然得到了一定程度的應(yīng)用,并取得了顯著成 效,但仍存在著許多尚未解決的問題,例如數(shù)據(jù)的預(yù)處理、挖掘算法、 模式識別和解釋、可視化問題等。對于業(yè)務(wù)過程而言,數(shù)據(jù)挖掘最關(guān)鍵 的問題是如何結(jié)合業(yè)務(wù)數(shù)據(jù)時空特點,將挖掘出知識表達出來,即時空 知識表達和解釋機制問題。隨著人們對數(shù)據(jù)挖掘技術(shù)的深人研究,數(shù)據(jù) 挖掘技術(shù)必將在更加廣泛的領(lǐng)域得到應(yīng)用,并取得更加顯著的效果。精彩文檔2022年-2023年最新實用標準文案對數(shù)據(jù)

5、庫中的大量數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析和其他模型化處理,并從 中提取輔助決策的關(guān)鍵性數(shù)據(jù)。數(shù)據(jù)挖掘是KDD (Knowledge Discovery in Database)中的重要技術(shù),它并不是用規(guī)范的數(shù)據(jù) 庫查詢語言(如SQL)進行查詢,而是對查詢的內(nèi)容進行模式的總結(jié) 和內(nèi)在規(guī)律的搜索。傳統(tǒng)的查詢和報表處理只是得到事件發(fā)Th的結(jié)果, 并沒有深入研究發(fā)Th的原因,而數(shù)據(jù)挖掘那么主要了解發(fā)Th的原因,并 且以一定的置信度對未來進行預(yù)測,用來為決策行為提供有利的支持。數(shù)據(jù)挖掘的研究融合了多個不同學(xué)科領(lǐng)域的技術(shù)與成果,使得目 前的數(shù)據(jù)挖掘方法表現(xiàn)出多種多樣的形式。從統(tǒng)計分析類的角度來說, 統(tǒng)計分析技術(shù)

6、中使用的數(shù)據(jù)挖掘模型有線形分析和非線形分析、回歸 分析、邏輯回歸分析、單變量分析、多變量分析、時間序列分析、最近 序列分析、最近鄰算法和聚類分析等方法。利用這些技術(shù)可以檢查那些 異常形式的數(shù)據(jù),然后,利用各種統(tǒng)計模型和數(shù)學(xué)模型解釋這些數(shù)據(jù), 解釋隱藏在這些數(shù)據(jù)背后的市場規(guī)律和商業(yè)機會。知識發(fā)現(xiàn)類數(shù)據(jù)挖掘 技術(shù)是一種與統(tǒng)計分析類數(shù)據(jù)挖掘技術(shù)完全不同的挖掘技 術(shù),包括人工神經(jīng)元網(wǎng)絡(luò)、支持向量機、決策樹、遺傳算法、粗糙集、 規(guī)那么發(fā)現(xiàn)和關(guān)聯(lián)順序等。傳統(tǒng)的統(tǒng)計學(xué)為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用 的有貝葉斯推理、回歸分析、方差分析等技術(shù)、貝葉斯推理是在知道 新的信息后修正數(shù)據(jù)集概率分布的基本

7、工具,處理數(shù)據(jù)挖掘中的分類 問題,回歸分析用來找到一個輸入變量和輸出變量關(guān)系的最正確模型,精彩文檔2022年-2023年最新實用標準文案在回歸分析中有用來描述一個變量的變化趨勢和別的變量值的關(guān)系 的線性回歸,還有用來為某些事件發(fā)Th的概率建模為預(yù)測變量集的對 數(shù)回歸、統(tǒng)計方法中的方差分析一般用于分析估計回歸直線的性能和 自變量對最終回歸的影響,是許多挖掘應(yīng)用中有力的工具之一。關(guān)聯(lián)規(guī)那么是一種簡單,實用的分析規(guī)那么,它描述了一個事物中某些 屬性同時出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。它是 由R. Agrawal等人首先提出的,最經(jīng)典的關(guān)聯(lián)規(guī)那么的挖掘算法是 Apriori,該算法

8、先挖出所有的頻繁項集,然后,由頻繁項集產(chǎn)Th關(guān) 聯(lián)規(guī)那么,許多關(guān)聯(lián)規(guī)那么頻繁項集的挖掘算法都是由它演變而來的,關(guān) 聯(lián)規(guī)那么在數(shù)據(jù)挖掘領(lǐng)域應(yīng)用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù) 據(jù)之間的有意義關(guān)系,原因之一是它不受只選擇一個因變量的限制, 關(guān)聯(lián)規(guī)那么在數(shù)據(jù)挖掘領(lǐng)域最典型的應(yīng)用是購物籃分析。大多數(shù)關(guān)聯(lián)規(guī) 那么挖掘算法能夠無遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,所挖 掘出的關(guān)聯(lián)規(guī)那么量往往非常巨大,但是,并不是所有通過關(guān)聯(lián)得到的屬 性之間的關(guān)系都有實際應(yīng)用價值,對這些關(guān)聯(lián)規(guī)那么進行有效的評價,篩 選出用戶真正感興趣的,有意義的關(guān)聯(lián)規(guī)那么尤為重要。聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標準將其劃分成幾個組,

9、同組 內(nèi)的樣本具有較高的相似度,不同組的那么相異,常用的技術(shù)有分裂算法, 凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內(nèi)部關(guān) 系,從而對樣本結(jié)構(gòu)做出合理的評價,此外,聚類分析還用于對孤立點 的檢測。有時進行聚類不是為了將對象相聚在一起而是為了更容易地使 某個對象從其他對象中別離出來。聚類分析已被應(yīng)用于經(jīng)精彩文檔2022年-2023年最新實用標準文案濟分析、模式識別、圖像處理等多種領(lǐng)域,尤其在商業(yè)上,聚類分析 可以幫助市場人員發(fā)現(xiàn)顧客群中所存在的不同特征組群。聚類分析的技術(shù)關(guān)鍵除了算法的選擇之外,就是對樣本的度量標 準的選擇。并非由聚類分析算法得到的類對決策都有效,在運用某一 個算法

10、之前,一般要先對數(shù)據(jù)的聚類趨勢進行檢驗。決策樹學(xué)習是一種通過逼近離散值目標函數(shù)的方法,通過把實例 從根結(jié)點排列到某個葉子結(jié)點來分類實例,葉子結(jié)點即為實例所屬的 分類。樹上的每個結(jié)點說明了對實例的某個屬性的測試,該結(jié)點的每 一個后繼分支對應(yīng)于該屬性的一個可能值,分類實例的方法是從這電腦 應(yīng)用技術(shù)棵樹的根結(jié)點開始,測試這個結(jié)點指定的屬性,然后按照給 定實例的該屬性值對應(yīng)的樹枝向下移動。決策樹方法是要應(yīng)用于數(shù)據(jù)挖 掘的分類方面。神經(jīng)網(wǎng)絡(luò)建立在自學(xué)習的數(shù)學(xué)模型基礎(chǔ)之上,能夠?qū)Υ罅繌?fù)雜的 數(shù)據(jù)進行分析,并可以完成對人腦或其他計算機來說極為復(fù)雜的模式 抽取及趨勢分析,神經(jīng)網(wǎng)絡(luò)既可以表現(xiàn)為指導(dǎo)的學(xué)習也可以是

11、無指導(dǎo) 聚類,無論哪種,輸入到神經(jīng)網(wǎng)絡(luò)中的值都是數(shù)值型的。人工神經(jīng)元網(wǎng)絡(luò)模擬人腦神經(jīng)元結(jié)構(gòu),以MP模型和Hebb學(xué)習規(guī) 那么為基礎(chǔ),建立三大類多種神經(jīng)元網(wǎng)絡(luò),具有非線形映射特性、信息的分 布存儲、并行處理和全局集體的作用、高度的自學(xué)習、自組織和自適 應(yīng)能力的種種優(yōu)點。前饋神經(jīng)元網(wǎng)絡(luò)以感知器網(wǎng)絡(luò)、BP網(wǎng)絡(luò)等為代表,可以用于分類和預(yù)測等方面;反應(yīng)式網(wǎng)絡(luò)以Hopfield網(wǎng)絡(luò)精彩文檔2022年-2023年最新實用標準文案為代表,用于聯(lián)想記憶和優(yōu)化計算;自組織網(wǎng)絡(luò)以ART模型、Kohonon 模型為代表,用于聚類。遺傳算法是一種受Th物進化啟發(fā)的學(xué)習方法,通過變異和重組當 前己知的最好假設(shè)來Th成后續(xù)

12、的假設(shè)。每一步,通過使用目前適應(yīng)性最 高的假設(shè)的后代替代群體的某個局部,來更新當前群體的一組假設(shè),來 實現(xiàn)各個個體的適應(yīng)性的提高。遺傳算法由三個基本過程組成:繁殖 (選擇)是從一個舊種群(父代)選出Th命力強的個體,產(chǎn)Th新種群 (后代)的過程;交叉重組)選擇兩個不同個體染色體)的局部(基因)進 行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進行 變異的過程。在數(shù)據(jù)挖掘中,可以被用作評估其他算法的適合度。粗糙集能夠在缺少關(guān)于數(shù)據(jù)先驗知識的情況下,只以考察數(shù)據(jù)的 分類能力為基礎(chǔ),解決模糊或不確定數(shù)據(jù)的分析和處理問題。粗糙集 用于從數(shù)據(jù)庫中發(fā)現(xiàn)分類規(guī)那么的基本思想是將數(shù)據(jù)庫中的屬性分

13、為條 件屬性和結(jié)論屬性,對數(shù)據(jù)庫中的元組根據(jù)各個屬性不同的屬性值分成 相應(yīng)的子集,然后對條件屬性劃分的子集與結(jié)論屬性劃分的子集 之間上下近似關(guān)系Th成判定規(guī)那么。所有相似對象的集合稱為初等集合, 形成知識的基本成分。任何初等集合的并集稱為精確集,否那么,一個 集合就是粗糙的(不精確的)。每個粗糙集都具有邊界元素,也就是那些 既不能確定為集合元素,也不能確定為集合補集元素的元素。粗糙集理 論可以應(yīng)用于數(shù)據(jù)挖掘中的分類、發(fā)現(xiàn)不準確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié) 構(gòu)聯(lián)系。支持向量機(SVM)是在統(tǒng)計學(xué)習理論的基礎(chǔ)上開展出來的一種新精彩文檔2022年-2023年最新實用標準文案的機器學(xué)習方法。它基于結(jié)構(gòu)風險最

14、小化原那么上的,盡量提高學(xué)習機的 泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過 學(xué)習問題,現(xiàn)已成為訓(xùn)練多層感知器、RBF神經(jīng)網(wǎng)絡(luò)和多項式神經(jīng)元網(wǎng) 絡(luò)的替代性方法。另外,支持向量機算法是一個凸優(yōu)化問題,局部最 優(yōu)解一定是全局最優(yōu)解,這些特點都是包括神經(jīng)元網(wǎng)絡(luò)在內(nèi)的其它算法 所不能及的。支持向量機可以應(yīng)用于數(shù)據(jù)挖掘的分類、回歸、對未知事 物的探索等方面。除上述方法外,還有把數(shù)據(jù)與結(jié)果轉(zhuǎn)化和表達成可視化技術(shù)、云 模型方法和歸納邏輯程序等方法。事實上,任何一種挖掘工具往往是 根據(jù)具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣, 而是視具體問題而定。對于數(shù)據(jù)挖掘,我們可以分為

15、三個主要的階段: 數(shù)據(jù)準備、數(shù)據(jù)挖掘、結(jié)果的評價和表達。其中結(jié)果的評價和表達 還可以細分為:評估、解釋模式模型、鞏固、運用知識。數(shù)據(jù)庫中的知識發(fā)現(xiàn)是一個多步驟的處理過程,也是 這三個階段的反復(fù)過程,.數(shù)據(jù)準備KDD的處理對象是大量的數(shù)據(jù),這些數(shù)據(jù)一般存儲在數(shù)據(jù)庫系統(tǒng) 中,長期積累的結(jié)果。但是往往不適合直接在這些數(shù)據(jù)上面進行知識挖掘,需要做數(shù)據(jù) 準備工作,一般包括數(shù)據(jù)的選擇(選擇相關(guān)的數(shù)據(jù))、凈化(消除噪音、數(shù) 據(jù))、推測(推算缺失數(shù)據(jù))、轉(zhuǎn)換(離散值數(shù)據(jù)與連續(xù)值數(shù)據(jù)之間的相 互轉(zhuǎn)換,數(shù)據(jù)值的分組分類,數(shù)據(jù)項之間的計算組合等)、數(shù)據(jù)縮精彩文檔2022年-2023年最新實用標準文案減(減少數(shù)據(jù)量)

16、。這些工作往往在Th成數(shù)據(jù)倉庫時己經(jīng)準備妥當。數(shù) 據(jù)準備是KDD的第一個步驟。數(shù)據(jù)準備是否做好將影響到數(shù)據(jù)挖掘的 效率和準確度以及最終模式的有效性。.數(shù)據(jù)挖掘數(shù)據(jù)挖掘是KDD最關(guān)鍵的步驟,也是技術(shù)難點所在。研究KDD的 人員中大局部都在研究數(shù)據(jù)挖掘技術(shù),采用較多的技術(shù)有決策樹、分類、聚 類、粗糙集、關(guān)聯(lián)規(guī)那么、神經(jīng)網(wǎng)絡(luò)、遺傳算法等。數(shù)據(jù)挖掘根據(jù)KDD的目 標,選取相應(yīng)算法的參數(shù),分析數(shù)據(jù),得到可能型號層知識的模式模 型。.結(jié)果評價和表達評估、解釋模式模型:上面得到的模式模型,有可能是沒有實際 意義或沒有使用價值的,也有可能是其不能準確反映數(shù)據(jù)的真實意義, 甚至在某些情況下是與事實相反的,因此需

17、要評估,確定哪些是有效的、 有用的模式。評估可以根據(jù)用戶多年的經(jīng)驗,有些模式也可以直接用數(shù) 據(jù)來檢驗其準確性。這個步驟還包括把模式以易于理解的方式呈現(xiàn)給用 戶。鞏固知識:用戶理解的、并被認為是符合實際和有價值的模式模 型形成了知識。同時還要注意對知識做一致性檢查,解決與以前得到的 知識相互沖突、矛盾的堤防,使知識得到鞏固。運用知識:發(fā)現(xiàn)知識是為了運用,如何使知識能被運用也是KDD 的步驟之一。運用知識有兩種方法:一種是只需要看知識本身所描述 的關(guān)系或結(jié)果,就可以對決策提供支持;另一種是要求對新的數(shù)據(jù)運 用知識,由此可能產(chǎn)Th新的問題,而需要對知識做進一步的優(yōu)化。KDD精彩文檔2022年-202

18、3年最新實用標準文案的過程可能需要屢次的循環(huán)反復(fù),每一個步驟一旦與預(yù)期目標不符都 要回到前面的步驟,重新調(diào)整,重新執(zhí)行。3、數(shù)據(jù)挖掘的潛在應(yīng)用是十分廣泛的:政府管理決策、商業(yè)經(jīng)營、 科學(xué)研究和工業(yè)企業(yè)決策支持等個領(lǐng)域。從科學(xué)研究方法學(xué)的角度 看,科學(xué)研究可分為三類:理論科學(xué)、實驗科學(xué)和計算科學(xué)。計算科 學(xué)是現(xiàn)代科學(xué)的一個重要標志。計算科學(xué)工作者主要和數(shù)據(jù)打交道, 每天要分析各種大量的實驗或觀測數(shù)據(jù)。隨著先進的科學(xué)數(shù)據(jù)收集工 具的使用,如觀測衛(wèi)星、遙感器、DNA分子技術(shù)等,數(shù)據(jù)量非常大, 傳統(tǒng)的數(shù)據(jù)分析工具無能為力,因此必須有強大的智能型自動數(shù)據(jù)分析 工具才行。數(shù)據(jù)挖掘在天文學(xué)上有一個非常著名的

19、應(yīng)用系統(tǒng):SKI CAT (Sky Image Cataloging and Ana lysis Tool) o它是美國加州理工學(xué)院噴 氣推進實驗室(即設(shè)計火星探測器漫游者號的實驗室)與天文科學(xué)家 合作開發(fā)的用于幫助天文學(xué)家發(fā)現(xiàn)遙遠的類星體的一個工具。KICAT 既是第一個獲得相當成功的數(shù)據(jù)挖掘應(yīng)用,也是人工智能技術(shù)在天文 學(xué)和空間科學(xué)上第一批成功應(yīng)用之一。利用SKICAT,天文學(xué)家已發(fā)現(xiàn) 了 16個新的極其遙遠的類星體,該項發(fā)現(xiàn)能幫助天文工作者更好地 研究類星體的形成以及早期宇宙的結(jié)構(gòu)。數(shù)據(jù)挖掘在Th物學(xué)上的應(yīng)用主要集中于分子Th物學(xué)特別是基因 工程的研究上?;蜓芯恐?,有一個著名的國際性研究課題人類 基因組計劃。據(jù)報道,1997年3月,科學(xué)家宣布已完成第一步計劃: 繪制人類染色體基因圖。然而這僅僅是第

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論