下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、網(wǎng)絡(luò)化時(shí)代信息膨脹成為必然,如何準(zhǔn)確、高效地從豐富而膨脹的數(shù)據(jù)中篩選出對(duì)經(jīng)營(yíng)決策 有用的信息已經(jīng)成為企業(yè)和機(jī)構(gòu)迫切需要解決的問(wèn)題,針對(duì)于此,海量數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而 生,并顯示出強(qiáng)大的解決能力。Gartner的報(bào)告指出,數(shù)據(jù)挖掘會(huì)成為未來(lái)10年內(nèi)重要的 技術(shù)之一。一、海量數(shù)據(jù)挖掘關(guān)鍵技術(shù)隨時(shí)代而變化所謂海量數(shù)據(jù)挖掘,是指應(yīng)用一定的算法,從海量的數(shù)據(jù)中發(fā)現(xiàn)有用的信息和知識(shí)。海 量數(shù)據(jù)挖掘關(guān)鍵技術(shù)主要包括海量數(shù)據(jù)存儲(chǔ)、云計(jì)算、并行數(shù)據(jù)挖掘技術(shù)、面向數(shù)據(jù)挖掘的 隱私保護(hù)技術(shù)和數(shù)據(jù)挖掘集成技術(shù)。海量數(shù)據(jù)存儲(chǔ)海量存儲(chǔ)系統(tǒng)的關(guān)鍵技術(shù)包括并行存儲(chǔ)體系架構(gòu)、高性能對(duì)象存儲(chǔ)技術(shù)、并行I/O訪問(wèn) 技術(shù)、海量存儲(chǔ)系統(tǒng)
2、高可用技術(shù)、嵌入式64位存儲(chǔ)操作系統(tǒng)、數(shù)據(jù)保護(hù)與安全體系、綠色 存儲(chǔ)等。海量數(shù)據(jù)存儲(chǔ)系統(tǒng)為云計(jì)算、物聯(lián)網(wǎng)等新一代高新技術(shù)產(chǎn)業(yè)提供核心的存儲(chǔ)基礎(chǔ)設(shè)施; 為我國(guó)的一系列重大工程如平安工程等起到了核心支撐和保障作用;海量存儲(chǔ)系統(tǒng)已經(jīng)使用 到石油、氣象、金融、電信等國(guó)家重要行業(yè)與部門。發(fā)展具有自主知識(shí)產(chǎn)權(quán)、達(dá)到國(guó)際先進(jìn) 水平的海量數(shù)據(jù)存儲(chǔ)系統(tǒng)不僅能夠填補(bǔ)國(guó)內(nèi)在高端數(shù)據(jù)存儲(chǔ)系統(tǒng)領(lǐng)域的空白,而且可以滿足 國(guó)內(nèi)許多重大行業(yè)快速增長(zhǎng)的海量數(shù)據(jù)存儲(chǔ)需要,并創(chuàng)造巨大的經(jīng)濟(jì)效益。云計(jì)算目前云計(jì)算的相關(guān)應(yīng)用主要有云物聯(lián)、云安全、云存儲(chǔ)。云存儲(chǔ)是在云計(jì)算(cloud computing)概念上延伸和發(fā)展出來(lái)的新概念,是
3、指通過(guò)集群應(yīng)用、網(wǎng)格技術(shù)或分布式文件系 統(tǒng)等功能,將網(wǎng)絡(luò)中大量各種不同類型的存儲(chǔ)設(shè)備通過(guò)應(yīng)用軟件集合起來(lái)協(xié)同工作,共同對(duì) 外提供數(shù)據(jù)存儲(chǔ)和業(yè)務(wù)訪問(wèn)功能的一個(gè)系統(tǒng)。當(dāng)云計(jì)算系統(tǒng)運(yùn)算和處理的核心是大量數(shù)據(jù)的存儲(chǔ)和管理時(shí),云計(jì)算系統(tǒng)中就需要配置 大量的存儲(chǔ)設(shè)備,那么云計(jì)算系統(tǒng)就轉(zhuǎn)變成為一個(gè)云存儲(chǔ)系統(tǒng),所以云存儲(chǔ)是一個(gè)以數(shù)據(jù)存 儲(chǔ)和管理為核心的云計(jì)算系統(tǒng)。并行數(shù)據(jù)挖掘技術(shù)高效率的數(shù)據(jù)挖掘是人們所期望的,但當(dāng)數(shù)據(jù)挖掘的對(duì)象是一個(gè)龐大的數(shù)據(jù)集或是許多 廣泛分布的數(shù)據(jù)源時(shí),效率就成為數(shù)據(jù)挖掘的瓶頸。隨著并行處理技術(shù)的快速發(fā)展,用并行 處理的方法來(lái)提高數(shù)據(jù)挖掘效率的需求越來(lái)越大。并行數(shù)據(jù)挖掘涉及到了一系列體系
4、結(jié)構(gòu)和算法方面的技術(shù),如硬件平臺(tái)的選擇(共享內(nèi) 存的或者分布式的)、并行的策略(任務(wù)并行、數(shù)據(jù)并行或者任務(wù)并行與數(shù)據(jù)并行結(jié)合)、 負(fù)載平衡的策略(靜態(tài)負(fù)載平衡或者動(dòng)態(tài)負(fù)載平衡)、數(shù)據(jù)劃分的方式(橫向的或者縱向的) 等。處理并行數(shù)據(jù)挖掘的策略主要涉及三種算法:并行關(guān)聯(lián)規(guī)則挖掘算法、并行聚類算法和 并行分類算法。面向數(shù)據(jù)挖掘的隱私保護(hù)技術(shù)數(shù)據(jù)挖掘在產(chǎn)生財(cái)富的同時(shí)也隨之出現(xiàn)了隱私泄露的問(wèn)題。如何在防止隱私泄露的前提 下進(jìn)行數(shù)據(jù)挖掘,是信息化時(shí)代各行業(yè)現(xiàn)實(shí)迫切的需求。基于隱私保護(hù)的數(shù)據(jù)挖掘是指采用數(shù)據(jù)擾亂、數(shù)據(jù)重構(gòu)、密碼學(xué)等技術(shù)手段,能夠在保 證足夠精度和準(zhǔn)確度的前提下,使數(shù)據(jù)挖掘者在不觸及實(shí)際隱私數(shù)
5、據(jù)的同時(shí),仍能進(jìn)行有效 的挖掘工作。受數(shù)據(jù)挖掘技術(shù)多樣性的影響,隱私保護(hù)的數(shù)據(jù)挖掘方法呈現(xiàn)多樣性?;陔[私保護(hù)的 數(shù)據(jù)挖掘技術(shù)可從4個(gè)層面進(jìn)行分類:從數(shù)據(jù)的分布情況,可以分為原始數(shù)據(jù)集中式和分布 式兩大類隱私保護(hù)技術(shù);從原始數(shù)據(jù)的隱藏情況,可以分為對(duì)原始數(shù)據(jù)進(jìn)行擾動(dòng)、替換和匿 名隱藏等隱私保護(hù)技術(shù);從數(shù)據(jù)挖掘技術(shù)層面,可以分為針對(duì)分類挖掘、聚類挖掘、關(guān)聯(lián)規(guī) 則挖掘等隱私保護(hù)技術(shù);從隱藏內(nèi)容層面,可以分為原始數(shù)據(jù)隱藏、模式隱藏。數(shù)據(jù)挖掘集成技術(shù)數(shù)據(jù)挖掘體系框架由三部分組成:數(shù)據(jù)準(zhǔn)備體系、建模與挖掘體系、結(jié)果解釋與評(píng)價(jià)體 系。其中最為核心的部分是建模與挖掘體系,它主要是根據(jù)挖掘主題和目標(biāo),通過(guò)挖掘
6、算法 和相關(guān)技術(shù)(如統(tǒng)計(jì)學(xué)、人工智能、數(shù)據(jù)庫(kù)、相關(guān)軟件技術(shù)等,對(duì)數(shù)據(jù)進(jìn)行分析,挖掘出數(shù) 據(jù)之間內(nèi)在的聯(lián)系和潛在的規(guī)律。大體上,數(shù)據(jù)挖掘應(yīng)用集成可分為幾類:數(shù)據(jù)挖掘算法的 集成、數(shù)據(jù)挖掘與數(shù)據(jù)庫(kù)的集成、數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)的集成、數(shù)據(jù)挖掘與相關(guān)軟件技術(shù)的 集成、數(shù)據(jù)挖掘與人工智能技術(shù)的集成等。二、海量數(shù)據(jù)挖掘應(yīng)用廣泛但深度不足2011年中國(guó)數(shù)據(jù)挖掘軟件市場(chǎng)規(guī)模達(dá)接近2億元,2012-2014年還將快速增長(zhǎng)。從數(shù) 據(jù)挖掘應(yīng)用行業(yè)上看,國(guó)內(nèi)大多數(shù)的用戶都來(lái)自電信、銀行、保險(xiǎn)、稅務(wù)、政府等領(lǐng)域。應(yīng) 用主題主要包含:消費(fèi)者行為分析、信用評(píng)分與風(fēng)險(xiǎn)管理、欺詐行為偵測(cè)、購(gòu)物籃分析等方 面。目前,國(guó)內(nèi)數(shù)據(jù)挖掘應(yīng)
7、用仍停留在初級(jí)階段,行業(yè)企業(yè)大規(guī)模的運(yùn)用數(shù)據(jù)挖掘技術(shù)尚需 時(shí)日。國(guó)內(nèi)數(shù)據(jù)挖掘應(yīng)用可分為3個(gè)層次從數(shù)據(jù)挖掘應(yīng)用層次上看,大體可以分為三個(gè)層次:第一層次是把挖掘工具當(dāng)作單獨(dú)的 工具來(lái)用,不用專門建設(shè)系統(tǒng);第二層次則是把數(shù)據(jù)挖掘模塊嵌入到系統(tǒng)中,成為部門級(jí)應(yīng) 用;第三層次是企業(yè)級(jí)應(yīng)用,相當(dāng)于把挖掘系統(tǒng)作為整個(gè)企業(yè)運(yùn)營(yíng)的中央處理器。目前,國(guó) 內(nèi)的數(shù)據(jù)挖掘應(yīng)用的企業(yè)基本處于第一層次,偶爾某些企業(yè)用戶能夠做到第二層次。國(guó)內(nèi)有代表性的數(shù)據(jù)挖掘行業(yè)應(yīng)用情況簡(jiǎn)評(píng)(1)通信業(yè):國(guó)內(nèi)應(yīng)用數(shù)據(jù)挖掘的企業(yè)還是以通信企業(yè)(移動(dòng)、聯(lián)通、電信)為首, 應(yīng)用的深度和廣度都處于領(lǐng)先地位。(2)互聯(lián)網(wǎng)企業(yè):隨著電子商務(wù)的普及,各大
8、商務(wù)網(wǎng)站已經(jīng)大規(guī)模使用數(shù)據(jù)挖掘技術(shù), 并且迅速?gòu)闹腥〉蒙虡I(yè)價(jià)值。例如,國(guó)內(nèi)很多網(wǎng)上商城已經(jīng)開(kāi)始使用數(shù)據(jù)挖掘技術(shù)進(jìn)行客戶 聚類或者商品關(guān)聯(lián)推廣。另外,搜索引擎企業(yè)使用數(shù)據(jù)挖掘技術(shù)的需求也非常迫切。(3)政府部門:我國(guó)政府部門中使用數(shù)據(jù)挖掘技術(shù)比較領(lǐng)先的是稅務(wù)系統(tǒng)。數(shù)據(jù)挖掘 在電子政務(wù)中的應(yīng)用,更多的涉及到報(bào)表填制、數(shù)據(jù)統(tǒng)計(jì)。(4)國(guó)內(nèi)金融行業(yè):操作型數(shù)據(jù)挖掘應(yīng)用在國(guó)內(nèi)金融行業(yè)應(yīng)用廣泛,尤其是信貸評(píng)審 領(lǐng)域。中小型銀行數(shù)據(jù)挖掘需求將是未來(lái)金融行業(yè)數(shù)據(jù)挖掘市場(chǎng)的主要增長(zhǎng)點(diǎn)。未來(lái)5年時(shí) 間里,數(shù)據(jù)挖掘應(yīng)用在金融行業(yè)仍將高速發(fā)展。(5)國(guó)內(nèi)零售業(yè):跟國(guó)外相比,國(guó)內(nèi)零售業(yè)對(duì)數(shù)據(jù)挖掘的應(yīng)用并不太熱衷,這可能與 客戶信息的完整性有關(guān)。但是在一些大型的超市、百貨、電器等銷售企業(yè),數(shù)據(jù)挖掘技術(shù)已 經(jīng)應(yīng)用,未來(lái)還有進(jìn)一步的應(yīng)用空間。(6)現(xiàn)代工業(yè):制造業(yè)將是未來(lái)數(shù)據(jù)挖掘新的增長(zhǎng)點(diǎn)。目前,作為現(xiàn)代化生產(chǎn)主力的 工業(yè)部門國(guó)內(nèi)的數(shù)據(jù)挖掘技術(shù)應(yīng)用卻不多,只在電力部門火力發(fā)電方向有一些系統(tǒng)的應(yīng)用, 其他領(lǐng)域只有少數(shù)零散的應(yīng)用。數(shù)據(jù)共享關(guān)鍵技術(shù):元數(shù)據(jù):描述信息資源或數(shù)據(jù)對(duì)象的數(shù)據(jù),其使用目的在于識(shí)別資源、 評(píng)價(jià)資源和追蹤資源在使用過(guò)程中的變化,實(shí)現(xiàn)信息資源的發(fā)現(xiàn)、查 找、一體化組織和對(duì)資源的有效管理。數(shù)據(jù)轉(zhuǎn)換:不同企業(yè)具有不同的數(shù)據(jù)庫(kù),構(gòu)成異構(gòu)數(shù)據(jù)庫(kù),把其他格
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 贛南醫(yī)學(xué)院《攝影與攝像》2023-2024學(xué)年第一學(xué)期期末試卷
- 贛南師范大學(xué)《能源化工專業(yè)英語(yǔ)》2023-2024學(xué)年第一學(xué)期期末試卷
- 甘肅中醫(yī)藥大學(xué)《麻醉設(shè)備學(xué)基礎(chǔ)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2022年上半年盧姨筆試幼兒綜合教資押題(含答案)
- 三年級(jí)數(shù)學(xué)上冊(cè)第五單元倍的認(rèn)識(shí)第1課時(shí)倍的認(rèn)識(shí)教案新人教版
- 三年級(jí)科學(xué)下冊(cè)四植物和我們1植物和我們的生活教案新人教版
- 員工培訓(xùn)課件服從
- 禮儀常識(shí)培訓(xùn)課件
- 面部手法培訓(xùn)課件
- 《水環(huán)境公共政策》課件
- 【9歷期末】安徽省淮北市2023-2024學(xué)年九年級(jí)上學(xué)期期末歷史試題
- 小紅書(shū)營(yíng)銷師(初級(jí))認(rèn)證理論知識(shí)考試題及答案
- 2024年度物流園區(qū)運(yùn)營(yíng)承包合同范本3篇
- 第五單元第四節(jié) 全球發(fā)展與合作 教學(xué)實(shí)錄-2024-2025學(xué)年粵人版地理七年級(jí)上冊(cè)
- 貴州省部分學(xué)校2024-2025學(xué)年高三年級(jí)上冊(cè)10月聯(lián)考 化學(xué)試卷
- 期末綜合試卷(試題)2024-2025學(xué)年人教版數(shù)學(xué)五年級(jí)上冊(cè)(含答案)
- 2024-2025學(xué)年上學(xué)期武漢小學(xué)語(yǔ)文六年級(jí)期末模擬試卷
- 《爭(zhēng)做文明班級(jí)》課件
- 遼寧省大連市沙河口區(qū)2022-2023學(xué)年八年級(jí)上學(xué)期物理期末試卷(含答案)
- 2024年新能源汽車概論考試題庫(kù)
- 2024年醫(yī)師定期考核臨床類人文醫(yī)學(xué)知識(shí)考試題庫(kù)及答案(共280題)
評(píng)論
0/150
提交評(píng)論