![數(shù)據(jù)挖掘概述_第1頁](http://file4.renrendoc.com/view/17745224200921f5a28799a98d11655b/17745224200921f5a28799a98d11655b1.gif)
![數(shù)據(jù)挖掘概述_第2頁](http://file4.renrendoc.com/view/17745224200921f5a28799a98d11655b/17745224200921f5a28799a98d11655b2.gif)
![數(shù)據(jù)挖掘概述_第3頁](http://file4.renrendoc.com/view/17745224200921f5a28799a98d11655b/17745224200921f5a28799a98d11655b3.gif)
![數(shù)據(jù)挖掘概述_第4頁](http://file4.renrendoc.com/view/17745224200921f5a28799a98d11655b/17745224200921f5a28799a98d11655b4.gif)
![數(shù)據(jù)挖掘概述_第5頁](http://file4.renrendoc.com/view/17745224200921f5a28799a98d11655b/17745224200921f5a28799a98d11655b5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)挖掘的由來網(wǎng)絡(luò)之后的下一個(gè)技術(shù)熱點(diǎn)數(shù)據(jù)爆炸但知識(shí)貧乏支持?jǐn)?shù)據(jù)挖掘技術(shù)的基礎(chǔ)從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化第一頁,共42頁。網(wǎng)絡(luò)之后的下一個(gè)技術(shù)熱點(diǎn)網(wǎng)絡(luò)時(shí)代面臨的信息問題:信息過量,難以消化;信息真假難以辨識(shí);信息安全難以保證;信息形式不一致,難以統(tǒng)一處理?!耙獙W(xué)會(huì)拋棄信息”
第二頁,共42頁。數(shù)據(jù)爆炸但知識(shí)貧乏數(shù)據(jù)庫的容量已達(dá)上萬億水平(T)--1,000,000,000,000個(gè)字節(jié)全球信息量以驚人的速度急劇增長(zhǎng)--據(jù)估計(jì),每二十個(gè)月將增加一倍。許多組織機(jī)構(gòu)的IT系統(tǒng)中都收集了大量的數(shù)據(jù)第三頁,共42頁。支持?jǐn)?shù)據(jù)挖掘技術(shù)的基礎(chǔ)激發(fā)了數(shù)據(jù)挖掘的開發(fā)、應(yīng)用和研究的興趣的四個(gè)主要技術(shù)理由:超大規(guī)模數(shù)據(jù)庫的出現(xiàn),例如商業(yè)數(shù)據(jù)倉庫和計(jì)算機(jī)自動(dòng)收集的數(shù)據(jù)記錄;強(qiáng)大的多處理器計(jì)算機(jī)。例如更快和更大的計(jì)算能力和并行體系結(jié)構(gòu);海量數(shù)據(jù)搜索,對(duì)巨大量數(shù)據(jù)的快速訪問;數(shù)據(jù)挖掘算法。
第四頁,共42頁。從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化進(jìn)化階段商業(yè)問題支持技術(shù)產(chǎn)品廠家產(chǎn)品特點(diǎn)數(shù)據(jù)搜集
(60年代)“過去五年中我的總收入是多少?”計(jì)算機(jī)、磁帶和磁盤IBM,CDC提供歷史性的、靜態(tài)的數(shù)據(jù)信息數(shù)據(jù)訪問
(80年代)“在新英格蘭的分部去年三月的銷售額是多少?”關(guān)系數(shù)據(jù)庫(RDBMS),結(jié)構(gòu)化查詢語言(SQL)、Sybase、Informix、IBMOracle、Sybase、Informix、IBM、Microsoft在記錄級(jí)提供歷史性、動(dòng)態(tài)數(shù)據(jù)信息數(shù)據(jù)倉庫;
決策支持
(90年代)“在新英格蘭的分部去年三月的銷售額是多少?波士頓據(jù)此可得出什么結(jié)論?”聯(lián)機(jī)分析處理(OLAP)、多維數(shù)據(jù)庫、數(shù)據(jù)倉庫Pilot、Comshare、Arbor、Cognos、Microstrategy在各種層次上提供回溯的、動(dòng)態(tài)的數(shù)據(jù)信息數(shù)據(jù)挖掘
(正在流行)“下個(gè)月波士頓的銷售會(huì)怎么樣?為什么?”高級(jí)算法、多處理器計(jì)算機(jī)、海量數(shù)據(jù)庫Pilot、Lockheed、IBM、SGI、其他初創(chuàng)公司提供預(yù)測(cè)性的信息第五頁,共42頁。數(shù)據(jù)挖掘(DataMining)的定義數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。〔技術(shù)角度的定義〕數(shù)據(jù)挖掘可以描述為:按企業(yè)既定業(yè)務(wù)目標(biāo),對(duì)大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗(yàn)證己知的規(guī)律性,并進(jìn)一步將其模型化的有效方法?!采虡I(yè)角度的定義〕數(shù)據(jù)挖掘相近的同義詞包括:數(shù)據(jù)融合、數(shù)據(jù)分析和決策支持等。
第六頁,共42頁。數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系DataMiningDatabaseTechnologyStatisticsOtherDisciplinesInformationScienceMachineLearningVisualization第七頁,共42頁。實(shí)施數(shù)據(jù)挖掘的目的不再是單純?yōu)榱搜芯?,更主要的是為商業(yè)決策提供真正有價(jià)值的信息,進(jìn)而獲得利潤(rùn)。所有企業(yè)面臨的一個(gè)共同問題是:企業(yè)數(shù)據(jù)量非常大,而其中真正有價(jià)值的信息卻很少,因此需要從大量的數(shù)據(jù)中經(jīng)過深層分析,獲得有利于商業(yè)運(yùn)作、提高競(jìng)爭(zhēng)力的信息,就像從礦石中淘金一樣,數(shù)據(jù)挖掘也由此而得名。第八頁,共42頁。數(shù)據(jù)挖掘的數(shù)據(jù)源與以前相比有了顯著的改變;數(shù)據(jù)是海量的;數(shù)據(jù)有噪聲;數(shù)據(jù)可能是非結(jié)構(gòu)化的;傳統(tǒng)的數(shù)據(jù)分析方法基于假設(shè)驅(qū)動(dòng)的:一般都是先給出一個(gè)假設(shè)然后通過數(shù)據(jù)驗(yàn)證數(shù)據(jù)挖掘在一定意義上是基于發(fā)現(xiàn)驅(qū)動(dòng)的:模式都是通過大量的搜索工作從數(shù)據(jù)中自動(dòng)提取出來。即數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠直覺發(fā)現(xiàn)的信息或知識(shí),甚至是違背直覺的信息或知識(shí),挖掘出的信息越是出乎意料,就可能越有價(jià)值。數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析方法區(qū)別第九頁,共42頁。數(shù)據(jù)挖掘和數(shù)據(jù)倉庫
第十頁,共42頁。數(shù)據(jù)挖掘和OLAP完全不同的工具,基于的技術(shù)也大相徑庭OLAP基于用戶假設(shè)。whathappened〔查詢和報(bào)表工具是告訴你數(shù)據(jù)庫中都有什么〕whatnext〔OLAP更進(jìn)一步告訴你下一步會(huì)怎么樣〕whatif〔如果我采取這樣的措施又會(huì)怎么樣〕數(shù)據(jù)挖掘本質(zhì)上是一個(gè)歸納的過程,不是用于驗(yàn)證某個(gè)假定的模式(模型)的正確性,而是在數(shù)據(jù)庫中自己尋找模型。數(shù)據(jù)挖掘和OLAP有一定的互補(bǔ)性。第十一頁,共42頁?;靖拍顢?shù)據(jù):是指一個(gè)有關(guān)事實(shí)F的集合(如學(xué)生檔案數(shù)據(jù)庫中有關(guān)學(xué)生基本情況的各條記錄),用來描述事物有關(guān)方面的信息。一般而言,這些數(shù)據(jù)都是準(zhǔn)確無誤的。信息:是事物運(yùn)動(dòng)的狀態(tài)和狀態(tài)變化的方式。知識(shí)人們實(shí)踐經(jīng)驗(yàn)的結(jié)晶且為新的實(shí)踐所證實(shí)的;是關(guān)于事物運(yùn)動(dòng)的狀態(tài)和狀態(tài)變化的規(guī)律;是對(duì)信息加工提煉所獲得的抽象化產(chǎn)物。知識(shí)的形式可能是模式、關(guān)聯(lián)、變化、異常以及其他有意義的結(jié)構(gòu)。第十二頁,共42頁。主要功能1.概念/類別描述(Concept/ClassDescription)概念/類別描述是指對(duì)數(shù)據(jù)集做一個(gè)簡(jiǎn)潔的總體性描述并/或描述它與某一對(duì)照數(shù)據(jù)集的差別。例1:我們收集移動(dòng)電話費(fèi)月消費(fèi)額超出1000元的客戶資料,然后利用數(shù)據(jù)挖掘進(jìn)行分析,獲得這類客戶的總體性描述:35-50歲,有工作,月收入5000元以上,擁有良好的信用度…;
第十三頁,共42頁。主要功能例2:對(duì)比移動(dòng)電話費(fèi)月消費(fèi)額超出1000元的客戶群與移動(dòng)電話費(fèi)月消費(fèi)額低于100元的客戶群。利用數(shù)據(jù)挖掘可作出如下描述:移動(dòng)電話月消費(fèi)額超出1000元的客戶80%以上年齡在35-50歲之間,且月收入5000元以上;而移動(dòng)電話月消費(fèi)額低于100元的客戶60%以上要么年齡過大要么年齡過小,且月收入2000元以下。第十四頁,共42頁。主要功能2.關(guān)聯(lián)分析(AssociationAnalysis)從一個(gè)項(xiàng)目集中發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,該規(guī)則顯示了給定數(shù)據(jù)集中經(jīng)常一起出現(xiàn)的屬性-值條件元組。例如:關(guān)聯(lián)規(guī)則X=>Y所表達(dá)的含義是滿足X的數(shù)據(jù)庫元組很可能滿足Y。關(guān)聯(lián)分析在交易數(shù)據(jù)分析、支持定向市場(chǎng)、商品目錄設(shè)計(jì)和其他業(yè)務(wù)決策等方面有著廣泛的應(yīng)用。
第十五頁,共42頁。主要功能3.分類與估值(ClassificationandEstimation)分類指通過分析一個(gè)類別已知的數(shù)據(jù)集的特征來建立一組模型,該模型可用以預(yù)測(cè)類別未知的數(shù)據(jù)項(xiàng)的類別。該分類模型可以表現(xiàn)為多種形式:分類規(guī)則(IF-THEN),決策樹或者數(shù)學(xué)公式,乃至神經(jīng)網(wǎng)絡(luò)。估值與分類類似,只不過它要預(yù)測(cè)的不是類別,而是一個(gè)連續(xù)的數(shù)值。
第十六頁,共42頁。主要功能4.聚類分析(ClusteringAnalysis)聚類分析又稱為“同質(zhì)分組”或者“無監(jiān)督的分類”,指把一組數(shù)據(jù)分成不同的“簇”,每簇中的數(shù)據(jù)相似而不同簇間的數(shù)據(jù)則距離較遠(yuǎn)。相似性可以由用戶或者專家定義的距離函數(shù)加以度量。好的聚類方法應(yīng)保證不同類間數(shù)據(jù)的相似性盡可能地小,而類內(nèi)數(shù)據(jù)的相似性盡可能地大。
第十七頁,共42頁。主要功能5.時(shí)間序列分析(Time-Series
Analysis)時(shí)間序列分析即預(yù)測(cè)(Prediction),是指通過對(duì)大量時(shí)間序列數(shù)據(jù)的分析找到特定的規(guī)則和感興趣的特性,包括搜索相似序列或者子序列,挖掘序列模式、周期性、趨勢(shì)和偏差。預(yù)測(cè)的目的是對(duì)未來的情況作出估計(jì)。
第十八頁,共42頁。主要功能6.其它功能
包括:偏差分析(DeviationAnalysis)、孤立點(diǎn)分析(OutlierAnalysis)等。隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,可能還會(huì)繼續(xù)出現(xiàn)新的數(shù)據(jù)挖掘功能。
第十九頁,共42頁。數(shù)據(jù)挖掘模型CRISP-DM(CrossIndustryStandardProcessforDataMining)模型,最先在1996年被提出,當(dāng)前的白皮書版本是1.0。目的是把數(shù)據(jù)挖掘的過程標(biāo)準(zhǔn)化,使數(shù)據(jù)挖掘項(xiàng)目的實(shí)施速度更快、成本更低、更可靠并且更容易管理。第二十頁,共42頁。業(yè)務(wù)理解(BusinessUnderstanding)階段確定業(yè)務(wù)目標(biāo):分析項(xiàng)目的背景,從業(yè)務(wù)視點(diǎn)分析項(xiàng)目的目標(biāo)和需求,確定業(yè)務(wù)角度的成功標(biāo)準(zhǔn);項(xiàng)目可行性分析:分析擁有的資源,條件和限制,風(fēng)險(xiǎn)估計(jì),成本和效益估計(jì);確定數(shù)據(jù)挖掘目標(biāo):明確確定數(shù)據(jù)挖掘的目標(biāo)和成功標(biāo)準(zhǔn),數(shù)據(jù)挖掘的目標(biāo)和業(yè)務(wù)目標(biāo)是不一樣的,前者指技術(shù)上的,例如生成一棵決策樹等;提出項(xiàng)目計(jì)劃:對(duì)整個(gè)項(xiàng)目做一個(gè)計(jì)劃,初步估計(jì)用到的工具和技術(shù)。
第二十一頁,共42頁。數(shù)據(jù)理解(DataUnderstanding)階段收集原始數(shù)據(jù):收集本項(xiàng)目所涉及到的數(shù)據(jù),如有必要,把數(shù)據(jù)裝入數(shù)據(jù)處理工具,并作一些初步的數(shù)據(jù)集成的工作,生成相應(yīng)報(bào)告;描述數(shù)據(jù):對(duì)數(shù)據(jù)做一些大致的描述,例如記錄數(shù)、屬性數(shù)等,給出相應(yīng)報(bào)告;探索數(shù)據(jù):對(duì)數(shù)據(jù)做簡(jiǎn)單的統(tǒng)計(jì)分析,例如關(guān)鍵屬性的分布等;檢查數(shù)據(jù)質(zhì)量:包括數(shù)據(jù)是否完整、數(shù)據(jù)是否有錯(cuò)、是否有缺失值等問題。
第二十二頁,共42頁。數(shù)據(jù)準(zhǔn)備(DataPreparation)階段數(shù)據(jù)選擇:根據(jù)數(shù)據(jù)挖掘目標(biāo)和數(shù)據(jù)質(zhì)量選擇合適的數(shù)據(jù),包括表的選擇、記錄選擇和屬性選擇;數(shù)據(jù)清潔:提高選擇好的數(shù)據(jù)的質(zhì)量,例如去除噪音,估計(jì)缺失值等;數(shù)據(jù)創(chuàng)建:在原有數(shù)據(jù)的基礎(chǔ)上是生成新的屬性或記錄;數(shù)據(jù)合并:利用表連接等方式將幾個(gè)數(shù)據(jù)集合并在一起;數(shù)據(jù)格式化:把數(shù)據(jù)轉(zhuǎn)換成適合數(shù)據(jù)挖掘處理的格式。第二十三頁,共42頁。建立模型(Modeling)階段選擇建模技術(shù):確定數(shù)據(jù)挖掘算法和參數(shù),可能會(huì)利用多個(gè)算法;測(cè)試方案設(shè)計(jì):設(shè)計(jì)某種測(cè)試模型的質(zhì)量和有效性的機(jī)制;模型訓(xùn)練:在準(zhǔn)備好的數(shù)據(jù)集上運(yùn)行數(shù)據(jù)挖掘算法,得出一個(gè)或者多個(gè)模型;模型測(cè)試評(píng)估:根據(jù)測(cè)試方案進(jìn)行測(cè)試,從數(shù)據(jù)挖掘技術(shù)的角度確定數(shù)據(jù)挖掘目標(biāo)是否成功。
第二十四頁,共42頁。模型評(píng)估(Evaluation)階段結(jié)果評(píng)估:從商業(yè)角度評(píng)估得到的模型,甚至實(shí)際試用該模型測(cè)試其效果;過程回顧:回顧項(xiàng)目的所有流程,確定每一個(gè)階段都沒有失誤;確定下一步工作:根據(jù)結(jié)果評(píng)估和過程回顧得出的結(jié)論,確定是部署該挖掘模型還是從某個(gè)階段開始重新開始。
第二十五頁,共42頁。部署(Deployment)階段部署計(jì)劃:對(duì)在業(yè)務(wù)運(yùn)作中部署模型作出計(jì)劃;監(jiān)控和維護(hù)計(jì)劃:如何監(jiān)控模型在實(shí)際業(yè)務(wù)中的使用情況,如何維護(hù)該模型;作出最終報(bào)告:項(xiàng)目總結(jié),項(xiàng)目經(jīng)驗(yàn)和項(xiàng)目結(jié)果;項(xiàng)目回顧:回顧項(xiàng)目的實(shí)施過程,總結(jié)經(jīng)驗(yàn)教訓(xùn);對(duì)數(shù)據(jù)挖掘的運(yùn)行效果做一個(gè)預(yù)測(cè)。
第二十六頁,共42頁。數(shù)據(jù)挖掘模型為保證項(xiàng)目的可靠性和可管理性,CRISP-DM規(guī)定一個(gè)數(shù)據(jù)挖掘項(xiàng)目應(yīng)該產(chǎn)生11個(gè)報(bào)告:
業(yè)務(wù)理解報(bào)告原始數(shù)據(jù)收集報(bào)告數(shù)據(jù)描述報(bào)告數(shù)據(jù)探索報(bào)告數(shù)據(jù)質(zhì)量報(bào)告數(shù)據(jù)集描述報(bào)告模型訓(xùn)練報(bào)告模型評(píng)估報(bào)告部署計(jì)劃監(jiān)控和維護(hù)計(jì)劃總結(jié)報(bào)告通過這些報(bào)告,可以有效地控制數(shù)據(jù)挖掘項(xiàng)目進(jìn)程,減少開發(fā)風(fēng)險(xiǎn)。
第二十七頁,共42頁。實(shí)現(xiàn)流程各步驟之間互相影響、反復(fù)調(diào)整,形成一種螺旋式上升過程。第二十八頁,共42頁。數(shù)據(jù)準(zhǔn)備KDD的處理對(duì)象是大量的數(shù)據(jù),這些數(shù)據(jù)一般存儲(chǔ)在數(shù)據(jù)庫系統(tǒng)中,是長(zhǎng)期積累的結(jié)果。但往往不合適直接在這些數(shù)據(jù)上進(jìn)行知識(shí)挖掘,需要做一些準(zhǔn)備工作,也就數(shù)據(jù)的預(yù)處理。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)的選擇(選擇相關(guān)數(shù)據(jù))、凈化(消除噪音、冗余數(shù)據(jù))、推測(cè)(推算缺值數(shù)據(jù))、轉(zhuǎn)換(離散型數(shù)據(jù)與連續(xù)型數(shù)據(jù)之間的轉(zhuǎn)換)、數(shù)據(jù)縮減(減少數(shù)據(jù)量)等。數(shù)據(jù)準(zhǔn)備是KDD的第一個(gè)步驟,數(shù)據(jù)準(zhǔn)備得好壞將直接影響數(shù)據(jù)挖掘的效率和準(zhǔn)確度以及最終模式的有效性.。
第二十九頁,共42頁。數(shù)據(jù)挖掘數(shù)據(jù)挖掘是最為關(guān)鍵的步驟,它根據(jù)KDD的目標(biāo),選取相應(yīng)算法的參數(shù),分析數(shù)據(jù),得到可能形成知識(shí)的模式模型。目前采用較多的技術(shù)有決策樹、分類、聚類、粗糙集、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)、遺傳算法等。
第三十頁,共42頁。模式的評(píng)估、解釋通過上面步驟所得到的模式,有可能是沒有意義或沒有實(shí)用價(jià)值的,因此需要評(píng)估,確定那些是有效的、有用的模式。此外,大部分模式是用數(shù)學(xué)手段描述的表達(dá)式,很難被人理解,還需要將其解釋成可理解的方式以呈現(xiàn)給用戶。
第三十一頁,共42頁。知識(shí)運(yùn)用發(fā)現(xiàn)知識(shí)是為了運(yùn)用,如何使知識(shí)能被運(yùn)用也是KDD的步驟之一。運(yùn)用知識(shí)有兩種方法:一種是只需看知識(shí)本身所描述的關(guān)系或結(jié)果,就可以對(duì)決策提供支持;一種是要求對(duì)新的數(shù)據(jù)運(yùn)用知識(shí),由此可能產(chǎn)生新的問題,而需要對(duì)知識(shí)做進(jìn)一步的優(yōu)化。KDD過程可能需要多次的循環(huán)反復(fù),每一個(gè)步驟一旦與預(yù)期目標(biāo)不符,都要回到前面的步驟,重新調(diào)整,重新執(zhí)行。第三十二頁,共42頁。實(shí)現(xiàn)流程數(shù)據(jù)挖掘過程的分步實(shí)現(xiàn),不同的步驟需要不同的專業(yè)人員參與完成,大體分為三類:1)業(yè)務(wù)分析人員:要求精通業(yè)務(wù),能夠解釋業(yè)務(wù)對(duì)象,并根據(jù)各業(yè)務(wù)對(duì)象確定出用于數(shù)據(jù)定義和挖掘算法的業(yè)務(wù)需求。2)數(shù)據(jù)分析人員:精通數(shù)據(jù)分析技術(shù),并對(duì)統(tǒng)計(jì)學(xué)有較熟練的掌握,有能力把業(yè)務(wù)需求轉(zhuǎn)化為數(shù)據(jù)挖掘的各步操作,并為每步操作選擇合適的技術(shù)。3)數(shù)據(jù)管理人員:精通數(shù)據(jù)管理技術(shù),并從數(shù)據(jù)庫或數(shù)據(jù)倉庫中收集數(shù)據(jù)。數(shù)據(jù)挖掘是一個(gè)多領(lǐng)域?qū)<液献鞯倪^程,也是一個(gè)在資金上和技術(shù)上高投入的過程。數(shù)據(jù)挖掘過程要反復(fù)進(jìn)行,在反復(fù)過程中,不斷地趨近事物的本質(zhì),不斷地優(yōu)先問題的解決方案。第三十三頁,共42頁。數(shù)據(jù)挖掘的應(yīng)用數(shù)據(jù)挖掘技術(shù)的產(chǎn)生本身就有其強(qiáng)烈的應(yīng)用需求背景,它從一開始就是面向應(yīng)用的。數(shù)據(jù)挖掘技術(shù)在市場(chǎng)分析、業(yè)務(wù)管理、決策支持等方面有廣泛的應(yīng)用,是實(shí)現(xiàn)CRM和BI的重要技術(shù)手段之一。具體涉及數(shù)據(jù)挖掘的商業(yè)問題:數(shù)據(jù)庫營銷(DatabaseMarketing)客戶群體劃分(CustomerSegmentation&Classification)背景分析(ProfileAnalysis)交叉銷售(Cross-selling)客戶流失分析(ChurnAnalysis)客戶信用評(píng)分(CreditScoring)欺詐甄別(FraudDetection)第三十四頁,共42頁。未來趨勢(shì)未來的熱點(diǎn)應(yīng)用領(lǐng)域
網(wǎng)站的數(shù)據(jù)挖掘(Websitedatamining)生物信息或基因的數(shù)據(jù)挖掘文本挖掘(Textualmining)多媒體挖掘第三十五頁,共42頁。網(wǎng)站的數(shù)據(jù)挖掘(Websitedatamining)電子商務(wù)網(wǎng)站每天都可能有上百萬次的在線交易,生成大量的記錄文件(Logfiles)和登記表,如何對(duì)這些數(shù)據(jù)進(jìn)行分析和挖掘,及時(shí)地了解客戶的喜好、購買模式,甚至是客戶一時(shí)的沖動(dòng),設(shè)計(jì)出滿足于不同客戶群體需要的個(gè)性化網(wǎng)站,進(jìn)而增加競(jìng)爭(zhēng)力。網(wǎng)站的數(shù)據(jù)格式有很大一部分來自于點(diǎn)擊流,和傳統(tǒng)的數(shù)據(jù)庫格式有區(qū)別。因而對(duì)電子商務(wù)網(wǎng)站進(jìn)行數(shù)據(jù)挖掘所做的主要工作是數(shù)據(jù)準(zhǔn)備第三十六頁,共42頁。生物信息或基因的挖掘生物信息或基因數(shù)據(jù)挖掘則完全屬于另外一個(gè)領(lǐng)域,在商業(yè)上很難講有多大的價(jià)值,但對(duì)于人類卻受益非淺。例如,基因的組合千變?nèi)f化,得某種病的人的基因和正常人的基因到底差別多大?能否找出其中不同的地方,進(jìn)而對(duì)其不同之處加以改變,使之成為正常基因?這都需要數(shù)據(jù)挖掘技術(shù)的支持。對(duì)于生物信息或基因的數(shù)據(jù)挖掘和通常的數(shù)據(jù)挖掘相比,無論在數(shù)據(jù)的復(fù)雜程度、數(shù)據(jù)量還有分析和建立模型的算法方面,都要復(fù)雜得多。從分析算法上講,更需要一些新的和高效的算法?,F(xiàn)在很多廠商正在致力于這方面的研究。但就技術(shù)和軟件而言,還遠(yuǎn)沒有達(dá)到成熟的地步。
第三十七頁,共42頁。文本挖掘(Textualmining)文本挖掘是人們關(guān)心的另一個(gè)話題。例如,在客戶服務(wù)中心,把同客戶的談話轉(zhuǎn)化為文本數(shù)據(jù),再對(duì)這些數(shù)據(jù)進(jìn)行挖掘,進(jìn)而了解客戶對(duì)服務(wù)的滿意程度和客戶的需求以及客戶之間的相互關(guān)系等信息。無論是在數(shù)據(jù)結(jié)構(gòu)還是在分析處理方法方面,文本數(shù)據(jù)挖掘和數(shù)據(jù)挖掘相差很大。文本挖掘并不是一件容易的事情,尤其是在分析方法方面,還有很多需要研究的專題。目前市場(chǎng)上有一些類似的軟件,但大部分方法只是把文本移來移去,或簡(jiǎn)單地計(jì)算一下某些詞匯的出現(xiàn)頻率,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 始興縣中醫(yī)院特殊用房設(shè)施設(shè)備采購及安裝及醫(yī)療設(shè)備采購項(xiàng)目招標(biāo)文件
- 庫房轉(zhuǎn)租合同
- 焊接結(jié)構(gòu)分析與優(yōu)化作業(yè)指導(dǎo)書
- 肉類食品購銷合同
- 離婚協(xié)議書無共同財(cái)產(chǎn)有孩子
- 個(gè)人裝修木工勞務(wù)合同
- 學(xué)校承包協(xié)議書
- 雙方合作開發(fā)房地產(chǎn)合同書
- 正規(guī)魚塘承包合同
- 2025年福州貨運(yùn)從業(yè)資格證模擬考試系統(tǒng)下載
- 社區(qū)獲得性肺炎的護(hù)理查房
- 2023年衛(wèi)生院崗位大練兵大比武競(jìng)賽活動(dòng)實(shí)施方案
- 2023年浙江省初中學(xué)生化學(xué)競(jìng)賽初賽試卷
- 體育賽事策劃與管理第八章體育賽事的利益相關(guān)者管理課件
- 遼海版小學(xué)五年級(jí)美術(shù)下冊(cè)全套課件
- 專題7閱讀理解之文化藝術(shù)類-備戰(zhàn)205高考英語6年真題分項(xiàng)版精解精析原卷
- 《生物資源評(píng)估》剩余產(chǎn)量模型
- 2022年廣東省10月自考藝術(shù)概論00504試題及答案
- 隧道二襯承包合同參考
- 物理專業(yè)常用英語詞匯
- 空氣能熱泵系統(tǒng)
評(píng)論
0/150
提交評(píng)論