版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
引言
數(shù)據(jù)是知識的源泉。但是,擁有大量的數(shù)據(jù)與擁有許多有用的知識完全是兩回事。過去幾年中,從數(shù)據(jù)庫中發(fā)現(xiàn)知識這一領(lǐng)域開展的很快。寬廣的市場和研討利益促使這一領(lǐng)域的飛速開展。計算機技術(shù)和數(shù)據(jù)搜集技術(shù)的提高使人們可以從更加廣泛的范圍和幾年前不可想象的速度搜集和存儲信息。搜集數(shù)據(jù)是為了得到信息,然而大量的數(shù)據(jù)本身并不意味信息。雖然現(xiàn)代的數(shù)據(jù)庫技術(shù)使我們很容易存儲大量的數(shù)據(jù)流,但如今還沒有一種成熟的技術(shù)協(xié)助我們分析、了解并使數(shù)據(jù)以可了解的信息表示出來。在過去,我們常用的知識獲取方法是由知識工程師把專家閱歷知識經(jīng)過分析、挑選、比較、綜合、再提取出知識和規(guī)那么。然而,由于知識工程師所擁有知識的有局限性,所以對于獲得知識的可信度就應(yīng)該打個折扣。目前,傳統(tǒng)的知識獲取技術(shù)面對巨型數(shù)據(jù)倉庫無能為力,數(shù)據(jù)發(fā)掘技術(shù)就應(yīng)運而生。數(shù)據(jù)的迅速添加與數(shù)據(jù)分析方法的滯后之間的矛盾越來越突出,人們希望在對已有的大量數(shù)據(jù)分析的根底上進展科學(xué)研討、商業(yè)決策或者企業(yè)管理,但是目前所擁有的數(shù)據(jù)分析工具很難對數(shù)據(jù)進展深層次的處置,使得人們只能望“數(shù)〞興嘆。數(shù)據(jù)發(fā)掘正是為理處理傳統(tǒng)分析方法的缺乏,并針對大規(guī)模數(shù)據(jù)的分析處置而出現(xiàn)的。數(shù)據(jù)發(fā)掘經(jīng)過在大量數(shù)據(jù)的根底上對各種學(xué)習(xí)算法的訓(xùn)練,得到數(shù)據(jù)對象間的關(guān)系方式,這些方式反映了數(shù)據(jù)的內(nèi)在特性,是對數(shù)據(jù)包含信息的更高層次的籠統(tǒng)[1]。目前,在需求處置大數(shù)據(jù)量的科研領(lǐng)域中,數(shù)據(jù)發(fā)掘遭到越來越多的關(guān)注,同時,在實踐問題中,大量勝利運用數(shù)據(jù)發(fā)掘的實例闡明了數(shù)據(jù)發(fā)掘?qū)茖W(xué)研討具有很大的促進作用。數(shù)據(jù)發(fā)掘可以協(xié)助人們對大規(guī)模數(shù)據(jù)進展高效的分析處置,以節(jié)約時間,將更多的精神投入到更高層的研討中,從而提高科研任務(wù)的效率。目錄一、數(shù)據(jù)倉庫概念及特征二、數(shù)據(jù)倉庫系統(tǒng)三、數(shù)據(jù)發(fā)掘的概念及其技術(shù)過程四、數(shù)據(jù)倉庫與數(shù)據(jù)發(fā)掘的關(guān)系:五、結(jié)論但是在運用數(shù)據(jù)發(fā)掘成果時,決策人員所關(guān)懷的是數(shù)據(jù)發(fā)掘最終結(jié)果與用其他候選結(jié)果在實踐運用中的差距。(4)關(guān)聯(lián)規(guī)那么是指事物之間的聯(lián)絡(luò)具有多大的支持度和可信度。雖然現(xiàn)代的數(shù)據(jù)庫技術(shù)使我們很容易存儲大量的數(shù)據(jù)流,但如今還沒有一種成熟的技術(shù)協(xié)助我們分析、了解并使數(shù)據(jù)以可了解的信息表示出來。2數(shù)據(jù)發(fā)掘技術(shù)主要有四種開采義務(wù):因此,在實踐決策運用中,通常只選擇那些獲選邊沿率超越一定百分比的數(shù)據(jù)行進展預(yù)測運用。其中最重要的一個步驟是數(shù)據(jù)發(fā)掘,它是利用某些特定的知識發(fā)現(xiàn)算法,在可接受的運算效率的限制下,從有效數(shù)據(jù)中發(fā)現(xiàn)有關(guān)的知識。假設(shè)結(jié)果是根據(jù)某種類型的得分或權(quán)值計算的,那就可以按照獲選邊沿率(最終結(jié)果得分-候選結(jié)果得分)/最終預(yù)測結(jié)果得分×lOO%的公式進展決斷。主要包括以下幾步:預(yù)備、數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處置、數(shù)據(jù)縮減、確定數(shù)據(jù)發(fā)掘的目的、確定知識發(fā)現(xiàn)算法、數(shù)據(jù)發(fā)掘(DataMining)、方式解釋、知識評價,如下圖。與其他數(shù)據(jù)庫運用不同的是,數(shù)據(jù)倉庫更像一種過程,即對分布在企業(yè)內(nèi)部各處的業(yè)務(wù)數(shù)據(jù)的整合、加工和分析的過程,而不是一種可以購買的產(chǎn)品。但是,擁有大量的數(shù)據(jù)與擁有許多有用的知識完全是兩回事。主題是一個籠統(tǒng)的概念,是指用戶運用數(shù)據(jù)倉庫進展決策時所關(guān)懷的重點方面,一個主題通常與多個操作型信息系統(tǒng)相關(guān)。也只需經(jīng)過對發(fā)掘知識的運用,才干對數(shù)據(jù)發(fā)掘的成果做出正確的評價。主要包括以下幾步:預(yù)備、數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處置、數(shù)據(jù)縮減、確定數(shù)據(jù)發(fā)掘的目的、確定知識發(fā)現(xiàn)算法、數(shù)據(jù)發(fā)掘(DataMining)、方式解釋、知識評價,如下圖。三、數(shù)據(jù)發(fā)掘的概念及其技術(shù)過程(3)聚類是把一組個體按照類似性歸成假設(shè)干類別,它的目的是使得屬于同一類別的個體之間的間隔盡能夠的小,而不同類別的個體間的間隔盡能夠的大。數(shù)據(jù)倉庫就是面向主題的、集成的、不可更改的、隨時間不斷變化的數(shù)據(jù)集合。
數(shù)據(jù)倉庫概念及特征
1、數(shù)據(jù)倉庫概念。數(shù)據(jù)倉庫就是面向主題的、集成的、不可更新的(穩(wěn)定的)、隨時間不斷變化的數(shù)據(jù)集合。與其他數(shù)據(jù)庫運用不同的是,數(shù)據(jù)倉庫更像一種過程,即對分布在企業(yè)內(nèi)部各處的業(yè)務(wù)數(shù)據(jù)的整合、加工和分析的過程,而不是一種可以購買的產(chǎn)品。2、數(shù)據(jù)倉庫的特征:①面向主題。數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進展組織。主題是一個籠統(tǒng)的概念,是指用戶運用數(shù)據(jù)倉庫進展決策時所關(guān)懷的重點方面,一個主題通常與多個操作型信息系統(tǒng)相關(guān)。②集成的。數(shù)據(jù)倉庫中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫數(shù)據(jù)抽取、清理的根底上,經(jīng)過系統(tǒng)加工、匯總和整理得到的,必需消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個企業(yè)的一致的全局信息。③相對穩(wěn)定的。數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個數(shù)據(jù)進入數(shù)據(jù)倉庫以后,普通情況下將被長期保管,也就是數(shù)據(jù)倉庫中普通有大量的查詢操作,但修正和刪除操作很少,通常只需求定期的加載、刷新。④反映歷史變化。數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時點到目前各個階段的信息,經(jīng)過這些信息,可以對企業(yè)的開展歷程和未來趨勢做出定量分析和預(yù)測。主要包括以下幾步:預(yù)備、數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處置、數(shù)據(jù)縮減、確定數(shù)據(jù)發(fā)掘的目的、確定知識發(fā)現(xiàn)算法、數(shù)據(jù)發(fā)掘(DataMining)、方式解釋、知識評價,如下圖。他們從不同側(cè)面完成對決策過程的支持,相互間有一定的內(nèi)在聯(lián)絡(luò)。一、數(shù)據(jù)倉庫概念及特征搜集數(shù)據(jù)是為了得到信息,然而大量的數(shù)據(jù)本身并不意味信息。為將數(shù)據(jù)發(fā)掘結(jié)果能在實踐中得到運用,需求將分析所得到的知識集成到業(yè)務(wù)信息系統(tǒng)的組織機構(gòu)中去,使這些知識在實踐的管理決策分析中得到運用。主題是一個籠統(tǒng)的概念,是指用戶運用數(shù)據(jù)倉庫進展決策時所關(guān)懷的重點方面,一個主題通常與多個操作型信息系統(tǒng)相關(guān)。實現(xiàn)對企業(yè)操作數(shù)據(jù)的抽取、轉(zhuǎn)換、清洗和匯總,構(gòu)成信息數(shù)據(jù),并存儲在企業(yè)級的中心信息數(shù)據(jù)庫中。計算機技術(shù)和數(shù)據(jù)搜集技術(shù)的提高使人們可以從更加廣泛的范圍和幾年前不可想象的速度搜集和存儲信息。四、數(shù)據(jù)倉庫與數(shù)據(jù)發(fā)掘的關(guān)系:從選取專業(yè)學(xué)習(xí)、研討方向的實踐出發(fā),提出了將數(shù)據(jù)發(fā)掘運用于輔助選取專業(yè)學(xué)習(xí)、研討方向的數(shù)據(jù)發(fā)掘技術(shù)流程模型。數(shù)據(jù)發(fā)掘正是為理處理傳統(tǒng)分析方法的缺乏,并針對大規(guī)模數(shù)據(jù)的分析處置而出現(xiàn)的。目前,傳統(tǒng)的知識獲取技術(shù)面對巨型數(shù)據(jù)倉庫無能為力,數(shù)據(jù)發(fā)掘技術(shù)就應(yīng)運而生。數(shù)據(jù)倉庫中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫數(shù)據(jù)抽取、清理的根底上,經(jīng)過系統(tǒng)加工、匯總和整理得到的,必需消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個企業(yè)的一致的全局信息。二、數(shù)據(jù)倉庫系統(tǒng)
數(shù)據(jù)倉庫系統(tǒng)是指具有綜合企業(yè)數(shù)據(jù)的才干,可以對大量企業(yè)數(shù)據(jù)進展快速和準(zhǔn)確分析,輔助做出更好的商業(yè)決策的系統(tǒng)。見圖二。它本身包括三部分內(nèi)容:
⑴數(shù)據(jù)層。實現(xiàn)對企業(yè)操作數(shù)據(jù)的抽取、轉(zhuǎn)換、清洗和匯總,構(gòu)成信息數(shù)據(jù),并存儲在企業(yè)級的中心信息數(shù)據(jù)庫中。
⑵運用層。經(jīng)過聯(lián)機分析處置,甚至是數(shù)據(jù)發(fā)掘等運用途置,實現(xiàn)對信息數(shù)據(jù)的分析。
⑶表現(xiàn)層。經(jīng)過前臺分析工具,將查詢報表、統(tǒng)計分析、多維聯(lián)機分析和數(shù)據(jù)開掘的結(jié)論展如今用戶面前。
三、數(shù)據(jù)發(fā)掘的概念及其技術(shù)過程
數(shù)據(jù)發(fā)掘,又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn),是指從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取隱含的、未知的、非平凡的及有潛在運用價值的信息或方式,它是數(shù)據(jù)庫研討中的一個很有運用價值的新領(lǐng)域,交融了數(shù)據(jù)庫、人工智能、機器學(xué)習(xí)、統(tǒng)計學(xué)等多個領(lǐng)域的實際和技術(shù)。隨著人工智能技術(shù)在專家咨詢、言語處置、文娛游戲等方式識別領(lǐng)域的運用日益廣泛。從選取專業(yè)學(xué)習(xí)、研討方向的實踐出發(fā),提出了將數(shù)據(jù)發(fā)掘運用于輔助選取專業(yè)學(xué)習(xí)、研討方向的數(shù)據(jù)發(fā)掘技術(shù)流程模型。1數(shù)據(jù)發(fā)掘技術(shù)的過程數(shù)據(jù)發(fā)掘技術(shù)是一個多步驟、能夠需多次反復(fù)的處置過程。主要包括以下幾步:預(yù)備、數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處置、數(shù)據(jù)縮減、確定數(shù)據(jù)發(fā)掘的目的、確定知識發(fā)現(xiàn)算法、數(shù)據(jù)發(fā)掘(DataMining)、方式解釋、知識評價,如下圖。其中最重要的一個步驟是數(shù)據(jù)發(fā)掘,它是利用某些特定的知識發(fā)現(xiàn)算法,在可接受的運算效率的限制下,從有效數(shù)據(jù)中發(fā)現(xiàn)有關(guān)的知識。2數(shù)據(jù)發(fā)掘技術(shù)主要有四種開采義務(wù):(1)數(shù)據(jù)總結(jié)是對數(shù)據(jù)進展?jié)饪s,給出它的緊湊描畫。數(shù)據(jù)發(fā)掘是從數(shù)據(jù)泛化的角度來討論數(shù)據(jù)總結(jié)。(2)分類發(fā)現(xiàn)這是一項非常重要的義務(wù),分類是運用分類器把數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定類別中的某一個,用于對未來數(shù)據(jù)進展預(yù)測。(3)聚類是把一組個體按照類似性歸成假設(shè)干類別,它的目的是使得屬于同一類別的個體之間的間隔盡能夠的小,而不同類別的個體間的間隔盡能夠的大。(4)關(guān)聯(lián)規(guī)那么是指事物之間的聯(lián)絡(luò)具有多大的支持度和可信度。有意義的關(guān)聯(lián)規(guī)那么必需給定兩個閾值:最小支持度和最小可信度。3數(shù)據(jù)發(fā)掘在實踐生活中的運用。數(shù)據(jù)挖據(jù)的結(jié)果經(jīng)過業(yè)務(wù)決策人員的認(rèn)可,才干實踐利用。要將經(jīng)過數(shù)據(jù)發(fā)掘得出的預(yù)測方式和各個領(lǐng)域的專家認(rèn)識結(jié)合在一同,構(gòu)成一個可供不同類型的人運用的運用程序。也只需經(jīng)過對發(fā)掘知識的運用,才干對數(shù)據(jù)發(fā)掘的成果做出正確的評價。但是在運用數(shù)據(jù)發(fā)掘成果時,決策人員所關(guān)懷的是數(shù)據(jù)發(fā)掘最終結(jié)果與用其他候選結(jié)果在實踐運用中的差距。假設(shè)結(jié)果是根據(jù)某種類型的得分或權(quán)值計算的,那就可以按照獲選邊沿率(最終結(jié)果得分-候選結(jié)果得分)/最終預(yù)測結(jié)果得分×lOO%的公式進展決斷。普通情況下,獲選邊沿率的值越高,那么預(yù)測結(jié)果為真的能夠性越大。因此,在實踐決策運用中,通常只選擇那些獲選邊沿率超越一定百分比的數(shù)據(jù)行進展預(yù)測運用。為將數(shù)據(jù)發(fā)掘結(jié)果能在實踐中得到運用,需求將分析所得到的知識集成到業(yè)務(wù)信息系統(tǒng)的組織機構(gòu)中去,使這些知識在實踐的管理決策分析中得到運用。四、數(shù)據(jù)倉庫與數(shù)據(jù)發(fā)掘的關(guān)系:
數(shù)據(jù)倉庫就是面向主題的、集成的、不可更改的、隨時間不斷變化的數(shù)據(jù)集合。數(shù)據(jù)發(fā)掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實踐運用數(shù)據(jù)中提取隱含其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數(shù)據(jù)倉庫并不是數(shù)據(jù)發(fā)掘的先決條件,由于有很多數(shù)據(jù)發(fā)掘可直接從操作數(shù)據(jù)源中發(fā)掘出信息。數(shù)據(jù)倉庫的建立并不是要替代數(shù)據(jù)庫,它是建立在一個比較全面和完善的信息運用根底之上的,用于支持高層決策的分析。而數(shù)據(jù)發(fā)掘是為尋覓未知的方式或趨勢在數(shù)據(jù)倉庫的細節(jié)數(shù)據(jù)中進展搜索的過程。它并不是讓查詢言語去找某些特定的現(xiàn)實,而是查看一切的現(xiàn)實,尋覓具有某種含義深長的方式或關(guān)系來進展決策。結(jié)論
數(shù)據(jù)倉庫和數(shù)據(jù)發(fā)掘是作為兩種獨立的信息技術(shù)出現(xiàn)的。數(shù)據(jù)倉庫是不同于數(shù)據(jù)庫的數(shù)據(jù)組織和存儲技術(shù),它從數(shù)據(jù)庫技術(shù)開展而來并為決策效力,經(jīng)過OLAP工
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 債務(wù)提成合同范例
- 2025年四川貨運從業(yè)資格證模擬考試系統(tǒng)下載
- 2025年長春貨運叢業(yè)資格證考試題及答案
- 產(chǎn)品售后合同范例
- 就業(yè)安置培訓(xùn)合同范例
- 2025年甘肅貨運考試題目
- 樁基招標(biāo)合同范例
- 批量牛奶采購合同范例
- 小程序產(chǎn)品合同范例
- 天府新區(qū)航空旅游職業(yè)學(xué)院《電子商務(wù)網(wǎng)絡(luò)數(shù)據(jù)庫》2023-2024學(xué)年第一學(xué)期期末試卷
- 小學(xué)體育足球課教育課件
- 2024年度餐飲店合伙人退出機制與財產(chǎn)分割協(xié)議2篇
- 《招商銀行轉(zhuǎn)型》課件
- 靈新煤礦職業(yè)病危害告知制度范文(2篇)
- 2024年護校隊安全工作制度(3篇)
- 安全生產(chǎn)知識負責(zé)人復(fù)習(xí)題庫(附參考答案)
- 2024年安徽省廣播電視行業(yè)職業(yè)技能大賽(有線廣播電視機線員)考試題庫(含答案)
- 山東省濟南市濟陽區(qū)三校聯(lián)考2024-2025學(xué)年八年級上學(xué)期12月月考語文試題
- 糖尿病酮酸癥中毒
- Unit 6 Food Lesson 1(說課稿)-2024-2025學(xué)年人教精通版(2024)英語三年級上冊
- 東北師大附屬中學(xué)2025屆高一物理第一學(xué)期期末質(zhì)量檢測試題含解析
評論
0/150
提交評論