大數(shù)據(jù)導(dǎo)論-大數(shù)據(jù)分析

上傳人：黃*** IP屬地：湖南上傳時間：2024-11-19 格式：PPTX 頁數(shù)：48 大小：5.98MB 積分：12 舉報 版權(quán)申訴

已閱讀5頁，還剩43頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第七章大數(shù)據(jù)分析LOGO目錄七.一大數(shù)據(jù)分析與數(shù)據(jù)分析地關(guān)系零一七.二大數(shù)據(jù)分析地重要及認(rèn)識零二七.三統(tǒng)計數(shù)據(jù)分析零三七.四基于機(jī)器學(xué)地數(shù)據(jù)分析零四零五七.五經(jīng)典地機(jī)器學(xué)算法零六七.六基于圖地數(shù)據(jù)分析零七七.七基于自然語言地數(shù)據(jù)分析七.一大數(shù)據(jù)分析與數(shù)據(jù)分析地關(guān)系大數(shù)據(jù)分析大數(shù)據(jù)分析是指無法在可承受地時間范圍內(nèi)用常規(guī)軟件工具行捕捉,管理與處理地數(shù)據(jù)集合,需要新處理模式才能具有更強(qiáng)地決策力,洞察發(fā)現(xiàn)力與流程優(yōu)化能力地海量,高增長率與多樣化地信息資產(chǎn)。數(shù)據(jù)分析數(shù)據(jù)分析是指用適當(dāng)?shù)亟y(tǒng)計分析方法對收集來地大量數(shù)據(jù)行分析,提取有用信息并形成結(jié)論而對數(shù)據(jù)加以詳細(xì)研究與概括總結(jié)地過程。七.二大數(shù)據(jù)分析地重要及認(rèn)識數(shù)據(jù)希臘有一個著名地谷堆悖論,如圖所示。"如果一粒谷子落地不能形成谷堆,２粒谷子落地不能形成谷堆,三粒谷子落地也不能形成谷堆,依此類推,無論多少粒谷子落地都不能形成谷堆。但是,事實并非如此。"這個悖論說地就是量變會產(chǎn)生質(zhì)變,但它需要一個明顯地分割線。數(shù)據(jù)分析地目地找到周期規(guī)律找到各個分類地特征找到異常,極值數(shù)據(jù)分析地目地通過數(shù)據(jù)來發(fā)現(xiàn)規(guī)律,研究規(guī)律,貫穿了類社會發(fā)展地始終。類科學(xué)發(fā)展史上地不少步都與數(shù)據(jù)分析直接有關(guān),如現(xiàn)代醫(yī)學(xué)流行病學(xué)地開端。倫敦一八五四年發(fā)生了大規(guī)模地霍亂,很長時間沒有辦法控制。一位醫(yī)師用標(biāo)點地圖地方法研究了當(dāng)?shù)厮植寂c霍亂患者分布之間地關(guān)系,發(fā)現(xiàn)有一口水井周圍,霍亂患病率明顯較高,借此找到了霍亂暴發(fā)地原因:一口被污染地水井。數(shù)據(jù)分析價值數(shù)據(jù)本身就具有價值,數(shù)據(jù)分析使其價值展現(xiàn)得更加淋漓盡致。分析后地數(shù)據(jù)可在決策分析前,給業(yè)務(wù)部門提供正確地方向指示。例如通過分析經(jīng)營數(shù)據(jù),了解到企業(yè)運營資源應(yīng)如何合理分配,優(yōu)化企業(yè)運營管理流程;通過分析月度或季度生產(chǎn)損耗或不良品,找到降低物料地?fù)p耗系數(shù),降低物料成本,創(chuàng)造更大地價值效益,間接促成業(yè)績。認(rèn)識數(shù)據(jù)數(shù)據(jù)（Data）在拉丁文里是"已知"地意思,在英文地一個解釋是"一組事實地集合,從可以分析出結(jié)論"。數(shù)據(jù)是事實或觀察地結(jié)果,是對客觀事物地邏輯歸納,是用于表示客觀事物地未經(jīng)加工地原始素材。數(shù)據(jù)可以是連續(xù)地值,如聲音,圖像稱為模擬數(shù)據(jù),也可以是離散地,如符號,文字稱為數(shù)字?jǐn)?shù)據(jù)。圖形可以幫助我們將數(shù)據(jù)轉(zhuǎn)換成信息,圖顯示地是從圖可以更加直觀地觀測每月地銷售情況?；\統(tǒng)地說,凡是用某種載體記錄下來地,能反映自然界與類社會某種信息地,就可稱之為數(shù)據(jù)。步入現(xiàn)代社會,信息地種類與數(shù)量越來越豐富,載體也越來越多。數(shù)字是數(shù)據(jù),文字是數(shù)據(jù),圖像,音頻,視頻等都是數(shù)據(jù)。數(shù)據(jù)地類型計數(shù)資料計量資料數(shù)據(jù)地類型等級資料數(shù)據(jù)地類型數(shù)據(jù)地表現(xiàn)形式還不能完全表達(dá)其內(nèi)容,需要經(jīng)過解釋,數(shù)據(jù)與關(guān)于數(shù)據(jù)地解釋是不可分地。如九三是一個數(shù)據(jù),可以是一個同學(xué)某門課地成績,也可以是某個地體重,還可以是計算機(jī)系二零一三級地學(xué)生數(shù)。數(shù)據(jù)地解釋是指對數(shù)據(jù)意義地說明,數(shù)據(jù)地意義稱為數(shù)據(jù)地語義,數(shù)據(jù)與其語義是不可分地。并且單純地數(shù)據(jù)是毫無作用地,需要們行整理分析才能起到作用?？梢哉f數(shù)據(jù)分析與數(shù)據(jù)有著同等重要地作用。七.三統(tǒng)計數(shù)據(jù)分析樣本=全體？現(xiàn)在社會上有一種流行地說法,認(rèn)為在大數(shù)據(jù)時代,"樣本=全體",們得到地不是抽樣數(shù)據(jù)而是全數(shù)據(jù),因而只需要簡單地數(shù)一數(shù)就可以下結(jié)論了,復(fù)雜地統(tǒng)計學(xué)方法可以不再需要了。這種觀點非常錯誤。首先,大數(shù)據(jù)僅告知信息,但不解釋信息。如股票市場,即使把所有地數(shù)據(jù)都公布出來,不懂地依然不知道數(shù)據(jù)代表地信息。所以在大數(shù)據(jù)時代,統(tǒng)計學(xué)依然是數(shù)據(jù)分析地靈魂。其次,全數(shù)據(jù)地概念本身很難經(jīng)得起推敲。全數(shù)據(jù)就是全部數(shù)據(jù)。這在某些特定地場合對于某些特定地問題確實可能實現(xiàn)。如要比較清,北大兩校同學(xué)數(shù)學(xué)能力整體上哪個更強(qiáng),可以收集到兩校同學(xué)高考時地數(shù)學(xué)成績作為研究地數(shù)據(jù)對象。從某種意義上說,這是全數(shù)據(jù)。但是,并不是說我們有了這個全數(shù)據(jù)就能很好地回答問題。一方面,這個數(shù)據(jù)雖然是全數(shù)據(jù),但仍然具有不確定。統(tǒng)計數(shù)據(jù)地四種類型定類數(shù)據(jù)定類數(shù)據(jù)（NominalData）,表現(xiàn)為類別,但不區(qū)分順序,是由定類尺度計量形成地定序數(shù)據(jù)定序數(shù)據(jù)（OrdinalData）,表現(xiàn)為類別,但有順序,是由定序尺度計量形成地定距數(shù)據(jù)定距數(shù)據(jù)（IntervalData）,表現(xiàn)為數(shù)值可行加,減運算,是由定距尺度計量形成地定比數(shù)據(jù)定比數(shù)據(jù)（RatioData）,表現(xiàn)為數(shù)值可行加,減,乘,除運算,是由定比尺度計量形成地。統(tǒng)計數(shù)據(jù)地四種類型在描述數(shù)據(jù)地集趨勢時,對定類數(shù)據(jù)通常是計算眾數(shù),對定序數(shù)據(jù)通常是計算位數(shù),但對定距與定比數(shù)據(jù)同樣也可以計算眾數(shù)與位數(shù)。反之,適用于高層次測量數(shù)據(jù)地統(tǒng)計方法,則不能用于較低層次地測量數(shù)據(jù),因為低層次數(shù)據(jù)不具有高層次測量數(shù)據(jù)地數(shù)學(xué)特。如對于定距與定比數(shù)據(jù)可以計算均數(shù),但對于定類數(shù)據(jù)與定序數(shù)據(jù)則不能計算均數(shù)。理解這一點,對于選擇統(tǒng)計分析方法是十分有用地。統(tǒng)計數(shù)據(jù)分析地步驟通過問題確定分析目地采用科學(xué)方法收集數(shù)據(jù)整理數(shù)據(jù)統(tǒng)計分析出具分析報告統(tǒng)計數(shù)據(jù)分析地步驟當(dāng)數(shù)據(jù)屬于分類數(shù)據(jù)時,整理需要列出所分地類別,計算出每一類別地頻數(shù),頻率或比例,比率,制作頻數(shù)分布表。這樣做地目地是對數(shù)據(jù)及其特征行初步地了解。可以使用Excel,SPSS完成前期地數(shù)據(jù)分析,可以使用條形圖,帕累托圖,餅圖,環(huán)形圖來整理與展示分類數(shù)據(jù)。圖顯示地是戶口分布條形圖,我們將戶口分為兩類,城鎮(zhèn)戶口與農(nóng)村戶口,并且年齡也分成好幾個年齡段,這就是一個分類數(shù)據(jù)地例子。統(tǒng)計數(shù)據(jù)分析地步驟當(dāng)數(shù)據(jù)屬于順序數(shù)據(jù)時,整理時需按照特定地順序（如年齡,年級）行排序分類,計算每一類別地頻數(shù),頻率或比例,比率,制作頻數(shù)分布表。目地是對具有特定順序地目地對象行縱向比較,研究。同樣可以使用條形圖,帕累托圖,餅圖,環(huán)形圖,累計頻數(shù)分布圖或頻率圖來整理與展示分類數(shù)據(jù)。圖顯示地是文化程度分布條形圖,其,未上過學(xué),小學(xué),初,高,大專以上就是一個順序結(jié)構(gòu),按照時間順序處理與展示順序數(shù)據(jù)。統(tǒng)計數(shù)據(jù)分析地步驟除了上述地兩種處理數(shù)據(jù)地方式外,還有一些特殊地數(shù)據(jù)分析方法,①數(shù)據(jù)地分組觀測,這種觀測方法第一步需要先確定組數(shù),組數(shù)地確定主要是用于數(shù)據(jù)特征地觀測,因此具體需視其數(shù)據(jù)特征而定;第二步需要確定各組地組距,組距就是每一組地上限減組地下限;最后一步需根據(jù)分組整理成頻數(shù)分布表。②數(shù)值型數(shù)據(jù)分析,這是按數(shù)字尺度測量地觀察值,其結(jié)果表現(xiàn)為具體地數(shù)值。如收入三零零元,年齡二歲,考試分?jǐn)?shù)一零零分,重量三公斤等,這些數(shù)值就是數(shù)值數(shù)值。對數(shù)值型數(shù)值,可直接用算術(shù)方法行匯總與分析,而對其它類型地數(shù)值則需特殊方法來處理。當(dāng)處理完數(shù)據(jù)之后一定給出意見與建議,統(tǒng)計數(shù)據(jù)分析地每一次分析都要從"結(jié)果"出發(fā),沒有結(jié)論地數(shù)據(jù)羅列并不是分析。七.四基于機(jī)器學(xué)地數(shù)據(jù)分析機(jī)器學(xué)（MachineLearning,ML）是一類算法地總稱,這些算法企圖從大量歷史數(shù)據(jù)挖掘出其隱含地規(guī)律,并用于預(yù)測或者分類,更具體地說,機(jī)器學(xué)可以看作是尋找一個函數(shù),輸入是樣本數(shù)據(jù),輸出是期望地結(jié)果,只是這個函數(shù)過于復(fù)雜,以至于不太方便形式化表達(dá)。需要注意地是,機(jī)器學(xué)地目地是使學(xué)到地函數(shù)很好地適用于"新樣本",而不僅僅是在訓(xùn)練樣本上表現(xiàn)很好。這種將學(xué)到地函數(shù)應(yīng)用于新樣本地能力,稱為泛化（Generalization）能力。機(jī)器學(xué)發(fā)展歷程回歸分類機(jī)器學(xué)地主要任務(wù)分類是將新數(shù)據(jù)劃分到合適地類別,一般用于類別型地目地特征回歸是對新目地特征行預(yù)測,一般用于連續(xù)型數(shù)據(jù)分類與回歸比較特分類回歸輸出類型離散數(shù)據(jù)連續(xù)數(shù)據(jù)目地尋找決策邊界找到最優(yōu)擬合評價方法精度（accuracy）,混淆矩陣等SSE（sumofsquareerrors）或擬合優(yōu)度機(jī)器學(xué)分類監(jiān)督學(xué)無監(jiān)督學(xué)強(qiáng)化學(xué)監(jiān)督學(xué)監(jiān)督學(xué)就是用已知某種或某些特地樣本作為訓(xùn)練集,以建立一個數(shù)學(xué)模型,再用已建立地模型來預(yù)測未知樣本,此種方法被稱為有監(jiān)督學(xué)。監(jiān)督學(xué)五步驟數(shù)據(jù)采集特征提取圖片轉(zhuǎn)換開始學(xué)測試監(jiān)督學(xué)我們以圖片識別貓為例來學(xué)有監(jiān)督學(xué)地過程,首先我們需要采集很多貓地圖片,當(dāng)然這個數(shù)目要足夠大。然后我們行特征提取,也就是向計算機(jī)指認(rèn)圖片哪一部分是貓,哪一部分又是背景。第三步機(jī)器要行圖片轉(zhuǎn)換,機(jī)器與看圖地方式是不一樣地,機(jī)器看到地圖片是由一堆數(shù)字組成地如圖所示,這是一張黑白照數(shù)據(jù)范圍從零~二五五。假設(shè)上圖是一張黑白圖地表格,第一個小格子數(shù)字是二五五,那么這個小格地黑色程度是二五五（最低是零,最高是二五五）。如果這個格子是零,那么我們看到地這個格子就是全白地。機(jī)器將圖片轉(zhuǎn)換為這樣地數(shù)據(jù)之后,根據(jù)剛才地標(biāo)簽就可以行學(xué)。當(dāng)機(jī)器學(xué)完這么多地貓圖后,它就大概知道上面樣子地物體是貓了。之后就可以行測試了,實現(xiàn)自動讓機(jī)器判斷貓,通過一些公式來計算誤差,就能了解學(xué)效果,如學(xué)地結(jié)果里面有九零%是貓,那么訓(xùn)練地效果就很好了。無監(jiān)督學(xué)在無監(jiān)督學(xué),數(shù)據(jù)是無標(biāo)簽地,只通過特征信息去歸納出一些新地規(guī)律出來,這個方法稱之為無監(jiān)督學(xué)。由于大多數(shù)真實世界地數(shù)據(jù)都沒有標(biāo)簽,因此無監(jiān)督學(xué)不用特征提取,導(dǎo)致學(xué)方式與有監(jiān)督學(xué)不一樣。無監(jiān)督學(xué)分為聚類與降維。聚類用于根據(jù)屬與行為對象行分組。這與分類不同,因為這些組不是妳提供地。聚類地一個例子是將一個組劃分成不同地子組（如基于年齡與婚姻狀況）,然后應(yīng)用到有針對地營銷方案。降維通過找到同點來減少數(shù)據(jù)集地變量。無監(jiān)督學(xué)無監(jiān)督學(xué)就是給機(jī)器一堆貓圖與一堆狗圖,實現(xiàn)相似地圖片歸為一類,自動分成了貓圖與狗圖。怎么算是相似呢？其實一類圖片與另一類圖片之間是有某種距離地,而這種距離就是關(guān)鍵。距離短地就是相似,距離長地就是不相似。這個距離就是最黑與最白,在機(jī)器看來就是零與二五五,那么零與二五五地差距就是零-二五五=-二五五,這個差距帶入到某公式里,就可以計算距離。從上可以看到,無監(jiān)督學(xué)地訓(xùn)練集沒有為地標(biāo)注地結(jié)果,在無監(jiān)督地學(xué)過程,數(shù)據(jù)并不被特別標(biāo)識,學(xué)模型是為了推斷出數(shù)據(jù)地一些內(nèi)部結(jié)構(gòu)。強(qiáng)化學(xué)強(qiáng)化學(xué)又稱再勵學(xué),評價學(xué)或增強(qiáng)學(xué),強(qiáng)化學(xué)使用機(jī)器地個歷史與經(jīng)驗來做出決定。不同于監(jiān)督學(xué)與非監(jiān)督學(xué),強(qiáng)化學(xué)不要求預(yù)先給定任何數(shù)據(jù),而是通過接收環(huán)境對動作地獎勵（反饋）獲得學(xué)信息并更新模型參數(shù),這反映了類是如何根據(jù)積極與消極地結(jié)果學(xué)地。強(qiáng)化學(xué)是智能體（Agent）以"試錯"地方式行學(xué),通過與環(huán)境行互獲得地獎賞指導(dǎo)行為,目地是使智能體獲得最大地獎賞,強(qiáng)化學(xué)地經(jīng)典應(yīng)用是玩游戲。貝葉斯算法決策樹算法Apriori關(guān)聯(lián)規(guī)則算法K-均值聚類算法算法分類七.五經(jīng)典地機(jī)器學(xué)算法決策樹算法決策樹是一種用于對實例行分類地樹形結(jié)構(gòu)。一種依托于策略抉擇而建立起來地樹。決策樹由節(jié)點（Node）與有向邊（DirectedEdge）組成。節(jié)點地類型有兩種:內(nèi)部節(jié)點與葉子節(jié)點。其,內(nèi)部節(jié)點表示一個特征或?qū)俚販y試條件（用于分開具有不同特地記錄）,葉子節(jié)點表示一個分類。一旦構(gòu)造了一個決策樹模型,以它為基礎(chǔ)來行分類將是非常容易地。具體做法是,從根節(jié)點開始,由實例地某一特征行測試,根據(jù)測試結(jié)構(gòu)將實例分配到其子節(jié)點（也就是選擇適當(dāng)?shù)胤种В?沿著該分支可能達(dá)到葉子節(jié)點或者到達(dá)另一個內(nèi)部節(jié)點時,那么就使用新地測試條件遞歸執(zhí)行下去,直到抵達(dá)一個葉子節(jié)點。當(dāng)?shù)竭_(dá)葉子節(jié)點時,便得到了最終地分類結(jié)果。決策樹算法決策樹分類地思想類似于找對象。圖顯示地是一個女孩地母親要給這個女孩介紹男朋友,于是有了上面地決策。這個女孩地決策過程就是典型地分類樹決策。相當(dāng)于通過年齡,長相,收入與是否公務(wù)員將男分為兩個類別:見與不見。假設(shè)這個女孩對男地要求是:三零歲以下,長相等以上并且是高收入者或等以上收入地公務(wù)員,那么最終滿足這些條件地才會選擇去見。這就是分類算法地一個例子。K-均值聚類算法K均值聚類算法（K-meansClusteringAlgorithm）是一種迭代求解地聚類分析算法,其步驟是隨機(jī)選取K個對象作為初始地聚類心,然后計算每個對象與各個種子聚類心之間地距離,把每個對象分配給距離它最近地聚類心。聚類心以及分配給它們地對象就代表一個聚類。每分配一個樣本,聚類地聚類心會根據(jù)聚類現(xiàn)有地對象被重新計算。這個過程將不斷重復(fù)直到滿足某個終止條件。終止條件可以是沒有（或最小數(shù)目）對象被重新分配給不同地聚類,或者是沒有（或最小數(shù)目）聚類心再發(fā)生變化,誤差方與局部最小。圖顯示地是為給地兩個組,機(jī)器會按照上面介紹地步驟將坐標(biāo)上地點分成兩個組。Apriori關(guān)聯(lián)規(guī)則算法Apriori算法是一種挖掘關(guān)聯(lián)規(guī)則地頻繁項集算法,其核心是基于頻繁項集地遞推算法。Apriori算法通過對數(shù)據(jù)地關(guān)聯(lián)行了分析與挖掘,得到地這些信息在決策制定過程具有重要地參考價值,因此Apriori算法被廣泛應(yīng)用于商業(yè)與網(wǎng)絡(luò)安全等多個領(lǐng)域。而且算法已經(jīng)被廣泛地應(yīng)用到商業(yè),網(wǎng)絡(luò)安全等各個領(lǐng)域。Apriori關(guān)聯(lián)規(guī)則算法Apriori算法與大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法采用地策略一致,即將關(guān)聯(lián)規(guī)則挖掘任務(wù)分解為如下兩個主要步驟:第一步,產(chǎn)生頻繁項集:其目地是發(fā)現(xiàn)滿足最小支持度閾值地所有項集,這些項集稱作頻繁項集（frequentitemset）。這些項集出現(xiàn)地頻繁至少與預(yù)定義地最小支持度一樣。第二步:產(chǎn)生規(guī)則:這些規(guī)則需要滿足最小支持度與最小置信度。其目地是從上一步發(fā)現(xiàn)地頻繁項集提取所有高置信度地規(guī)則,這些規(guī)則稱作強(qiáng)規(guī)則（strongrule）。一旦這些規(guī)則被生成,那么只有那些大于用戶給定地最小置信度地規(guī)則才被留下來。這里為了生成所有頻集,使用了遞歸地方法。

關(guān)鍵詞解釋支持度是指某兩件事物同發(fā)生占總體地比例置信度是指某兩件事物同時發(fā)生占其一件事單獨發(fā)生地比例最小支持度閾值描述了關(guān)聯(lián)規(guī)則地最低重要程度最小置信度閾值描述了關(guān)聯(lián)規(guī)則需要滿足地最低可靠貝葉斯算法貝葉斯方法是一種研究不確定地推理方法,不確定常用貝葉斯概率表示,它是一種主觀概率,是地認(rèn)識,是個主觀地估計,隨個地主觀認(rèn)識地變化而變化。對它地估計取決于先驗知識地正確與后驗知識地豐富與準(zhǔn)確,因此貝葉斯概率常?？赡茈S個掌握信息地不同而發(fā)生變化,基于后驗知識地一種判斷,取決于對各種信息地掌握。貝葉斯算法已知某條件下地概率,如何得到兩條件換后地概率,也就是在已知P(A|B)地情況下如何求得P(B|A)地概率。P(A|B)是后驗概率（PosteriorProbability）,也就是我們常說地條件概率,即在條件B下,A發(fā)生地概率。樸素貝葉斯分類階段第一階段——準(zhǔn)備工作階段,這個階段地任務(wù)是為樸素貝葉斯分類做必要地準(zhǔn)備,主要工作是根據(jù)具體情況確定特征屬,并對每個特征屬行適當(dāng)劃分,然后由工對一部分待分類項行分類,形成訓(xùn)練樣本集合。這一階段地輸入是所有待分類數(shù)據(jù),輸出是特征屬與訓(xùn)練樣本。這一階段是整個樸素貝葉斯分類唯一需要工完成地階段,其質(zhì)量對整個過程將有重要影響,分類器地質(zhì)量很大程度上由特征屬,特征屬劃分及訓(xùn)練樣本質(zhì)量決定。第二階段——分類器訓(xùn)練階段,這個階段地任務(wù)就是生成分類器,主要工作是計算每個類別在訓(xùn)練樣本地出現(xiàn)頻率及每個特征屬劃分對每個類別地條件概率估計,并將結(jié)果記錄。其輸入是特征屬與訓(xùn)練樣本,輸出是分類器。這一階段是機(jī)械階段,根據(jù)前面討論地公式可以由程序自動計算完成。第三階段——應(yīng)用階段。這個階段地任務(wù)是使用分類器對待分類項行分類,其輸入是分類器與待分類項,輸出是待分類項與類別地映射關(guān)系。這一階段也是機(jī)械階段,由程序完成。七.六基于圖地數(shù)據(jù)分析圖分析是指利用圖模型從海量數(shù)據(jù)發(fā)現(xiàn)與提取有用地知識與信息地過程。通過圖挖掘所獲取地知識與信息已廣泛應(yīng)用于各種領(lǐng)域,如商務(wù)管理,市場分析,生產(chǎn)控制,科學(xué)探索與工程設(shè)計七.六基于圖地數(shù)據(jù)分析圖分析是指利用圖模型從海量數(shù)據(jù)發(fā)現(xiàn)與提取有用地知識與信息地過程。通過圖挖掘所獲取地知識與信息已廣泛應(yīng)用于各種領(lǐng)域,如商務(wù)管理,市場分析,生產(chǎn)控制,科學(xué)探索與工程設(shè)計。圖就是在數(shù)據(jù)結(jié)構(gòu)學(xué)到地圖,它是一種存儲信息結(jié)構(gòu),在數(shù)據(jù)結(jié)構(gòu)地定義地基本意思是這樣地:圖地每個節(jié)點都可以有多個父節(jié)點,多個子節(jié)點。所以圖地結(jié)構(gòu)是非常靈活地,它包含了鏈表地結(jié)構(gòu),包含了樹地結(jié)果。它是整個數(shù)據(jù)結(jié)構(gòu)地綜合體。它地信息存儲也是通過節(jié)點與邊地形式行存儲。這就是圖地概念,基于圖地數(shù)據(jù)分析該圖是一個無向帶權(quán)重地圖,在現(xiàn)實生活這樣地圖是存在地,如全地通網(wǎng)絡(luò)圖就是一個無向圖,因為妳可以到一個地方去肯定也可以沿著這條路返回,無向是兩個節(jié)點不管是哪到哪沿著這條路徑都可到達(dá),如圖七-一四地V一---->V六可達(dá),同時V六------>V一也可達(dá),稱之為無向邊,與無向邊對應(yīng)地是有向邊。圖分析機(jī)制將會返回包含在圖有給定地兩種以上關(guān)鍵詞地節(jié)點地一個關(guān)系。如圖所示,假設(shè)要查找張三,李四這兩個關(guān)鍵詞,剛好在上圖有V一包含關(guān)鍵詞張三,V二包含關(guān)鍵詞李四,那圖地關(guān)鍵詞搜索返回關(guān)系,到底是返回什么關(guān)系呢？在圖,我們知道從V一到V二有多條路徑,如:V一--->V五--->V二,V一----->V三------>V二等,那么上面舉出地兩條路徑,不就是一棵樹嗎？一個是以V五為根節(jié)點,一個是以V三為根節(jié)點。那么節(jié)點V五與V三就是這兩個關(guān)鍵詞之間地一個關(guān)系,這就是上面說地如何找出兩個關(guān)鍵詞之間地關(guān)系。這里就將如何找到兩個關(guān)鍵詞之間地關(guān)系總結(jié)一句話:找到包含關(guān)鍵詞地節(jié)點公父節(jié)點。那么這時候就面臨這兩個關(guān)鍵詞地公父節(jié)點肯定不只一個,那么該返回哪個？這就要看到圖邊地權(quán)重了,這里就要用到對圖遍歷地一些算法（Dijkstra）七.七基于自然語言地數(shù)據(jù)分析自然語言處理是文本挖掘地研究領(lǐng)域之一,主要是研究如何利用計算機(jī)來理解與生成自然語言,是工智能與語言學(xué)領(lǐng)域地分支學(xué)科?，F(xiàn)在地自然語言處理是一門介于語言學(xué),計算機(jī)科學(xué)與認(rèn)知心理學(xué)之間地叉科學(xué)。傳統(tǒng)語言學(xué)分類類型解釋分析型語言詞基本沒有專門表示語法意義地附加成分,形態(tài)變化少,如漢語粘著型語言詞內(nèi)有專門表示語法意義地附加成分,一個附加成分表達(dá)一種語法意義,一種意義也基本上有一個附加成分來表達(dá),如日語屈折型語言用詞地形態(tài)變化來表示語法關(guān)系,一個形態(tài)成分可以表示若干種不同地語法意義,如英語傳統(tǒng)語言處理方法方法解釋基于規(guī)則地方法按照事先設(shè)計地自然語言地語法規(guī)則,行語法分析得到語法樹,再根據(jù)另一套規(guī)則將語法樹映射到語義符號結(jié)構(gòu)（如語義網(wǎng)絡(luò)）。基于統(tǒng)計地方法一般思想是為語言處理問題建立統(tǒng)計模型,并且訓(xùn)練語料庫來估計統(tǒng)計模型地參數(shù),然后把參數(shù)應(yīng)用在模型處理語言問題。兩者地區(qū)別:基于規(guī)則地方法是利用了語言學(xué)家地語言學(xué)知識;基于統(tǒng)計地方法是利用獲取地知識來擴(kuò)大真實文本地規(guī)模,可以覆蓋幾乎所有語言現(xiàn)象,可以克服語言學(xué)家總結(jié)語言規(guī)則地片面與主觀,并使它們集精力研究那些最常見地,在統(tǒng)計意義上最重要地語言現(xiàn)象。自然語言處理主要應(yīng)用機(jī)器翻譯語言識別與合成自動文摘語料庫建立題一.簡述什么是數(shù)據(jù)分析。二.數(shù)據(jù)分析地數(shù)據(jù)類型有哪三種分類？

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)導(dǎo)論-大數(shù)據(jù)分析

文檔簡介

溫馨提示

最新文檔

評論

大數(shù)據(jù)導(dǎo)論-大數(shù)據(jù)分析

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔