大數據管理與應用 課件 王剛 第1-8章 緒論- 數據聚類分析_第1頁
大數據管理與應用 課件 王剛 第1-8章 緒論- 數據聚類分析_第2頁
大數據管理與應用 課件 王剛 第1-8章 緒論- 數據聚類分析_第3頁
大數據管理與應用 課件 王剛 第1-8章 緒論- 數據聚類分析_第4頁
大數據管理與應用 課件 王剛 第1-8章 緒論- 數據聚類分析_第5頁
已閱讀5頁,還剩240頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第一章緒論大數據管理與應用——隨著新一代信息技術的不斷發(fā)展,數據在人們的生活中起到愈來愈重要的作用,人類社會已經進入大數據時代。大數據時代產生了許多基于海量數據挖掘和分析的新模式,大數據及其相關技術對政治、經濟以及文化領域產生了重要影響,人們的思維和決策方式同樣也迎來了巨大變革。在本章中您將了解大數據時代的主要背景,掌握數據和大數據的概念及其特征,并了解大數據管理和應用,理解大數據管理與應用的理論、技術和應用體系。大數據時代數據和大數據大數據管理與應用概述大數據管理與應用的理論、技術和應用體系第一章

緒論01大數據時代02數據和大數據03大數據的管理與應用概述04大數據管理與應用的理論技術和應用體系云計算、物聯網和移動互聯網、社交媒體等新型信息技術和應用模式快速發(fā)展,信息技術與人類世界的各個領域相互滲透,不斷融合,數據成為人類生產活動必不可少的一部分。人類社會已經邁入一個新的時代——大數據時代。麥肯錫稱:“數據,已經滲透到當今每一個行業(yè)和業(yè)務職能領域,成為重要的生產因素。如今,大數據及其相關技術受到媒體、政府以及各個行業(yè)領域的高度關注數據正在迅速膨脹,它決定著許多傳統行業(yè)的未來。根據國際權威機構Statista的預測,到2035年,全球數據產生量將達到2142ZB,全球數據量的規(guī)模將會爆發(fā)式增長?;ヂ摼W數據并非單純指互聯網上存在的數據,還包括一些信息采集設備上傳的數據。大數據相關技術讓大量的數據成為了新的重要生產要素,它通過技術的創(chuàng)新與發(fā)展以及數據的全面感知、收集、分析、共享,使人們更多地基于事實與數據做出決策。社會不再僅僅依賴經驗和慣性思維進行管理和運作,遵循數據的管理和運作模式逐漸成為社會主流。1.1大數據時代的背景大數據時代的思維變革從數據分析的角度來說,要完成從“小樣本”到“整體”的轉變,要分析與某事物相關的所有數據,而不是依靠分析少量的數據樣本。關于數據的質量,數據精確性不再是唯一標準,多樣化、異構的數據同樣值得分析和處理。在思維上需要產生轉變,不再探求難以捉摸的因果關系,轉而關注事物的相關關系。大數據時代的商業(yè)變革大數據同樣對企業(yè)競爭力甚至是行業(yè)結構產生了巨大影響,大數據時代的數據將會成為企業(yè)核心競爭力的重要組成部分。大數據時代的管理變革我們需要全新的制度規(guī)范,而不是修改原有規(guī)范的適用范圍1.2大數據時代的巨大變革數據概念數據是指以定性或者定量的方式來描述事物的符號記錄,是可定義為有意義的實體,它涉及事物的存在形式。數據模型按照應用層次和建模目的,數據模型分為三種基本類型:概念數據模型﹑邏輯數據模型和物理數據模型。需要注意數據模型的層次性。不同層次的數據模型之間存在一定的對應關系,可以進行相互轉換2.1數據圖1-1數據模型的層次數據維度可以從三個不同維度分析數據類型及其特征。從數據的結構化程度看,可以分為:結構化數據,半結構化數據和非結構化數據三種。2.1數據表1-1結構化數據、半結構化數據與非結構化數據的區(qū)別與聯系類型含義本質舉例結構化數據直接可以用傳統關系數據庫存儲和管理的數據先有結構,后有數據關系型數據庫中的數據非結構化數據無法用關系數據庫存儲和管理的數據沒有(或難以發(fā)現)統—結構的數據語音、圖像文件等半結構化數據經過一定轉換處理后可以用關系數據庫存儲和管理的數據先有數據,后有結構(或較容易發(fā)現其結構)HTML、XML文件等從數據的加工程度看,分為:零次數據、一次數據、二次數據和三次數據。從數據的抽象或封裝程度看,可分為:數據、元數據和數據。對象三個層次2.1數據圖1-2數據的加工程度圖1-3

數據的封裝數據特征:數據不為人類所控制、數據具有未知性及數據具有多樣性和復雜性。大數據概念大數據是需要新處理模式才能具有更強的決策力、洞察發(fā)現力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產。(權威研究機構Gartner)大數據,或稱巨量資料,指的是所涉及的數據量規(guī)模巨大到無法通過人工在合理時間內截取、管理、處理,并整理成為人類所能解讀的信息。(維基百科)用四個特征來描述大數據,即規(guī)模性(Volume)、高速性(Velocity)、多樣性(Variety)和真實性(Veracity),這些特征相結合,定義了IBM所稱的“大數據”。(IBM)大數據是一類能夠反映物質世界和精神世界的運動狀態(tài)和狀態(tài)變化的信息資源,它具有決策有用性、安全危害性以及海量性、異構性、增長性、復雜性和可重復開采性,一般都具有多種潛在價值。(管理的角度)2.2大數據大數據特征Volume(規(guī)模性)當數據量達到PB級以上,一般稱為“大”的數據。Variety(多樣性)數據多樣性是指大數據存在多種類型的數據,不僅包括結構化數據,還包括非結構化數據和半結構化數據。Value(價值密度低)在大數據中,價值密度的高低與數據總量的大小之間并不存在線性關系,有價值的數據往往被淹沒在海量無用數據之中。Velocity(高速性)大數據中所說的“速度”包括兩種—增長速度和處理速度。2.2大數據大數據的來源和產生方式大數據的來源信息管理系統:企業(yè)內部使用的信息系統,包括辦公自動化系統、業(yè)務管理系統等。網絡信息系統:基于網絡運行的信息系統即網絡信息系統是大數據產生的重要方式,如電子商務系統、社交網絡、社會媒體、搜索引擎等都是常見的網絡信息系統。物聯網系統:物聯網是新一代信息技術,其核心和基礎仍然是互聯網,是在互聯網基礎上的延伸和擴展的網絡??茖W實驗系統:主要用于科學技術研究,可以由真實的實驗產生數據,也可以通過模擬方式獲取仿真數據。2.2大數據大數據的來源和產生方式產生大數據的方式被動式生成數據:數據庫技術使得數據的保存和管理變得簡單,業(yè)務系統在運行時產生的數據可以直接保存到數據庫中,由于數據是隨業(yè)務系統運行而產生的,因此該階段所產生的數據是被動的。主動式生成數據:物聯網的誕生,使得移動互聯網的發(fā)展大大加速了數據的產生。例如,人們可以通過手機等移動終端,隨時隨地產生數據。感知式生成數據:物聯網的發(fā)展使得數據生成方式得以徹底的改變。例如遍布在城市各個角落的攝像頭等數據采集設備源源不斷地自動采集并生成數據。2.2大數據3.1數據生產要素經濟學理論中講的生產要素是社會在進行生產活動時所需要的種種社會資源。所以要將大數據界定為資源,首先要界定其為一種生產要素。界定某種事物為生產要素,要看其在己有的經營決策下是否參與價值創(chuàng)造,益于降低成本,提高收益率。大數據一方面有助于人們科學決策,另一方面會導致具體的項目活動成本以及收益的變動,可以說大數據促進了價值創(chuàng)造。所以,大數據可以被界定為一種新的生產要素,即大數據就是資源。隨著大數據技術與各領域的融合,社會對其認識也日益加深,大數據作為一種資產、資源已成共識。3.2大數據管理大數據資源的獲取問題正如自然資源開發(fā)和利用之前需要探測,大數據資源開發(fā)和應用的前提也是有效地獲取。大數據資源的安全性問題豐富的原始數據涉及個人隱私和企業(yè)隱私,因此政府需要制定相應的法律法規(guī)來保證原始數據開采的安全性,企業(yè)和個人也應利用安全防護技術來保障數據的安全。大數據資源的所有權問題通過有效的管理機制來界定大數據資源的所有權和使用權是至關重要的管理問題。大數據資源的類型描述私有大數據(privateBigData)私有大數據是由于安全性或保密性等特殊要求限制,僅能由某些特定企業(yè)或組織所有、開發(fā)和利用的大數據資源公有大數據(publicBigData)公有大數據是可以由公眾共享的大數據資源,公有大數據可以為大數據相關科學研究的開展提供便利混合大數據(hybridBigData)混合大數據介于私有大數據和公有大數據之間,可以通過交易、購買或轉讓等方式在私有大數據和公有大數據之間轉換表1-2不同類型大數據資源的簡要描述3.2大數據管理大數據資源的產業(yè)鏈發(fā)展問題大數據資源的完整產業(yè)鏈包括數據的采集、存儲、挖掘、管理、交易、應用和服務等。大數據資源產業(yè)鏈的發(fā)展還會催生新的產業(yè),如大數據資源的交易會促使以大數據資源經營為主營業(yè)務的大數據資源中間商和供應商的出現。對大數據產業(yè)發(fā)展問題的研究是實現大數據潛在商業(yè)價值的重要環(huán)節(jié),而大數據產業(yè)發(fā)展中面臨著一系列比傳統商業(yè)環(huán)境下更復雜的優(yōu)化問題、決策問題、預測問題和評估問題等。3.3大數據應用大數據在制造領域的應用在制造業(yè)大規(guī)模定制中的應用包括數據采集、數據管理、訂單管理、智能化制造、定制平臺等。大數據在商務領域的應用大數據時代的電子商務,經營模式由傳統的管理化的運營模式變?yōu)橐孕畔橹黧w的數據化運營模式。大數據在金融領域的應用信用評價、風控管理、客戶畫像和精準營銷等。大數據在醫(yī)療領域的應用不僅可以實現對流行疾病的爆發(fā)趨勢的預測,也能夠為患者提供更加便利的服務。大數據在能源領域的應用將電力、石油、燃氣等能源領域數據進行綜合采集、處理、分析與應用。大數據在政府管理領域的應用政府公共服務的效率提高,政府向民眾提供的服務更加優(yōu)質、更加高效。4.1大數據管理與應用的理論體系大數據管理與應用工作的理論體系,以統計、領域知識和機器學習為基礎和引領,同時依靠相應的存儲、計算和網絡平臺,對內部和外部的各類大數據和信息進行采集、管理和分析,以創(chuàng)造的洞察,并形成數據可視化展示,為相關人員提供支持。圖1-4大數據管理與應用的理論體系4.2大數據管理與應用的技術體系大數據管理與應用的技術體系以數據資產為核心,包含問題理解、數據理解、數據處理、模型建立、模型評估和模型部署六個環(huán)節(jié)。圖1-5大數據管理與應用的技術體系4.3大數據管理與應用的應用體系大數據管理與應用的應用體系同樣是以數據資產為核心,包含問題理解、數據理解、數據處理、模型建立、模型評估和分析報告六個環(huán)節(jié)的循環(huán)往復的探索過程圖1-6大數據管理與應用的應用體系謝謝!第二章大數據管理與應用的數學基礎大數據管理與應用——主編:王剛副主編:劉婧、邵臻線性代數、優(yōu)化和統計是大數據管理與應用的重要數學基礎,大數據管理與應用的核心要素是機器學習,機器學習中的數據表示、運算規(guī)則、模型性質、模型優(yōu)化等均離不開這些數學基礎。在本章中你將了解線性代數、優(yōu)化和統計的基本定義,掌握線性代數、優(yōu)化和統計中的常用方法,從而為后續(xù)深人學習機器學習方法打下基礎。線性代數基礎優(yōu)化基礎統計基礎第二章大數據管理與應用的數學基礎01線性代數基礎02優(yōu)化基礎03統計基礎標量(Scalar)是一個單獨的數,它通常使用小寫的斜體變量進行表示。向量(Vector)是一列有序排列的數,它通常使用小寫的粗體變量進行表示。矩陣(Matrix)是一個二維數組,它通常使用大寫的粗體變量進行表示。張量(Tensor)是坐標超過兩維的數組。范數(Norm)在機器學習中有重要的作用,它能夠衡量向量或矩陣的大小,并滿足非負性、齊次性和三角不等式。1.1向量和矩陣

1.2向量和矩陣運算矩陣和向量求導矩陣和向量的導數有以下常用的運算規(guī)則:矩陣的跡運算的導數有以下常用運算規(guī)則:1.2向量和矩陣運算

1.3矩陣分解最優(yōu)化問題在現實社會中,人們經常遇到這樣一類問題:判別在一個問題的眾多解決方案中什么樣的方案最佳,以及如何找出最佳方案。例如,在資源分配中,如何分配有限資源,使得分配方案既能滿足各方面的需求,又能獲得好的經濟效益;在工程設計中,如何選擇設計參數,使得設計方案既能滿足設計要求,又能降低成本等。這類問題就是在一定的限制條件下使得所關心的指標達到最優(yōu)。最優(yōu)化就是為解決這類問題提供理論基礎和求解方法的一門數學學科。在量化求解實際最優(yōu)化問題時,首先要把實際問題轉化為數學問題,建立數學模型。最優(yōu)化數學模型主要包括三個要素:決策變量和參數、約束或限制條件、目標函數。根據數學模型中有無約束函數分類,可分為有約束的最優(yōu)化問題和無約束的最優(yōu)化問題。2.1最優(yōu)化

2.1最優(yōu)化圖2-1凸集的幾何表示

2.1最優(yōu)化

2.2無約束最優(yōu)化問題

2.2無約束最優(yōu)化問題Newton法最速下降法的本質是用線性函數去近似目標函數,可以考慮對目標函數的高階逼近得到快速算法,Newton法就是通過用二次模型近似目標函數得到的。具體算法步驟如下:共軛梯度法共軛梯度法的基本思想是在共軛方向法和最速下降法之間建立某種聯系,以求得到一個既有效又有較好收斂性的算法。擬Newton法擬Newton法不需要二階導數的信息,有時比牛頓法更為有效。擬Newton法是一類使每步迭代計算量少而又保持超線性收斂的牛頓型迭代法,條件類似于牛頓法。2.2無約束最優(yōu)化問題一般性的約束優(yōu)化問題:約束優(yōu)化問題的最優(yōu)性條件約束優(yōu)化問題的最優(yōu)性條件是指最優(yōu)化問題的目標函數與約束函數在最優(yōu)解處應滿足的充分條件、必要條件和充要條件,是最優(yōu)化理論的重要組成部分,對最優(yōu)化算法的構造及算法的理論分析都是至關重要的。Kuhn-Tucker必要條件二階充分條件2.3約束最優(yōu)化問題罰函數法與乘子法根據約束的特點,構造某種“懲罰”函數,然后把它加到目標函數中去,將約束問題的求解轉化為一系列無約束問題的求解。這種“懲罰”策略將使得一系列無約束問題的極小點或者無限地靠近可行域,或者一直保持在可行域內移動,直至迭代點列收斂到原約束問題的最優(yōu)解。這類算法主要有三種:外罰函數法、內罰函數法和乘子法。外罰函數法的懲罰策略是對于在無約束問題的求解過程中企圖違反約束的那些迭代點給予很大的目標函數值,迫使這一系列無約束問題的極小點(迭代點)或者無線的向容許集靠近。2.3約束最優(yōu)化問題罰函數法與乘子法為使迭代點總是可行點,使迭代點始終保持在可行域內移動,可以使用這樣的“懲罰”策略,即在可行域的邊界上豎起一道趨向于無窮大的“圍墻”,把迭代點擋在可行域內,直到收斂到約束問題的極小點。不過這種策略只適用于不等式約束問題,并且要求可行域內點集非空,否則每個可行點都是邊界點,都加上無窮大的懲罰,懲罰方法也就失去了意義。2.3約束最優(yōu)化問題

2.3約束最優(yōu)化問題罰函數法與乘子法投影梯度法就是利用投影矩陣來產生可行下降方向的方法。它是從一個基本可行解開始,由約束條件確定出凸約束集邊界上梯度的投影,以便求出下次的搜索方向和步長,每次搜索后都要進行檢驗,直到滿足精度要求為止。2.3約束最優(yōu)化問題罰函數法與乘子法簡約梯度法的基本思想是利用線性約束條件,將問題的某些變量用一組獨立變量表示,來降低問題的維數,利用簡約梯度構造下降可行方向進行線性搜索,逐步逼近問題的最優(yōu)解。2.3約束最優(yōu)化問題

3.1概率與統計

3.1概率與統計

3.1概率與統計定量數據的圖形描述定量數據整理對定量數據進行統計分組是數據整理中的主要內容。根據統計研究的目的和客觀現象的內在特點,按某個標志(或幾個標志)把被研究的總體劃分為若干個不同性質的組,稱為統計分組。頻數分布表反映數據整理的結果信息。將數據按其分組標志進行分組的過程,就是頻數分布或頻率分布形成的過程。單變量定量數據的圖形描述將定量數據整理成頻數分布形式后,已經可以初步看出數據的一些規(guī)律了。直方圖折線圖莖葉圖箱線圖3.2描述性統計定量數據的圖形描述多變量定量數據的圖形描述實際上往往只對一個變量進行數據分析是不能滿足研究目的的,通常把多個變量放在一起來描述,并進行分析比較。在討論兩個變量的關系時,首先可以對其定義分類。當一個變量可以視為另一個變量的函數時,稱為相關變量,通常也稱為反應變量。當一個變量對另一個變量有影響時,稱為獨立變量或解釋變量,通常它是可控的。散點圖是描述兩個數字變量之間關系的圖形方法。如果數據是在不同時點取得的,稱為時間序列數據,這時還可繪制線圖和面積圖。對于多組數據,我們可以依據同樣的方法來繪制箱線圖,然后將各組數據的箱線圖并列起來,以比較其分布特征。當有三個變量或指標時,使用多指標的圖示方法,目前這類圖示方法有雷達圖、臉譜圖、連接向量圖和星座圖等,其中雷達圖最為常用。3.2描述性統計定性數據的圖表描述定性數據的整理由于定性數據用來描述事物的分類,因此對調查收集的繁雜定性數據進行整理時,除了要將這些數據進行分類、列出所有類別之外,還要計算每一類別的頻數、頻率或比率,并將頻數分布以表格的形式表示出來,作為對定性數據的整理結果,這個表格就是類似于定量數據整理中的頻數分布表。單變量定性數據的圖形描述定性數據的頻數分布表可通過頻數分布表和累積頻數分布表來表示。如果以相應的圖形來表示這些分布表,則會使我們對數據特征及分布有更直觀和形象的了解。條形圖餅圖帕雷托圖3.2描述性統計定性數據的圖形描述多變量定性數據的圖形描述在管理實踐中,不同現象之間總有聯系,不可能是獨立的。因此,研究多個定性變量之間定性數據的圖形表示,對進行深入的統計分析,如回歸分析、聚類分析、因子分析等有重要的基礎意義。環(huán)形圖(CircleChart)能顯示具有相同分類且問題可比的多個樣本或總體中各類別所占的比例,從而利于比較研究。交叉表(CrossTable)是用來描述同時產生兩個定性變量的數據的圖形方法。多重條形圖(ClusteredBarChart)也是描述兩個定類或定序變量間關系的主要圖形方式。3.2描述性統計描述統計中的測度數據分布的集中趨勢測度集中趨勢(CentralTendency)是指分布的定位,它是指一組數據向某一中心值靠攏的傾向,或表明一組統計數據所具有的一般水平。對集中趨勢進行測度也就是尋找數據一般水平的代表值或中心值。對集中趨勢的度量有數值平均數和位置平均數之分。算術平均數調和平均數幾何平均數中位數眾數中位數3.2描述性統計描述統計中的測度數據分布的離散趨勢測度變量離散程度的度量則將變量值的差異揭示出來,反映總體各變量值對其平均數這個中心的離中趨勢。離散指標與平均指標分別從不同的側面反映總體的數量特征。只有把平均指標與離散指標結合起來運用,才能更深刻地揭示所研究現象的本質。極差分位差平均差方差與標準差標準差系數3.2描述性統計

3.3推斷性統計區(qū)間估計區(qū)間估計(IntervalEstimate)是在點估計的基礎上根據給定的置信度估計總體參數取值范圍的方法。在區(qū)間估計中,由樣本統計量所構成的總體參數的估計區(qū)間稱為置信區(qū)間(ConfidenceInterval),區(qū)間的最小值稱為置信下限,最大值稱為置信上限。單一總體均值的區(qū)間估計(方差已知或大樣本)單一總體均值的區(qū)間估計(小樣本且方差未知)兩個總體均值之差的區(qū)間估計總體比例的區(qū)間估計總體方差的區(qū)間估計樣本容量的確定3.3推斷性統計

3.3推斷性統計謝謝!第三章大數據管理與應用的機器學習基礎大數據管理與應用——主編:王剛副主編:劉婧、邵臻隨著大數據時代的到來,各個行業(yè)對數據分析的需求持續(xù)增加,通過機器學習從大量數據中提取有效的信息,已經成為當前人工智能技術發(fā)展的主要推動力,并且已經廣泛用于解決商務領域中的決策與管理問題。在本章中您將了解機器學習的概念,掌握機器學習的四要素,明確機器學習中的模型評估與選擇方法,了解機器學習的理論基礎。機器學習概述機器學習的分類模型評估與選擇計算學習理論第三章大數據管理與應用的機器學習基礎01機器學習概述02機器學習的分類03模型評估與選擇04計算學習理論

1.1機器學習的基本概念圖3-1機器學習的基本框架在現實問題中,我們經常面臨很大的假設空間,而數據集中的樣本通常是有限的。因此,有可能存在多種模型都能擬合數據集的情況,即存在一個與數據集一致的假設空間,稱為“版本空間”。機器學習在學習過程中對某種模型的偏好,稱為“歸納偏好”。然而,機器學習中沒有一個普適的模型能夠解決所有的學習問題,這也被稱為“沒有免費的午餐”定理。“奧卡姆剃刀”是一種常用的從版本空間中選取模型的方法,即在同樣的條件下,應該優(yōu)先選擇較為簡單模型。1.2歸納偏好

2.1監(jiān)督學習在無監(jiān)督學習中,數據集中只有輸入數據而沒有標簽,無監(jiān)督學習的目標是通過對這些無標簽樣本的學習來揭示數據的內在特性及規(guī)律。因此無監(jiān)督學習是沒有經驗知識的學習,有時也被稱為“知識發(fā)現”。聚類分析是無監(jiān)督學習的代表,它能夠根據數據的特點將數據劃分成多個沒有交集的子集,每個子集被稱為簇,簇可能對應一些潛在的概念,但需要人為總結和定義。例如對用戶進行精準營銷前需要對用戶進行細分,就可以通過聚類分析實現。在許多現實問題中,對樣本打標簽的成本有時很高,因而只能獲得少量帶有標簽的樣本。在這種情況下,半監(jiān)督學習可以讓模型不依賴人工干預、自動地利用未標記樣本來提升學習性能,從而充分利用有標簽和無標簽的樣本。例如在生物學領域,對某種蛋白的結構或功能標記需要花費生物學家多年的功夫,而大量的未標記樣本卻很容易得到,半監(jiān)督學習就提供了一條利用這些未標記樣本的途徑。2.2無監(jiān)督學習與半監(jiān)督學習

3.1訓練誤差與測試誤差

3.2模型評估方法性能度量就是對模型的泛化能力進行評估,在對比不同模型的能力時,使用不同的性能度量往往會導致不同的評判結果。分類問題的性能度量錯誤率與精度精確率、召回率與F1分數ROC曲線與AUC回歸問題的性能度量

均方誤差均方根誤差平均絕對誤差平均絕對百分比誤差3.3性能度量

3.4偏置與方差過擬合(Overfitting)與欠擬合(Underfitting)是機器學習中的一組現象。如圖3-4所示,過擬合一般是由于模型過于復雜或參數過多而導致模型對訓練數據過度擬合的現象,而欠擬合則是由于模型過于簡單或參數過少而導致模型難以訓練數據的現象,這兩種現象均能導致模型的預測值與真實值之間出現較大的差距。3.5訓練擬合與正則化圖3-2過擬合與欠擬合現象

3.5訓練擬合與正則化

4.1PAC學習理論

4.2泛化誤差上界謝謝!第四章數據采集與數據存儲大數據管理與應用——主編:王剛副主編:劉婧、邵臻數據是信息世界的基礎性資源,但由于體量巨大,種類繁多,變化迅速,真實質差等問題導致難以充分發(fā)揮數據的價值。為此,誕生了數據采集與數據倉儲技術,主要研究如何管理分析和利用數據。該技術是計算機核心技術之一,以其為核心的各種數據庫應用管理,無可爭議的改變了政府部門和企事業(yè)單位的運營和管理方式,隨著數據庫廣泛應用和深度擴展,不僅是計算機和信息技術行業(yè),包括技術管理,工程管理甚至決策人員在內的眾多行業(yè),都開始關注數據庫技術的應用價值。數據采集關系型數據存儲非關系型數據存儲數據倉庫第四章數據采集與數據存儲01數據采集02關系型數據存儲03非關系型數據存儲04數據倉庫數據采集(DataAcquisition)是指將要獲取的信息通過傳感器轉換為信號,并經過對信號的調整、采樣、量化、編碼和傳輸等步驟,最后送到計算機系統中進行處理、分析、存儲和顯示的過程。數據采集是數據分析中的重要一環(huán),它首先通過傳感器或社交網絡、移動互聯網等方式獲得各種類型的結構化、半結構化及非結構化的海量數據。在大數據時代,面對數據來源廣泛、數據類型復雜以及海量數據的井噴式增長和不斷增長的用戶需求,傳統的集中式數據庫的弊端日益顯現,于是基于分布式數據庫的大數據采集方法應運而生。傳統數據采集是從傳感器等設備自動采集信息的過程。這種方法數據來源單一,數據結構簡單,且存儲、管理和分析數據量也相對較小,大多采用集中式的關系型數據庫或并行數據倉庫即可處理。1.1數據采集概述1.1數據采集概述表4-1傳統數據采集與大數據采集的區(qū)別傳統數據采集大數據采集來源單一,數據量相當小來源廣泛,數量巨大結構單一數據類型豐富關系數據庫和并行數據庫分布式數據庫傳統數據采集系統數據采集系統性能的好壞,主要取決于它的精度和速度。在保證精度的條件下,應該盡可能提高采樣速度,以滿足實時采集、實時處理和實時控制等對速度的要求。一般都包含有計算機系統,這使得數據采集的質量和效率等大為提高,同時節(jié)省了硬件投資。軟件在數據采集系統中的作用越來越大,增加了系統設計的靈活性。數據采集與數據處理相互結合日益緊密,形成了數據采集與處理相互融合的系統,可實現從數據采集、處理到控制的全部工作。速度快,數據采集過程一般都具有“實時”特性。隨著微電子技術的發(fā)展,電路集成度的提高,體積越來越小,可靠性越來越高。1.2數據采集系統大數據采集系統日志采集系統網絡數據采集系統網絡數據采集系統是指通過網絡爬蟲和一些網站平臺提供的公共API(如Twitter和新浪微博API)等方式從網站上獲取數據。網絡爬蟲的原理:按照一定的規(guī)則,自動抓取Web信息的程序或者腳本。爬蟲一般有數據采集、處理和存儲三部分功能。1.2數據采集系統圖4-1網絡爬蟲示意圖大數據采集系統網絡數據采集系統網絡爬蟲的類型:通用網絡爬蟲、聚焦網絡爬蟲、增量式網絡爬蟲以及深層網絡爬蟲等。網絡爬蟲的工具:前常用的網頁爬蟲系統有ApacheNutch、Crawler4j、Scrapy等框架。網絡爬蟲工作流程1.2數據采集系統4-2網絡爬蟲的基本工作流程大數據采集系統數據庫采集系統一些企業(yè)會使用傳統的關系型數據庫比如Mysql、Oracle等存儲數據,此外,Redis和Mongodb的NoSQL數據庫也常用于企業(yè)數據的采集。針對此類大數據采集技術,目前主要流行的大數據采集分析技術是Hive。在大數據采集技術中還有一個關鍵環(huán)節(jié)是轉換操作,將清洗后的數據轉換成不同的數據形式,由不同的數據分析系統和計算系統進行分析和處理。1.2數據采集系統企業(yè)內部數據采集企業(yè)內部數據采集來源于各個業(yè)務生產系統,包括CRM數據、CC(呼叫中心)數據、財務數據、倉儲數據、門店數據、銷售數據、OA數據、物流數據、網站數據。CRM數據,即企業(yè)客戶管理系統的相關數據。CC(呼叫中心)數據,即企業(yè)呼叫中心系統的相關數據。財務數據,包括現金流、資產管理、盈利、負債等數據。倉儲數據,包括庫存周轉、庫存結構、暢銷、滯銷等數據。門店數據,除線下銷售外,還包括POS數據、動線視頻數據等非結構化數據。銷售數據,包括渠道、平臺、品類等維度的銷售數據。OA數據,是企業(yè)內部辦公系統的相關數據,該數據可以為優(yōu)化企業(yè)內部流程服務。物流數據,包括出庫、配送、調度、退換貨等數據。網站數據,即流量數據。1.3企業(yè)數據采集企業(yè)外部數據采集企業(yè)外部數據是指數據由企業(yè)外部產生,企業(yè)通過合作、購買、采集等形式獲得。企業(yè)外部數據通常包括競爭數據、營銷數據、物流數據、行業(yè)數據等。競爭數據,通常是通過購買或程序采集等形式,獲得關于競爭對手的流量、銷售、產品、營銷等方面的數據,如競爭對手產品價格、競爭對手會員數據、營銷投放渠道等。營銷數據,指企業(yè)通過營銷或推廣合作,獲取自身或站外相關媒體、渠道的曝光、點擊、投放等詳細數據。物流數據,指第三方的物流數據。行業(yè)數據,指通過購買、調研等獲得關于市場整體行情、市場趨勢、用戶結構、競爭環(huán)境等信息,常見于行業(yè)報告數據。1.3企業(yè)數據采集關系模型的數據結構用二維表格(關系)表示實體和實體間關系的模型稱為關系模型。2.1關系模型表4-2學生基本信息表關系模型的數據操作與約束條件操作主要包括查詢、插入、刪除和修改四類,其中查詢是最重要、最基本的操作。操作特點一次操作可以存取多個元組。隱蔽存取數據的路徑。關系模型優(yōu)缺點主要優(yōu)點關系模型與非關系模型不同,它是建立在嚴格的數學概念的基礎上的。無論實體還是實體之間的聯系都用關系來表示。關系模型的存取路徑對用戶透明,從而具有更高的數據獨立性,更好的安全保密性。數據模型具有豐富的完整性。主要缺點:運行效率不高、不能直接描述復雜的數據對象和數據類型。2.1關系模型范式(NF,NormalForma)是一種關系的狀態(tài),也是衡量關系模式好壞的標準。根據關系模式滿足的不同性質和規(guī)范化的程度,關系模式被分為第一范式、第二范式、第三范式、BC范式、第四范式和第五范式等,其中范式越高則規(guī)范化的程度越高,關系模式也就越好。第一范式:在關系模式R的每個關系R中,如果每個屬性值都是不可再分的原子值,那么稱R是第一范式(1NF)的模式。2.2關系規(guī)范化表4-3(a)非規(guī)范化關系

倉庫編號負責人

倉庫編號負責人姓名負責人電話姓名電話

W1李明1304560001

W1李明1304560001W2王紅

W2王紅

W3張小兵1881001001

W3張小兵1881001001

表4-3(b)規(guī)范化關系范式(NF,NormalForma)第二范式:如果一個關系模式R為1NF,并且R中的每個非主屬性(不是組成主鍵的屬性)都完全函數依賴于R的每個候選關鍵字(主要是主關鍵字),則稱R是第二范式(簡記為2NF)的模式。第三范式:如果一個關系模式R為2NF,且R中所有非主屬性都不傳遞依賴于關鍵字,則稱R是第三范式(簡記為3NF)的模式。BC范式:如果關系模式R為1NF,X?U,且每個屬性都不傳遞依賴于R的候選鍵,那么稱R是BCNF的模式。關系模式的規(guī)范化要求關系規(guī)范化的基本思想是通過逐步消除不合適的數據依賴,使原模式中的各種關系模式達到某種程度的分離。規(guī)范化使得分離后的一個關系只描述一個概念、一個實體或實體間的一種聯系,采用“一事一地”的模式設計原則,把多于一個概念的關系模式分離成多個單一的關系模式。因此對關系模式的規(guī)范化實質上是對概念的單一化過程。2.2關系規(guī)范化2.2關系規(guī)范化圖4-3

關系模式的規(guī)范化過程

基本概念鍵值存儲,也稱關聯數組,從本質上來講就是<鍵,值>對的組合,可理解為一類兩列的數組。鍵值存儲就像一個字典,一個字典包含很多單詞,每個單詞都有多個定義。一個字典就是一個簡單的鍵值存儲,單詞條目即為鍵,每個詞條下的定義條目即為值。鍵值存儲的優(yōu)勢是處理速度非???,而且不用為值指定一個特定的數據類型。但也具有很明顯的缺點,它只能通過鍵的查詢來獲取數據,而無法使用查詢語言,若鍵值不可知,則無法進行查詢。鍵值存儲兩個重要準則:一是鍵不能重復;二是不能按照值來查詢。鍵值存儲的重要特性:簡潔、高速、可擴展性和可靠性應用案例保存網頁信息用戶配置信息物流運輸訂單信息3.1鍵值數據庫基本概念文檔數據庫也稱為面向文檔的數據庫,面向文檔的數據庫是一類以鍵值數據庫為基礎,不需要定義表結構、可以使用復雜查詢條件的NoSQL數據庫。文檔數據庫的值是以文檔的形式來存儲的,主要用來存儲、索引并管理面向文檔的數據或者類似的半結構化數據。文檔存儲的結構主要分為四個層次,從小到大依次是:鍵值對:是文檔存儲的基本單位,包含數據和類型。鍵值對的數據包括鍵和值,鍵用字符串表示,確保一個鍵值結構里數據記錄的唯一性,同時也能記錄信息。文檔:是文檔存儲的核心概念,是數據的基本單元。文檔數據庫并不會把實體的每個屬性都單獨與某個鍵相關聯,而是會把多個屬性存儲到同一份文檔里面。集合:一般把相似的文檔納入一個集合,集合就是指一組文檔。數據庫:在文檔存儲中,數據庫由集合組成。3.2文檔數據庫特性無需定義表結構易于查詢易于拓展功能豐富應用案例MongodbCouchdb3.2文檔數據庫基本概念列族存儲使用行和列的標識符作為通用的鍵來查找數據。列族存儲兼有傳統關系型數據庫面向行的存儲方式與鍵值存儲方式的部分特點,列族數據庫類似于關系型表格,仍然以表的方式組織數據,由行和列組成,但不同的是列相當于鍵值對,并且引入了列族和時間戳。行:每一行代表一個數據對象,包含了若干列族,且每一行中列族及數量可以不同。列族:列族將一列或多列組織在一起,每個列必須屬于一個列族。時間戳:列的數據項可以有多個版本,不同版本的數據通過時間戳來索引。特性:容量巨大、讀寫高效、高可擴展性、高可用性、稀疏性。應用案例GoogleEarth個性化查詢服務3.3列式數據庫圖存儲概述圖:在圖論中,圖是節(jié)點與邊的集合,一般用來分析實體之間的聯系及鏈接。節(jié)點:可以用來表示各種事物,例如公司職員、生態(tài)系統中的生物、社交網絡的用戶等。邊:節(jié)點之間的聯系用邊來表示,邊的始端和末端都必須是節(jié)點。屬性:表示節(jié)點和邊所具有的特征,節(jié)點和邊都可以包含多個屬性。圖存儲:是包含一連串的節(jié)點和邊的系統,當它們結合在一起時,就構成了一個圖。圖計算引擎:與關系型數據庫類似,圖存儲的核心也是建立在一個引擎之上的。3.4圖數據庫圖4-5

典型圖計算引擎工作流程圖圖存儲概述圖存儲:是包含一連串的節(jié)點和邊的系統,當它們結合在一起時,就構成了一個圖。圖計算引擎:與關系型數據庫類似,圖存儲的核心也是建立在一個引擎之上的。查詢語言:采取圖存儲的數據庫能夠更加高效地查詢圖中各個節(jié)點之間的路徑。目前常用的查詢語言是Neo4j推出的Cyper。索引機制:基于圖數據模型的Nosql系統提供Hash索引或是Full-Text索引以檢索節(jié)點和邊。圖存儲特性:快速查詢、建模簡單、靈活性、敏捷性。應用案例連接分析規(guī)則和推理集成關聯數據3.4圖數據庫數據倉庫:一個面向主題的、集成的、隨時間變化的、非易失性的數據集合,用于支持管理層的決策過程。特征面向主題:按一個個獨立而明確的主題組織數據倉庫中的數據。集成性:數據倉庫構建的過程中,多個外部數據源中的不同類型和定義的數據,經過提取、清洗和轉換等一系列處理,最終構成一個有機整體。時變性:數據倉庫中的數據隨著時間的變化不斷得到定期的增補和更新,以保證決策的正確性。非易失性:數據非易失性又稱穩(wěn)定性,一旦數據被導入數據倉庫,就永遠不會被刪除。4.1數據倉庫的特征數據倉庫系統是計算機系統、DW、DWMS、應用軟件、數據庫管理員和用戶的集合。即數據倉庫系統一般由硬件、軟件(包括開發(fā)工具)、數據倉庫、數據倉庫管理員等構成。兩層體系結構:包括相互分離的數據源層和數據倉庫層,由四個連續(xù)的數據流階段組成。4.2數據倉庫系統圖4-7數據倉庫二層體系結構示意圖三層體系結構:在數據源層和數據倉庫層之間增加了操作型數據存儲,用于存儲源數據處理、集成后獲得的操作型數據,將數據填充到數據倉庫中。4.2數據倉庫系統圖4-8數據倉庫三層體系結構示意圖決策支持系統(DecisionSupportSystem,DSS)DSS是可擴展交互式IT技術和工具的集合,處理和分析獲得的數據,輔助管理人員決策。數據倉庫在DSS中的應用數據倉庫從各個數據源中抽取數據,經過清洗、轉換等處理后成為基本數據,基本數據在時間機制下生成歷史數據,在綜合機制下生成綜合數據。DSS接受到用戶的決策請求后,通過數據挖掘工具從數據倉庫中獲取相關數據,進行后續(xù)處理、分析,并將結果提交給用戶輔助其決策。4.3數據倉庫與決策支持謝謝!第五章數據預處理大數據管理與應用——主編:王剛副主編:劉婧、邵臻當前,在各行各業(yè)中正不斷累積海量的數據資源,受到采集方式、存儲手段等各種因素的影響,實踐中所收集到的原始數據信息往往容易出現數據缺失、解釋性不足等問題,利用這些低質量的數據進行分析將會影響后續(xù)分析的有效性和合理性。而數據預處理的目標就是要以數據分析所要解決的問題為出發(fā)點,通過相應的預處理,從而產生高質量、滿足分析需求的數據資源。在本章中您將理解數據預處理中數據質量的相關性質,掌握數據清洗方式和數據清洗方法,數據變化的相關策略,掌握數據集成及其他預處理方法。數據質量數據清洗數據變換數據集成其他預處理方法第五章數據預處理01數據質量02數據清洗03數據變換04數據集成05其他預處理方法在實際應用中,大型數據庫和數據倉庫往往容易出現不正確、不完整和不一致等情況。數據不正確的原因用于收集數據的設備出現了故障;在數據輸入時,由于人或計算機的原因導致數據輸入錯誤;用戶在不希望提交個人信息時,故意向強制輸入字段輸入不正確的數值,這種情況通常被稱為被掩蓋的缺失數據。數據不完整的原因由于涉及個人隱私等原因有些屬性無法獲得,如銷售事務數據中顧客的收入和年齡等信息;在輸入記錄時由于人為的疏漏或機器的故障使得數據不完整,這些不完整的數據需要進行重新構建。數據不一致的原因在我們采集的客戶通訊錄數據中,地址字段列出了郵政編碼和城市名,但是有的郵政編碼區(qū)域與響應的城市并不對應,導致這種原因的出現可能是人工輸入該信息時顛倒了兩個數字,或許是在手寫體掃描時錯讀了一個數字。1.1準確性、完整性以及一致性在工商業(yè)界,對數據質量的相關性要求是一個重要問題。類似的觀點也出現在統計學和實驗科學中,強調精心設計實驗來收集與特定假設相關的數據。與測量和數據收集一樣,許多數據質量問題與特定的應用和領域有關。例如,考慮構造一個模型,預測交通事故發(fā)生率。如果忽略了駕駛員的年齡和性別信息,并且這些信息不可以間接地通過其他屬性得到,那么模型的精度可能就是有限的,在這種情況下,我們需要盡量采集全面的、相關的數據信息。此外,對某個公司的大型客戶數據庫來說,由于時間和統計的原因,顧客地址列表的正確性為80%,其他地址可能過時或不正確。當市場分析人員訪問公司的數據庫,獲取顧客地址列表時,基于目標市場營銷考慮,市場分析人員對該數據庫的準確性滿意度較高。而當銷售經理訪問該數據庫時,由于地址的缺失和過時,對該數據庫的滿意度較低。有些數據收集后就開始老化,使用老化后的數據進行數據分析、數據挖掘,將會產生不同的分析結果。如果數據提供的是正在發(fā)生的現象或過程的快照,如顧客的購買行為或Web瀏覽模式,則快照只代表有限時間內的真實情況;如果數據已經過時,基于它的模型和模式也就已經過時,在這種情況下,我們需要考慮重新采集數據信息,及時對數據進行更新。1.2相關性和時效性數據的可信性是指數據在適用性、準確性、完整性、及時性和有效性方面是否能滿足用戶的應用要求,反映出有多少數據是用戶信賴的。如果把數據可信性定義得過窄,會使得人們感覺問題來自數據采入或者系統誤差,而導致數據的可信性差。數據的可解釋性反映數據是否容易理解,是在數據科學的“有用性”中至關重要的方面之一,它確保使用的數據與想要解決的問題保持一致。當某一數據庫在某一時刻存在錯誤,恰巧該時刻銷售部門使用了該數據庫的數據,雖然數據庫的錯誤在之后被及時修正,但之前的錯誤已經給銷售部門造成困擾。1.3可信性和可解釋性全人工清洗這種清洗方式的特點是速度慢,準確度較高,一般應用于數據量較小的數據集中。全機器清洗這種清洗方式的優(yōu)點是清洗完全自動化,將人從繁雜的邏輯任務中解脫出來,去完成更重要的事。人機同步清洗該方式不僅降低了編寫程序的復雜度和難度,同時也不需要大量的人工操作但缺點是人必須要實時參與清洗過程。人機異步清洗這種清洗的原理與人機同步清洗基本一樣,唯一的不同是在遇到程序不能處理的問題時,不直接要求人工參與,而是生成報告的形式記錄下異常情況,然后繼續(xù)進行清洗工作。2.1數據清洗的方式圖5-1數據清洗原理填補空缺值忽略元組:當缺少類標號時,通常采用忽略元組的方法。除非元組中空缺值的屬性較多,否則忽略元組不是有效的方法。人工填寫空缺值:該方法耗費時間,尤其是當數據集很大、缺少的數據很多時,該方法可能行不通。全局常量填充空缺值:用同一個常數替換空缺的屬性值,該方法雖然簡單,但可能得出有偏差甚至錯誤的數據挖掘結論,因此應謹慎使用。屬性的平均值填充空缺值:計算某一屬性的平均值,再用該平均值來進行填充。同類樣本的平均值填補空缺值:使用與給定元組同一類的所有樣本的平均值。用最可能的值填充空缺值:用回歸分析或決策樹歸納確定最有可能的值。最近鄰方法填補空缺值:相互之間“接近”的對象具有相似的預測值。如果知道一個對象的值,就可以預測其最近的鄰居對象。2.2數據清洗方法消除噪聲數據分箱:分箱是通過考察周圍的值來平滑存儲的數據值。它將存儲的值分布到一些箱中,由于分箱需要參考相鄰的值,因此它能對數據進行局部平滑。聚類:聚類是按照個體相似性把它們劃歸到若干類別(簇)中,使同一類數據之間的相似性盡可能大,不同類數據之間的相似性盡可能小。計算機與人工檢查結合:識別孤立點還可以利用計算機和人工檢查結合的辦法。例如在針對銀行信用欺詐行為的探測中,孤立點可能包含有用信息,也可能包含噪聲?;貧w:可以采用線性回歸和非線性回歸找出合適的回歸函數,用以平滑數據、消除噪聲。實現數據一致性從多數據源集成的數據可能存在語義沖突,因此需要定義完整性約束來檢測不一致性,或者通過分析數據,發(fā)現聯系,從而使得數據保持一致。對于數據集中存在的不一致數據,可以使用糾正編碼不一致問題的程序,也可以用知識工程工具來檢測不符合條件約束的數據。2.2數據清洗方法光滑目的是去掉數據中的噪聲,這種技術包括分箱、聚類和回歸。屬性構造(或特征構造)可以由給定的屬性構造新的屬性并添加到屬性集中,以幫助挖掘過程。聚集對數據進行匯總和聚集,例如可以聚集日銷售數據,計算月和年銷售量。規(guī)范化把屬性數據按比例縮放,使之落入一個特定的小區(qū)間,如0.0-1.0。離散化數值屬性的原始值用區(qū)間標簽或概念標簽替換,這些標簽可以遞歸地組織成更高層概念,導致數值屬性的概念分層。由標稱數據產生概念分層例如關于銷售的數據挖掘模式除了在單個分店挖掘之外,還可以針對指定的地區(qū)或國家挖掘。3.1數據變換策略最小-最大規(guī)范化Z-Score規(guī)范化(或零-均值規(guī)范化)小數定標規(guī)范化3.2通過規(guī)范化變換數據通過分箱離散化等寬分箱:將變量的取值范圍分為k個等寬的區(qū)間,每個區(qū)間當作一個分箱。等頻分箱:把觀測值按照從小到大的順序排列,根據觀測的個數等分為k部分,每部分當作一個分箱,例如,數值最小的1/k比例的觀測形成第一個分箱等?;趉均值聚類的分箱:使用k均值聚類法將觀測值聚為k類,但在聚類過程中需要保證分箱的有序性:第一個分箱中所有觀測值都要小于第二個分箱中的觀測值,第二個分箱中所有觀測值都要小于第三個分箱中的觀測值等。通過直方圖分析離散化像分箱一樣,直方圖分析也是一種無監(jiān)督的離散化技術,因為它也不使用類信息。直方圖把屬性A的值劃分成不相交的區(qū)間,被稱作桶或箱。通過聚類、決策樹和相關性分析離散化聚類分析是一種常見的離散化方法,通過將屬性A的值劃分成簇或組。聚類算法可以用來離散化數值屬性A。聚類考慮A的分布及數據點的鄰近性,因此可以產生高質量的離散化結果。3.3通過離散化變換數據圖5-2基于聚類分析的數據離散化由用戶或專家在模式級顯式地說明屬性的部分序通常分類屬性或維的概念分層涉及一組屬性,用戶或專家在模式級通過說明屬性的部分序或全序,可以很容易地定義概念分層。通過顯式數據分組說明分層結構的一部分這基本上是人工定義概念分層結構的一部分。在大型數據庫中,通過顯式的值枚舉定義整個概念分層是不現實的,然而對一小部分中間層數據,我們可以很容易地顯式說明分組。說明屬性集,但不說明它們的偏序用戶可以說明一個屬性集,形成概念分層,但并不顯式說明它們的偏序,然后系統可以試圖自動地產生屬性的序,構造有意義的概念分層。只說明部分屬性集在定義分層時,用戶可能對分層結構中應當包含什么只是有一個很模糊的想法,或者說用戶在分層結構的說明中只包含了相關屬性的一部分。3.4標稱數據的概念分層基于規(guī)則的實體識別方法利用相似函數度量數據實體之間的相似性是解決實體識別問題的重要思路,然而大多數時候,我們無法在現實世界中找到一個完美的相似性度量函數來衡量實體之間的相似性。因此我們需要利用語義規(guī)則引入額外的專家用戶信息,引導實體識別過程。結合語義規(guī)則的方法可以修正相似函數產生的誤差,提高識別的精度,該方法的極限情況是完全用語義規(guī)則來解決實體識別問題?;诮y計方法的實體識別常規(guī)的統計方法需要設置參數或者給定訓練數據,而有專家提出了一種兩階段的統計學習方法,可完全自動地執(zhí)行實體識別過程,其思想是將第一階段在數據實體上兩兩匹配結果中較好的一部分抽取出來,并將其作為第二階段的支持向量機方法的訓練數據。該工作基于最近鄰方法和支持向量機方法分別給出了對應的實體識別算法。4.1實體識別問題圖5-3數據集成過程標稱數據的卡方相關檢驗數值數據的相關系數數值數據的協方差4.2冗余和相關分析數據準備數據準備階段又稱為數據的預處理階段,在相似重復數據檢測工作中用來解決結構方面的異質問題,從而使得來自不同數據源的數據以統一的方式存儲在一個數據庫中,主要包括解析、數據轉換和標準化等階段。減小查詢空間由于數據庫存儲的信息量巨大,如果所有的元組都進行相似重復檢測,不僅耗費大量的時間,而且效率也比較低,因此通常使用啟發(fā)式的搜索方法來縮小檢測的空間。相似重復記錄的識別雖然在數據準備階段對數據進行了一系列的標準化操作,但是記錄中還是會存在一些語義上或者語法上的不規(guī)范,因此需要使用一些技術手段進一步對相似重復記錄進行檢測。驗證為了驗證檢測方法的有效性和準確性,有專家制定了查準率和查全率兩個度量標準。如果對于檢測的結果不滿意,則需要進一步設定更合適的閾值,采用更合適的方法重新處理,以達到滿意的效果。4.3元組重復在數據庫集成領域內建立異構數據源之間的語義互操作越來越成為一個核心問題,而語義互操作問題最后歸結為解決數據沖突的問題,這是數據集成最主要的任務。數據沖突包括模式層次和語義層次上的沖突,相比較而言,后者更難解決。在異構和分布式數據庫系統中,各局部數據庫均是獨立運行、獨立管理的,具有自治性,因而造成局部數據庫的數據彼此之間的語義和數據值有可能不一致,造成各局部數據庫中的數據源沖突,從而使得對象的描述產生二義性。語義互操作問題一般有兩種解決方法:全局模式和域本體方法。全局模式方法通過構建一個全局模式來建立全局模式和局部數據源模式之間的映射關系,這種方法的缺點是嚴重依賴相關的應用系統或者是參與的局部數據源模式。域本體方法是利用機器可理解的概念以及概念之間的關系,這些概念和概念之間的關系用一個共享本體來表示,各個數據源都可以理解該本體的含義。這種方法中的知識在特定的域當中,但是獨立于特定的應用系統和模式。在這種方法中還需要輔助工具來捕獲和表示各種知識,從而解決語義沖突。4.4數據值沖突的檢測與處理特征選擇是一個很重要的數據預處理過程,主要作用有以下兩點:選擇出重要的特征,緩解維數災難問題以及去除不相關特征以及降低學習任務的難度。特征選擇的基本框架如下圖5-4所示。雖然現實中存在特征不足和特征冗余兩種情況,但是在實際應用中,往往都是特征冗余的情況,需要我們減少一些特征。5.1特征選擇圖5-4特征選擇的基本流程根據特征選擇的形式又可以將特征選擇方法分為3種:過濾法,按照發(fā)散性或者相關性對各個特征進行評分,設定閾值或者待選擇閾值的個數,選擇特征。包裹法,根據目標函數,每次選擇若干特征或者排除若干特征,直到選擇出最佳的子集。嵌入法,先使用某些機器學習的算法和模型進行訓練,得到各個特征的權值系數,根據系數從大到小選擇特征。類似于過濾法,但是通過訓練來確定特征的優(yōu)劣。5.1特征選擇圖5-5過濾算法的基本原理線性降維方法主成分分析主成分分析(PrincipalComponentsAnalysis,PCA)是最重要的降維方法之一。在數據壓縮消除冗余和數據噪音消除等領域都有廣泛的應用。線性判別在自然語言處理領域,隱含狄利克雷分布(LatentDirichletAllocation,LDA)是一種處理文檔的主題模型。基于核函數的非線性降維方法核主成分分析核主成分分析(KernelPrincipalComponentsAnalysis,KPCA)利用核技巧將d維線性不可分的輸入空間映射到線性可分的高維特征空間中,然后對特征空間進行PCA降維,將維度降到d'維,并利用核技巧簡化計算。5.2維度約減基于特征值的非線性降維方法等度量映射等度量映射(IsometricMapping,LSOMAP)算法引進了鄰域圖,樣本只與其相鄰的樣本連接,他們之間的距離可直接計算,較遠的點可通過最小路徑算出距離,在此基礎上進行降維保距。局部線性嵌入局部線性嵌入(LocallyLinearEmbedding,LLE)在處理所謂流形降維的時候,效果比PCA要好很多。拉普拉斯特征映射拉普拉斯特征映射(LaplacianEigenmaps,LE)與LLE算法有些相似,是從局部近似的角度去構建數據之間的關系。局部保留投影算法局部保留投影算法(LocalityPreservingProjections,LPP)主要是通過線性近似LE算法來保留的是局部信息。5.2維度約減謝謝!第六章數據回歸分析大數據管理與應用——主編:王剛副主編:劉婧、邵臻數據回歸分析作為大數據分析中的一個重要的分支,在管理科學,社會經濟學領域中被廣泛使用。在本章中您將了解數據回歸分析的整體概述,掌握常用的回歸分析方法包括線性回歸分析,嶺回歸分析和LASSO回歸分析,廣義線性回歸,非線性回歸的基本概念以及建模過程。數據回歸分析概述線性回歸分析嶺回歸和LASSO回歸分析廣義線性回歸分析非線性回歸分析第六章

數據回歸分析01數據回歸分析概述02線性回歸分析03嶺回歸和LASSO回歸分析04廣義線性回歸分析05非線性回歸分析

1.1回歸分析概念回歸描述了兩種及兩種以上的變量間的相關關系。按照涉及的特征變量的多少,可以將回歸分為一元回歸分析和多元回歸分析;按照變量間的關系類型,分為線性回歸分析和非線性回歸分析。嶺回歸分析及LASSO分析是基于正則化的回歸方法。并且,由于線性回歸模型通常需要滿足樣本標簽服從正態(tài)分布的假設前提,然而在實際問題中,樣本標簽的分布有時并不能滿足上述假設,因而可以用來分析連續(xù)型樣本標簽和任意型特征變量之間關系的廣義線性回歸方法,也是回歸分析中的一類經典方法。1.2回歸分析的基本類型變量間關系變量的數量回歸類型線性回歸單個樣本標簽,單個特征變量一元線性回歸單個樣本標簽,多個特征變量多元線性回歸多個樣本標簽,多個特征變量多個樣本標簽與多個特征變量的回歸非線性回歸單個樣本標簽,單個特征變量一元非線性回歸單個樣本標簽,單個特征變量多元非線性回歸表6-1回歸分析基本類型回歸分析方法是用來研究變量間關系,結構分析以及模型預測的有效工具,在經濟,管理,金融等各個領域中應用廣泛。從回歸分析方法應用的形式來看,回歸分析方法可以描述各個變量之間的關系,研究對樣本標簽造成影響的最主要因素,其影響方向以及影響程度等?;貧w分析方法可以進行結構分析,即利用回歸模型的回歸系數來解釋各變量之間的數量關系?;貧w分析方法通常是利用歷史數據對已經發(fā)生的現象活動進行模擬,找出變化的規(guī)律,進而通過特征變量在未來一段時間的估計值來預測樣本標簽,達到模型預測的目的。從回歸分析方法應用的場景來看,回歸分析方法的應用涉及多個方面,是輔助管理決策的有效工具。回歸分析方法是進行人口預測分析的一類經典方法回歸分析方法在輔助市場參與者進行需求預測以及規(guī)劃倉儲方案上具有實際的應用利用學生的校園行為數據,結合回歸分析方法,可以優(yōu)化學生培養(yǎng)和管理工作。1.3回歸分析的應用線性回歸(LinearRegression)是回歸分析方法中的一類,主要是對一個或多個特征變量和樣本標簽之間的關系進行建模的一種回歸分析方法。在線性回歸過程中,使用線性回歸方程對已知數據進行建模,并利用這些數據對未知的模型參數進行估計,最終模擬關于特征變量和樣本標簽的線性變化關系。線性回歸函數是一個或多個回歸系數與特征變量的線性組合,當線性回歸函數中只有一個特征變量時稱之為一元線性回歸,當有大于一個特征變量的情況稱之為多元線性回歸。實現方法直接,建模速度快,計算簡單??山忉屝詮?,各個特征變量對樣本標簽的影響強弱都可以通過特征變量前面的系數進行體現。對特征變量和樣本標簽之間的相關性進行量化,識別出與樣本標簽不相關的特征變量以及對樣本標簽具有重要影響力的特征變量。2.1線性回歸分析概述線性回歸分析的應用場景廣泛,在金融預測、經濟預測以及探究觀測數據的因果關系的觀察性研究中被普遍應用。

2.2線性回歸分析建模過程圖6-1一元線性回歸模型

2.2線性回歸分析建模過程

2.2線性回歸分析建模過程

2.2線性回歸分析建模過程

2.2線性回歸分析建模過程

2.2線性回歸分析建模過程

3.1嶺回歸分析

3.1嶺回歸分析

3.1嶺回歸分析

3.1嶺回歸分析嶺回歸的算法偽代碼:3.1嶺回歸分析LASSO回歸分析概述LASSO(LeastAbsoluteShrinkageandSelectionOperator),是由1996年RobertTibshirani首次提出,其主要是通過在最小二乘法的基礎上添加一個懲罰函數,壓縮回歸系數,使得其同時具有子集選擇和嶺回歸的優(yōu)點。LASSO回歸的主要思想是通過限制回歸系數絕對值之和小于某個固定值來實現對最小二乘的約束,其同時能夠使一些回歸系數為零,從而實現其變量選擇的作用。由此可以看出,LASSO具有較好的防止過擬合的作用。因為在樣本的特征變量過多的情況下,通過訓練模型能夠較好地擬合訓練數據,達到損失函數接近于0,而這一過程也會造成使訓練的模型無法在新的數據樣本中繼續(xù)保持較好的預測效果。在這種情況下,LASSO通過加入正則項,對樣本的特征變量實現變量選擇的作用,降低在訓練模型過程中的過擬合風險。3.2LASSO回歸分析

3.2LASSO回歸分析

3.2LASSO回歸分析

3.2LASSO回歸分析圖6-3LASSO及嶺回歸模型示意圖

3.2LASSO回歸分析

4.1廣義線性回歸分析概述

4.1廣義線性回歸分析概述

4.2泊松回歸分析

4.2泊松回歸分析

4.2泊松回歸分析

4.2泊松回歸分析非線性回歸是線性回歸分析的一種擴展,當非線性回歸中只有單個特征變量時稱為一元非線性回歸,當含有多個特征變量時則稱為多元非線性回歸。非線性回歸問題一般可分為將非線性變換成線性和不能變換成線性兩大類。常用的可轉換為線性回歸模型的非線性回歸模型有冪函數,指數函數,對數函數等,各非線性函數表達式。5.1非線性回歸分析概述表6-2可轉換為線性函數的非線性函數

5.2指數函數模型

5.2指數函數模型圖6-4指數函數模型圖

5.2指數函數模型

5.2指數函數模型謝謝!第七章數據分類分析大數據管理與應用——主編:王剛副主編:劉婧、邵臻分類分析是一種對離散標簽進行預測的監(jiān)督學習方法,其目的是從給定的分類訓練數據中學習分類模型,數據分類分析在許多場景下都有重要應用,如客戶流失預測、客戶信用風險等級預測和國家電網客戶用電異常行為分析等。在本章中您將了解數據分類分析的基本概念,掌握數據分類分析的六種基本類型及其典型方法,并了解數據分類分析如何應用于實際場景。數據分類分析概述基于函數的分類分析基于概率的分類分析基于最近鄰的分類分析基于決策樹的分類分析基于規(guī)則的分類分析集成分類分析第七章

數據分類分析01數據分類分析概述02基于函數的分類分析03基于概率的分類分析04基于最近鄰的分類分析05基于決策樹的分類分析06基于規(guī)則的分類分析07集成分類分析

1.1分類分析基本概念分類分析的基本類型主要可以分為以下六類:基于函數的分類分析基于概率的分類分析基于最近鄰的分類分析基于決策樹的分類分析基于規(guī)則的分類分析集成分類分析1.2分類分析基本類型客戶流失預測企業(yè)利用大量的銷售數據構建客戶流失分類模型,幫助業(yè)務人員識別哪些客戶有流失的風險,并找出客戶流失的原因,從而公司能夠及時采取相應的措施挽留客戶??蛻粜庞蔑L險等級預測銀行基于客戶的基本信息、銀行流水記錄和借貸信息等相關數據構建信用風險等級分類模型,對客戶的信用風險等級進行劃分,從而確保信用風險較低的客戶能夠得到貸款。國家電網客戶用電異常行為分析電網公司通過收集海量的用電數據構建用電行為特征,如周統計指標、月統計指標和季度用電量等,并基于這些特征來構建客戶用電異常行為分類模型,從而保證正常的供電秩序。其他領域電子商城的優(yōu)惠券使用預測、商品圖片分類、中文語料的類別分析和情感分析、基于文本內容的垃圾短信識別、自動駕駛場景中的交通標志檢測、監(jiān)控場景下的行人精細化識別等。1.3分類分析的應用

2.1基于函數的分類分析的概念

2.2Logistic回歸模型

2.2Logistic回歸模型

2.2Logistic回歸模型圖7-1邏輯函數的圖像

2.2Logistic回歸模型圖7-2交叉熵損失函數的圖像

2.2Logistic回歸模型

3.1基于概率的分類分析的概念樸素貝葉斯模型概述樸素貝葉斯模型是一種簡單而高效的分類模型,可以基于貝葉斯定理和條件獨立假設計算出待分類項在其當前條件下各個可能類別出現的概率,并將取得最大值的那個類別作為最終輸出結果。樸素貝葉斯模型主要的思想就是在已給定特征屬性值的前提下找到出現概率最大的類別標簽。“樸素”是指其在估計類條件概率時假設各個特征屬性之間條件獨立,這也是其易于操作的原因。3.2樸素貝葉斯模型

3.2樸素貝葉斯模型

3.2樸素貝葉斯模型

3.2樸素貝葉斯模型基于K最近鄰(K-NearestNeighbor,KNN)的分類分析將一組已分類點中最接近的分類分配給一個未分類的樣本點,與其他分類方法不同,最近鄰分類法是一種惰性學習方法,不需要在給定樣本的基礎上進行訓練,而是在給出需要預測的新樣本后,通過新樣本最鄰近的樣本標簽來確定其預測分類。最近鄰分類分析是一種非參數方法,比較簡單、直觀、易于實現。為了解決最近鄰算法對噪聲數據過于敏感的缺陷,可以采用擴大參與決策的樣本量的方法,使用K個鄰近點進行決策,形成了KNN分類法。KNN分類法可以生成任意形狀的決策邊界,較其他分類器更為靈活,特別適合于多分類問題,目前該方法已廣泛應用于新聞文本分類和遙感圖像分類等。4.1基于最近鄰的分類分析的概念KNN模型概述KNN分類法是一種基于樣本的惰性學習方法。如果一個樣本在特征空間中的K個最鄰近的樣本中的大多數屬于某一個類別,則該樣本也屬于這個類別。KNN算法的基本思想:假設給定一個訓練數據集,其中的樣本類別已定,對于新的樣本,根據其K個最近鄰的訓練樣本的類別,通過多數表決等方式來進行預測,輸出為預測新樣本的類別標簽。4.2KNN模型

4.2KNN模型

4.2KNN模型KNN的分類決策規(guī)則一般使用多數投票法,即根據離樣本最近的K個訓練樣本中的多數類,決定預測樣本類別。此外,還可以根據距離遠近進行加權投票,距離越近的樣本權重越大。算法KNN模型的算法偽代碼:4.2KNN模型決策樹模型是一種呈樹形結構的機器學習模型,它由一個根節(jié)點、若干個內部節(jié)點和葉節(jié)點構成,其中,根節(jié)點和內部節(jié)點表示特征,葉節(jié)點則表示類標簽。從根節(jié)點到一個葉節(jié)點對應了一條判定規(guī)則,決策樹模型的學習目標就是通過遞歸的手段對特征空間進行劃分,從而構造一個從根節(jié)點聯通到不同葉節(jié)點的決策樹。因此,在分類問題中,決策樹模型可以認為是if-then規(guī)則的集合。最早的決策樹模型由Hunt等人于1966年提出,該模型也是許多決策樹模型的基礎,包括ID3、C4.5、C5.0和CART(ClassificationAndRegressionTrees)等。決策樹模型的學習分為特征選擇、決策樹生成和決策樹剪枝三個步驟。特征選擇是決策樹模型進行特征空間劃分的依據,也是構建決策樹模型的核心。Quinlan提出的ID3和C4.5模型分別使用信息增益(InformationGain)和信息增益率(InformationGainRatio)進行特征選擇,Breiman等人提出的CART模型則使用了基尼(Gini)系數作為特征選擇的依據。5.1基于決策樹的分類分析的概念ID3決策樹模型概述ID3決策樹模型是一種通過信息增益對特征空間進行劃分的決策樹模型。ID3模型的主要思想就是使得最終的葉結點中的樣本盡可能為同類樣本,即樣本盡可能“純”。但是決策樹無法直接得到整個模型的結構,需要采用遞歸算法通過選擇特征不斷地對特征空間進行切分,使得切分后得到的子樣本集盡可能“純”。ID3決策樹模型引進信息熵理論描述樣本的“不純度”,即使用信息增益選擇最優(yōu)劃分特征。5.2ID3決策樹模型

5.2ID3決策樹模型

5.2ID3決策樹模型算法為使得損失函數最小,需要使得決策樹總體的熵最小,因此決策樹模型的優(yōu)化算法是一個使決策樹的熵不斷減少的過程。ID3算法采用“分而治之”策略進行優(yōu)化,并采用信息增益作為衡量熵減少的程度。決策樹模型的算法偽代碼:5.2ID3決策樹模型

6.1基于規(guī)則的分類分析的概念

6.2RIPPER模型

6.2RIPPER模型算法RIPPER算法主要分為兩個步驟,第一步是規(guī)則集的生成,第二步是規(guī)則集的優(yōu)化。RIPPER模型能夠通過局部優(yōu)化方式得到規(guī)則集,然后通過全局優(yōu)化的方式緩解了局部優(yōu)化的局限性,因而能夠取得比較好的學習效果。RIPPER算法的偽代碼:6.2RIPPER模型集成分類模型通過訓練并組合多個分類器的優(yōu)勢來提升性能,這種組合模型也被稱為“委員會”(Committee)。集成分類模型一般包括兩個步驟,首先通過訓練集生成一組基分類器(BaseClassifier),然后對基分類器的預測結果進行組合。根

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論