




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第一章緒論大數(shù)據(jù)管理與應用——隨著新一代信息技術(shù)的不斷發(fā)展,數(shù)據(jù)在人們的生活中起到愈來愈重要的作用,人類社會已經(jīng)進入大數(shù)據(jù)時代。大數(shù)據(jù)時代產(chǎn)生了許多基于海量數(shù)據(jù)挖掘和分析的新模式,大數(shù)據(jù)及其相關(guān)技術(shù)對政治、經(jīng)濟以及文化領(lǐng)域產(chǎn)生了重要影響,人們的思維和決策方式同樣也迎來了巨大變革。在本章中您將了解大數(shù)據(jù)時代的主要背景,掌握數(shù)據(jù)和大數(shù)據(jù)的概念及其特征,并了解大數(shù)據(jù)管理和應用,理解大數(shù)據(jù)管理與應用的理論、技術(shù)和應用體系。大數(shù)據(jù)時代數(shù)據(jù)和大數(shù)據(jù)大數(shù)據(jù)管理與應用概述大數(shù)據(jù)管理與應用的理論、技術(shù)和應用體系第一章
緒論01大數(shù)據(jù)時代02數(shù)據(jù)和大數(shù)據(jù)03大數(shù)據(jù)的管理與應用概述04大數(shù)據(jù)管理與應用的理論技術(shù)和應用體系云計算、物聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)、社交媒體等新型信息技術(shù)和應用模式快速發(fā)展,信息技術(shù)與人類世界的各個領(lǐng)域相互滲透,不斷融合,數(shù)據(jù)成為人類生產(chǎn)活動必不可少的一部分。人類社會已經(jīng)邁入一個新的時代——大數(shù)據(jù)時代。麥肯錫稱:“數(shù)據(jù),已經(jīng)滲透到當今每一個行業(yè)和業(yè)務職能領(lǐng)域,成為重要的生產(chǎn)因素。如今,大數(shù)據(jù)及其相關(guān)技術(shù)受到媒體、政府以及各個行業(yè)領(lǐng)域的高度關(guān)注數(shù)據(jù)正在迅速膨脹,它決定著許多傳統(tǒng)行業(yè)的未來。根據(jù)國際權(quán)威機構(gòu)Statista的預測,到2035年,全球數(shù)據(jù)產(chǎn)生量將達到2142ZB,全球數(shù)據(jù)量的規(guī)模將會爆發(fā)式增長?;ヂ?lián)網(wǎng)數(shù)據(jù)并非單純指互聯(lián)網(wǎng)上存在的數(shù)據(jù),還包括一些信息采集設備上傳的數(shù)據(jù)。大數(shù)據(jù)相關(guān)技術(shù)讓大量的數(shù)據(jù)成為了新的重要生產(chǎn)要素,它通過技術(shù)的創(chuàng)新與發(fā)展以及數(shù)據(jù)的全面感知、收集、分析、共享,使人們更多地基于事實與數(shù)據(jù)做出決策。社會不再僅僅依賴經(jīng)驗和慣性思維進行管理和運作,遵循數(shù)據(jù)的管理和運作模式逐漸成為社會主流。1.1大數(shù)據(jù)時代的背景大數(shù)據(jù)時代的思維變革從數(shù)據(jù)分析的角度來說,要完成從“小樣本”到“整體”的轉(zhuǎn)變,要分析與某事物相關(guān)的所有數(shù)據(jù),而不是依靠分析少量的數(shù)據(jù)樣本。關(guān)于數(shù)據(jù)的質(zhì)量,數(shù)據(jù)精確性不再是唯一標準,多樣化、異構(gòu)的數(shù)據(jù)同樣值得分析和處理。在思維上需要產(chǎn)生轉(zhuǎn)變,不再探求難以捉摸的因果關(guān)系,轉(zhuǎn)而關(guān)注事物的相關(guān)關(guān)系。大數(shù)據(jù)時代的商業(yè)變革大數(shù)據(jù)同樣對企業(yè)競爭力甚至是行業(yè)結(jié)構(gòu)產(chǎn)生了巨大影響,大數(shù)據(jù)時代的數(shù)據(jù)將會成為企業(yè)核心競爭力的重要組成部分。大數(shù)據(jù)時代的管理變革我們需要全新的制度規(guī)范,而不是修改原有規(guī)范的適用范圍1.2大數(shù)據(jù)時代的巨大變革數(shù)據(jù)概念數(shù)據(jù)是指以定性或者定量的方式來描述事物的符號記錄,是可定義為有意義的實體,它涉及事物的存在形式。數(shù)據(jù)模型按照應用層次和建模目的,數(shù)據(jù)模型分為三種基本類型:概念數(shù)據(jù)模型﹑邏輯數(shù)據(jù)模型和物理數(shù)據(jù)模型。需要注意數(shù)據(jù)模型的層次性。不同層次的數(shù)據(jù)模型之間存在一定的對應關(guān)系,可以進行相互轉(zhuǎn)換2.1數(shù)據(jù)圖1-1數(shù)據(jù)模型的層次數(shù)據(jù)維度可以從三個不同維度分析數(shù)據(jù)類型及其特征。從數(shù)據(jù)的結(jié)構(gòu)化程度看,可以分為:結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)三種。2.1數(shù)據(jù)表1-1結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的區(qū)別與聯(lián)系類型含義本質(zhì)舉例結(jié)構(gòu)化數(shù)據(jù)直接可以用傳統(tǒng)關(guān)系數(shù)據(jù)庫存儲和管理的數(shù)據(jù)先有結(jié)構(gòu),后有數(shù)據(jù)關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)無法用關(guān)系數(shù)據(jù)庫存儲和管理的數(shù)據(jù)沒有(或難以發(fā)現(xiàn))統(tǒng)—結(jié)構(gòu)的數(shù)據(jù)語音、圖像文件等半結(jié)構(gòu)化數(shù)據(jù)經(jīng)過一定轉(zhuǎn)換處理后可以用關(guān)系數(shù)據(jù)庫存儲和管理的數(shù)據(jù)先有數(shù)據(jù),后有結(jié)構(gòu)(或較容易發(fā)現(xiàn)其結(jié)構(gòu))HTML、XML文件等從數(shù)據(jù)的加工程度看,分為:零次數(shù)據(jù)、一次數(shù)據(jù)、二次數(shù)據(jù)和三次數(shù)據(jù)。從數(shù)據(jù)的抽象或封裝程度看,可分為:數(shù)據(jù)、元數(shù)據(jù)和數(shù)據(jù)。對象三個層次2.1數(shù)據(jù)圖1-2數(shù)據(jù)的加工程度圖1-3
數(shù)據(jù)的封裝數(shù)據(jù)特征:數(shù)據(jù)不為人類所控制、數(shù)據(jù)具有未知性及數(shù)據(jù)具有多樣性和復雜性。大數(shù)據(jù)概念大數(shù)據(jù)是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。(權(quán)威研究機構(gòu)Gartner)大數(shù)據(jù),或稱巨量資料,指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工在合理時間內(nèi)截取、管理、處理,并整理成為人類所能解讀的信息。(維基百科)用四個特征來描述大數(shù)據(jù),即規(guī)模性(Volume)、高速性(Velocity)、多樣性(Variety)和真實性(Veracity),這些特征相結(jié)合,定義了IBM所稱的“大數(shù)據(jù)”。(IBM)大數(shù)據(jù)是一類能夠反映物質(zhì)世界和精神世界的運動狀態(tài)和狀態(tài)變化的信息資源,它具有決策有用性、安全危害性以及海量性、異構(gòu)性、增長性、復雜性和可重復開采性,一般都具有多種潛在價值。(管理的角度)2.2大數(shù)據(jù)大數(shù)據(jù)特征Volume(規(guī)模性)當數(shù)據(jù)量達到PB級以上,一般稱為“大”的數(shù)據(jù)。Variety(多樣性)數(shù)據(jù)多樣性是指大數(shù)據(jù)存在多種類型的數(shù)據(jù),不僅包括結(jié)構(gòu)化數(shù)據(jù),還包括非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。Value(價值密度低)在大數(shù)據(jù)中,價值密度的高低與數(shù)據(jù)總量的大小之間并不存在線性關(guān)系,有價值的數(shù)據(jù)往往被淹沒在海量無用數(shù)據(jù)之中。Velocity(高速性)大數(shù)據(jù)中所說的“速度”包括兩種—增長速度和處理速度。2.2大數(shù)據(jù)大數(shù)據(jù)的來源和產(chǎn)生方式大數(shù)據(jù)的來源信息管理系統(tǒng):企業(yè)內(nèi)部使用的信息系統(tǒng),包括辦公自動化系統(tǒng)、業(yè)務管理系統(tǒng)等。網(wǎng)絡信息系統(tǒng):基于網(wǎng)絡運行的信息系統(tǒng)即網(wǎng)絡信息系統(tǒng)是大數(shù)據(jù)產(chǎn)生的重要方式,如電子商務系統(tǒng)、社交網(wǎng)絡、社會媒體、搜索引擎等都是常見的網(wǎng)絡信息系統(tǒng)。物聯(lián)網(wǎng)系統(tǒng):物聯(lián)網(wǎng)是新一代信息技術(shù),其核心和基礎(chǔ)仍然是互聯(lián)網(wǎng),是在互聯(lián)網(wǎng)基礎(chǔ)上的延伸和擴展的網(wǎng)絡??茖W實驗系統(tǒng):主要用于科學技術(shù)研究,可以由真實的實驗產(chǎn)生數(shù)據(jù),也可以通過模擬方式獲取仿真數(shù)據(jù)。2.2大數(shù)據(jù)大數(shù)據(jù)的來源和產(chǎn)生方式產(chǎn)生大數(shù)據(jù)的方式被動式生成數(shù)據(jù):數(shù)據(jù)庫技術(shù)使得數(shù)據(jù)的保存和管理變得簡單,業(yè)務系統(tǒng)在運行時產(chǎn)生的數(shù)據(jù)可以直接保存到數(shù)據(jù)庫中,由于數(shù)據(jù)是隨業(yè)務系統(tǒng)運行而產(chǎn)生的,因此該階段所產(chǎn)生的數(shù)據(jù)是被動的。主動式生成數(shù)據(jù):物聯(lián)網(wǎng)的誕生,使得移動互聯(lián)網(wǎng)的發(fā)展大大加速了數(shù)據(jù)的產(chǎn)生。例如,人們可以通過手機等移動終端,隨時隨地產(chǎn)生數(shù)據(jù)。感知式生成數(shù)據(jù):物聯(lián)網(wǎng)的發(fā)展使得數(shù)據(jù)生成方式得以徹底的改變。例如遍布在城市各個角落的攝像頭等數(shù)據(jù)采集設備源源不斷地自動采集并生成數(shù)據(jù)。2.2大數(shù)據(jù)3.1數(shù)據(jù)生產(chǎn)要素經(jīng)濟學理論中講的生產(chǎn)要素是社會在進行生產(chǎn)活動時所需要的種種社會資源。所以要將大數(shù)據(jù)界定為資源,首先要界定其為一種生產(chǎn)要素。界定某種事物為生產(chǎn)要素,要看其在己有的經(jīng)營決策下是否參與價值創(chuàng)造,益于降低成本,提高收益率。大數(shù)據(jù)一方面有助于人們科學決策,另一方面會導致具體的項目活動成本以及收益的變動,可以說大數(shù)據(jù)促進了價值創(chuàng)造。所以,大數(shù)據(jù)可以被界定為一種新的生產(chǎn)要素,即大數(shù)據(jù)就是資源。隨著大數(shù)據(jù)技術(shù)與各領(lǐng)域的融合,社會對其認識也日益加深,大數(shù)據(jù)作為一種資產(chǎn)、資源已成共識。3.2大數(shù)據(jù)管理大數(shù)據(jù)資源的獲取問題正如自然資源開發(fā)和利用之前需要探測,大數(shù)據(jù)資源開發(fā)和應用的前提也是有效地獲取。大數(shù)據(jù)資源的安全性問題豐富的原始數(shù)據(jù)涉及個人隱私和企業(yè)隱私,因此政府需要制定相應的法律法規(guī)來保證原始數(shù)據(jù)開采的安全性,企業(yè)和個人也應利用安全防護技術(shù)來保障數(shù)據(jù)的安全。大數(shù)據(jù)資源的所有權(quán)問題通過有效的管理機制來界定大數(shù)據(jù)資源的所有權(quán)和使用權(quán)是至關(guān)重要的管理問題。大數(shù)據(jù)資源的類型描述私有大數(shù)據(jù)(privateBigData)私有大數(shù)據(jù)是由于安全性或保密性等特殊要求限制,僅能由某些特定企業(yè)或組織所有、開發(fā)和利用的大數(shù)據(jù)資源公有大數(shù)據(jù)(publicBigData)公有大數(shù)據(jù)是可以由公眾共享的大數(shù)據(jù)資源,公有大數(shù)據(jù)可以為大數(shù)據(jù)相關(guān)科學研究的開展提供便利混合大數(shù)據(jù)(hybridBigData)混合大數(shù)據(jù)介于私有大數(shù)據(jù)和公有大數(shù)據(jù)之間,可以通過交易、購買或轉(zhuǎn)讓等方式在私有大數(shù)據(jù)和公有大數(shù)據(jù)之間轉(zhuǎn)換表1-2不同類型大數(shù)據(jù)資源的簡要描述3.2大數(shù)據(jù)管理大數(shù)據(jù)資源的產(chǎn)業(yè)鏈發(fā)展問題大數(shù)據(jù)資源的完整產(chǎn)業(yè)鏈包括數(shù)據(jù)的采集、存儲、挖掘、管理、交易、應用和服務等。大數(shù)據(jù)資源產(chǎn)業(yè)鏈的發(fā)展還會催生新的產(chǎn)業(yè),如大數(shù)據(jù)資源的交易會促使以大數(shù)據(jù)資源經(jīng)營為主營業(yè)務的大數(shù)據(jù)資源中間商和供應商的出現(xiàn)。對大數(shù)據(jù)產(chǎn)業(yè)發(fā)展問題的研究是實現(xiàn)大數(shù)據(jù)潛在商業(yè)價值的重要環(huán)節(jié),而大數(shù)據(jù)產(chǎn)業(yè)發(fā)展中面臨著一系列比傳統(tǒng)商業(yè)環(huán)境下更復雜的優(yōu)化問題、決策問題、預測問題和評估問題等。3.3大數(shù)據(jù)應用大數(shù)據(jù)在制造領(lǐng)域的應用在制造業(yè)大規(guī)模定制中的應用包括數(shù)據(jù)采集、數(shù)據(jù)管理、訂單管理、智能化制造、定制平臺等。大數(shù)據(jù)在商務領(lǐng)域的應用大數(shù)據(jù)時代的電子商務,經(jīng)營模式由傳統(tǒng)的管理化的運營模式變?yōu)橐孕畔橹黧w的數(shù)據(jù)化運營模式。大數(shù)據(jù)在金融領(lǐng)域的應用信用評價、風控管理、客戶畫像和精準營銷等。大數(shù)據(jù)在醫(yī)療領(lǐng)域的應用不僅可以實現(xiàn)對流行疾病的爆發(fā)趨勢的預測,也能夠為患者提供更加便利的服務。大數(shù)據(jù)在能源領(lǐng)域的應用將電力、石油、燃氣等能源領(lǐng)域數(shù)據(jù)進行綜合采集、處理、分析與應用。大數(shù)據(jù)在政府管理領(lǐng)域的應用政府公共服務的效率提高,政府向民眾提供的服務更加優(yōu)質(zhì)、更加高效。4.1大數(shù)據(jù)管理與應用的理論體系大數(shù)據(jù)管理與應用工作的理論體系,以統(tǒng)計、領(lǐng)域知識和機器學習為基礎(chǔ)和引領(lǐng),同時依靠相應的存儲、計算和網(wǎng)絡平臺,對內(nèi)部和外部的各類大數(shù)據(jù)和信息進行采集、管理和分析,以創(chuàng)造的洞察,并形成數(shù)據(jù)可視化展示,為相關(guān)人員提供支持。圖1-4大數(shù)據(jù)管理與應用的理論體系4.2大數(shù)據(jù)管理與應用的技術(shù)體系大數(shù)據(jù)管理與應用的技術(shù)體系以數(shù)據(jù)資產(chǎn)為核心,包含問題理解、數(shù)據(jù)理解、數(shù)據(jù)處理、模型建立、模型評估和模型部署六個環(huán)節(jié)。圖1-5大數(shù)據(jù)管理與應用的技術(shù)體系4.3大數(shù)據(jù)管理與應用的應用體系大數(shù)據(jù)管理與應用的應用體系同樣是以數(shù)據(jù)資產(chǎn)為核心,包含問題理解、數(shù)據(jù)理解、數(shù)據(jù)處理、模型建立、模型評估和分析報告六個環(huán)節(jié)的循環(huán)往復的探索過程圖1-6大數(shù)據(jù)管理與應用的應用體系謝謝!第二章大數(shù)據(jù)管理與應用的數(shù)學基礎(chǔ)大數(shù)據(jù)管理與應用——主編:王剛副主編:劉婧、邵臻線性代數(shù)、優(yōu)化和統(tǒng)計是大數(shù)據(jù)管理與應用的重要數(shù)學基礎(chǔ),大數(shù)據(jù)管理與應用的核心要素是機器學習,機器學習中的數(shù)據(jù)表示、運算規(guī)則、模型性質(zhì)、模型優(yōu)化等均離不開這些數(shù)學基礎(chǔ)。在本章中你將了解線性代數(shù)、優(yōu)化和統(tǒng)計的基本定義,掌握線性代數(shù)、優(yōu)化和統(tǒng)計中的常用方法,從而為后續(xù)深人學習機器學習方法打下基礎(chǔ)。線性代數(shù)基礎(chǔ)優(yōu)化基礎(chǔ)統(tǒng)計基礎(chǔ)第二章大數(shù)據(jù)管理與應用的數(shù)學基礎(chǔ)01線性代數(shù)基礎(chǔ)02優(yōu)化基礎(chǔ)03統(tǒng)計基礎(chǔ)標量(Scalar)是一個單獨的數(shù),它通常使用小寫的斜體變量進行表示。向量(Vector)是一列有序排列的數(shù),它通常使用小寫的粗體變量進行表示。矩陣(Matrix)是一個二維數(shù)組,它通常使用大寫的粗體變量進行表示。張量(Tensor)是坐標超過兩維的數(shù)組。范數(shù)(Norm)在機器學習中有重要的作用,它能夠衡量向量或矩陣的大小,并滿足非負性、齊次性和三角不等式。1.1向量和矩陣
1.2向量和矩陣運算矩陣和向量求導矩陣和向量的導數(shù)有以下常用的運算規(guī)則:矩陣的跡運算的導數(shù)有以下常用運算規(guī)則:1.2向量和矩陣運算
1.3矩陣分解最優(yōu)化問題在現(xiàn)實社會中,人們經(jīng)常遇到這樣一類問題:判別在一個問題的眾多解決方案中什么樣的方案最佳,以及如何找出最佳方案。例如,在資源分配中,如何分配有限資源,使得分配方案既能滿足各方面的需求,又能獲得好的經(jīng)濟效益;在工程設計中,如何選擇設計參數(shù),使得設計方案既能滿足設計要求,又能降低成本等。這類問題就是在一定的限制條件下使得所關(guān)心的指標達到最優(yōu)。最優(yōu)化就是為解決這類問題提供理論基礎(chǔ)和求解方法的一門數(shù)學學科。在量化求解實際最優(yōu)化問題時,首先要把實際問題轉(zhuǎn)化為數(shù)學問題,建立數(shù)學模型。最優(yōu)化數(shù)學模型主要包括三個要素:決策變量和參數(shù)、約束或限制條件、目標函數(shù)。根據(jù)數(shù)學模型中有無約束函數(shù)分類,可分為有約束的最優(yōu)化問題和無約束的最優(yōu)化問題。2.1最優(yōu)化
2.1最優(yōu)化圖2-1凸集的幾何表示
2.1最優(yōu)化
2.2無約束最優(yōu)化問題
2.2無約束最優(yōu)化問題Newton法最速下降法的本質(zhì)是用線性函數(shù)去近似目標函數(shù),可以考慮對目標函數(shù)的高階逼近得到快速算法,Newton法就是通過用二次模型近似目標函數(shù)得到的。具體算法步驟如下:共軛梯度法共軛梯度法的基本思想是在共軛方向法和最速下降法之間建立某種聯(lián)系,以求得到一個既有效又有較好收斂性的算法。擬Newton法擬Newton法不需要二階導數(shù)的信息,有時比牛頓法更為有效。擬Newton法是一類使每步迭代計算量少而又保持超線性收斂的牛頓型迭代法,條件類似于牛頓法。2.2無約束最優(yōu)化問題一般性的約束優(yōu)化問題:約束優(yōu)化問題的最優(yōu)性條件約束優(yōu)化問題的最優(yōu)性條件是指最優(yōu)化問題的目標函數(shù)與約束函數(shù)在最優(yōu)解處應滿足的充分條件、必要條件和充要條件,是最優(yōu)化理論的重要組成部分,對最優(yōu)化算法的構(gòu)造及算法的理論分析都是至關(guān)重要的。Kuhn-Tucker必要條件二階充分條件2.3約束最優(yōu)化問題罰函數(shù)法與乘子法根據(jù)約束的特點,構(gòu)造某種“懲罰”函數(shù),然后把它加到目標函數(shù)中去,將約束問題的求解轉(zhuǎn)化為一系列無約束問題的求解。這種“懲罰”策略將使得一系列無約束問題的極小點或者無限地靠近可行域,或者一直保持在可行域內(nèi)移動,直至迭代點列收斂到原約束問題的最優(yōu)解。這類算法主要有三種:外罰函數(shù)法、內(nèi)罰函數(shù)法和乘子法。外罰函數(shù)法的懲罰策略是對于在無約束問題的求解過程中企圖違反約束的那些迭代點給予很大的目標函數(shù)值,迫使這一系列無約束問題的極小點(迭代點)或者無線的向容許集靠近。2.3約束最優(yōu)化問題罰函數(shù)法與乘子法為使迭代點總是可行點,使迭代點始終保持在可行域內(nèi)移動,可以使用這樣的“懲罰”策略,即在可行域的邊界上豎起一道趨向于無窮大的“圍墻”,把迭代點擋在可行域內(nèi),直到收斂到約束問題的極小點。不過這種策略只適用于不等式約束問題,并且要求可行域內(nèi)點集非空,否則每個可行點都是邊界點,都加上無窮大的懲罰,懲罰方法也就失去了意義。2.3約束最優(yōu)化問題
2.3約束最優(yōu)化問題罰函數(shù)法與乘子法投影梯度法就是利用投影矩陣來產(chǎn)生可行下降方向的方法。它是從一個基本可行解開始,由約束條件確定出凸約束集邊界上梯度的投影,以便求出下次的搜索方向和步長,每次搜索后都要進行檢驗,直到滿足精度要求為止。2.3約束最優(yōu)化問題罰函數(shù)法與乘子法簡約梯度法的基本思想是利用線性約束條件,將問題的某些變量用一組獨立變量表示,來降低問題的維數(shù),利用簡約梯度構(gòu)造下降可行方向進行線性搜索,逐步逼近問題的最優(yōu)解。2.3約束最優(yōu)化問題
3.1概率與統(tǒng)計
3.1概率與統(tǒng)計
3.1概率與統(tǒng)計定量數(shù)據(jù)的圖形描述定量數(shù)據(jù)整理對定量數(shù)據(jù)進行統(tǒng)計分組是數(shù)據(jù)整理中的主要內(nèi)容。根據(jù)統(tǒng)計研究的目的和客觀現(xiàn)象的內(nèi)在特點,按某個標志(或幾個標志)把被研究的總體劃分為若干個不同性質(zhì)的組,稱為統(tǒng)計分組。頻數(shù)分布表反映數(shù)據(jù)整理的結(jié)果信息。將數(shù)據(jù)按其分組標志進行分組的過程,就是頻數(shù)分布或頻率分布形成的過程。單變量定量數(shù)據(jù)的圖形描述將定量數(shù)據(jù)整理成頻數(shù)分布形式后,已經(jīng)可以初步看出數(shù)據(jù)的一些規(guī)律了。直方圖折線圖莖葉圖箱線圖3.2描述性統(tǒng)計定量數(shù)據(jù)的圖形描述多變量定量數(shù)據(jù)的圖形描述實際上往往只對一個變量進行數(shù)據(jù)分析是不能滿足研究目的的,通常把多個變量放在一起來描述,并進行分析比較。在討論兩個變量的關(guān)系時,首先可以對其定義分類。當一個變量可以視為另一個變量的函數(shù)時,稱為相關(guān)變量,通常也稱為反應變量。當一個變量對另一個變量有影響時,稱為獨立變量或解釋變量,通常它是可控的。散點圖是描述兩個數(shù)字變量之間關(guān)系的圖形方法。如果數(shù)據(jù)是在不同時點取得的,稱為時間序列數(shù)據(jù),這時還可繪制線圖和面積圖。對于多組數(shù)據(jù),我們可以依據(jù)同樣的方法來繪制箱線圖,然后將各組數(shù)據(jù)的箱線圖并列起來,以比較其分布特征。當有三個變量或指標時,使用多指標的圖示方法,目前這類圖示方法有雷達圖、臉譜圖、連接向量圖和星座圖等,其中雷達圖最為常用。3.2描述性統(tǒng)計定性數(shù)據(jù)的圖表描述定性數(shù)據(jù)的整理由于定性數(shù)據(jù)用來描述事物的分類,因此對調(diào)查收集的繁雜定性數(shù)據(jù)進行整理時,除了要將這些數(shù)據(jù)進行分類、列出所有類別之外,還要計算每一類別的頻數(shù)、頻率或比率,并將頻數(shù)分布以表格的形式表示出來,作為對定性數(shù)據(jù)的整理結(jié)果,這個表格就是類似于定量數(shù)據(jù)整理中的頻數(shù)分布表。單變量定性數(shù)據(jù)的圖形描述定性數(shù)據(jù)的頻數(shù)分布表可通過頻數(shù)分布表和累積頻數(shù)分布表來表示。如果以相應的圖形來表示這些分布表,則會使我們對數(shù)據(jù)特征及分布有更直觀和形象的了解。條形圖餅圖帕雷托圖3.2描述性統(tǒng)計定性數(shù)據(jù)的圖形描述多變量定性數(shù)據(jù)的圖形描述在管理實踐中,不同現(xiàn)象之間總有聯(lián)系,不可能是獨立的。因此,研究多個定性變量之間定性數(shù)據(jù)的圖形表示,對進行深入的統(tǒng)計分析,如回歸分析、聚類分析、因子分析等有重要的基礎(chǔ)意義。環(huán)形圖(CircleChart)能顯示具有相同分類且問題可比的多個樣本或總體中各類別所占的比例,從而利于比較研究。交叉表(CrossTable)是用來描述同時產(chǎn)生兩個定性變量的數(shù)據(jù)的圖形方法。多重條形圖(ClusteredBarChart)也是描述兩個定類或定序變量間關(guān)系的主要圖形方式。3.2描述性統(tǒng)計描述統(tǒng)計中的測度數(shù)據(jù)分布的集中趨勢測度集中趨勢(CentralTendency)是指分布的定位,它是指一組數(shù)據(jù)向某一中心值靠攏的傾向,或表明一組統(tǒng)計數(shù)據(jù)所具有的一般水平。對集中趨勢進行測度也就是尋找數(shù)據(jù)一般水平的代表值或中心值。對集中趨勢的度量有數(shù)值平均數(shù)和位置平均數(shù)之分。算術(shù)平均數(shù)調(diào)和平均數(shù)幾何平均數(shù)中位數(shù)眾數(shù)中位數(shù)3.2描述性統(tǒng)計描述統(tǒng)計中的測度數(shù)據(jù)分布的離散趨勢測度變量離散程度的度量則將變量值的差異揭示出來,反映總體各變量值對其平均數(shù)這個中心的離中趨勢。離散指標與平均指標分別從不同的側(cè)面反映總體的數(shù)量特征。只有把平均指標與離散指標結(jié)合起來運用,才能更深刻地揭示所研究現(xiàn)象的本質(zhì)。極差分位差平均差方差與標準差標準差系數(shù)3.2描述性統(tǒng)計
3.3推斷性統(tǒng)計區(qū)間估計區(qū)間估計(IntervalEstimate)是在點估計的基礎(chǔ)上根據(jù)給定的置信度估計總體參數(shù)取值范圍的方法。在區(qū)間估計中,由樣本統(tǒng)計量所構(gòu)成的總體參數(shù)的估計區(qū)間稱為置信區(qū)間(ConfidenceInterval),區(qū)間的最小值稱為置信下限,最大值稱為置信上限。單一總體均值的區(qū)間估計(方差已知或大樣本)單一總體均值的區(qū)間估計(小樣本且方差未知)兩個總體均值之差的區(qū)間估計總體比例的區(qū)間估計總體方差的區(qū)間估計樣本容量的確定3.3推斷性統(tǒng)計
3.3推斷性統(tǒng)計謝謝!第三章大數(shù)據(jù)管理與應用的機器學習基礎(chǔ)大數(shù)據(jù)管理與應用——主編:王剛副主編:劉婧、邵臻隨著大數(shù)據(jù)時代的到來,各個行業(yè)對數(shù)據(jù)分析的需求持續(xù)增加,通過機器學習從大量數(shù)據(jù)中提取有效的信息,已經(jīng)成為當前人工智能技術(shù)發(fā)展的主要推動力,并且已經(jīng)廣泛用于解決商務領(lǐng)域中的決策與管理問題。在本章中您將了解機器學習的概念,掌握機器學習的四要素,明確機器學習中的模型評估與選擇方法,了解機器學習的理論基礎(chǔ)。機器學習概述機器學習的分類模型評估與選擇計算學習理論第三章大數(shù)據(jù)管理與應用的機器學習基礎(chǔ)01機器學習概述02機器學習的分類03模型評估與選擇04計算學習理論
1.1機器學習的基本概念圖3-1機器學習的基本框架在現(xiàn)實問題中,我們經(jīng)常面臨很大的假設空間,而數(shù)據(jù)集中的樣本通常是有限的。因此,有可能存在多種模型都能擬合數(shù)據(jù)集的情況,即存在一個與數(shù)據(jù)集一致的假設空間,稱為“版本空間”。機器學習在學習過程中對某種模型的偏好,稱為“歸納偏好”。然而,機器學習中沒有一個普適的模型能夠解決所有的學習問題,這也被稱為“沒有免費的午餐”定理。“奧卡姆剃刀”是一種常用的從版本空間中選取模型的方法,即在同樣的條件下,應該優(yōu)先選擇較為簡單模型。1.2歸納偏好
2.1監(jiān)督學習在無監(jiān)督學習中,數(shù)據(jù)集中只有輸入數(shù)據(jù)而沒有標簽,無監(jiān)督學習的目標是通過對這些無標簽樣本的學習來揭示數(shù)據(jù)的內(nèi)在特性及規(guī)律。因此無監(jiān)督學習是沒有經(jīng)驗知識的學習,有時也被稱為“知識發(fā)現(xiàn)”。聚類分析是無監(jiān)督學習的代表,它能夠根據(jù)數(shù)據(jù)的特點將數(shù)據(jù)劃分成多個沒有交集的子集,每個子集被稱為簇,簇可能對應一些潛在的概念,但需要人為總結(jié)和定義。例如對用戶進行精準營銷前需要對用戶進行細分,就可以通過聚類分析實現(xiàn)。在許多現(xiàn)實問題中,對樣本打標簽的成本有時很高,因而只能獲得少量帶有標簽的樣本。在這種情況下,半監(jiān)督學習可以讓模型不依賴人工干預、自動地利用未標記樣本來提升學習性能,從而充分利用有標簽和無標簽的樣本。例如在生物學領(lǐng)域,對某種蛋白的結(jié)構(gòu)或功能標記需要花費生物學家多年的功夫,而大量的未標記樣本卻很容易得到,半監(jiān)督學習就提供了一條利用這些未標記樣本的途徑。2.2無監(jiān)督學習與半監(jiān)督學習
3.1訓練誤差與測試誤差
3.2模型評估方法性能度量就是對模型的泛化能力進行評估,在對比不同模型的能力時,使用不同的性能度量往往會導致不同的評判結(jié)果。分類問題的性能度量錯誤率與精度精確率、召回率與F1分數(shù)ROC曲線與AUC回歸問題的性能度量
均方誤差均方根誤差平均絕對誤差平均絕對百分比誤差3.3性能度量
3.4偏置與方差過擬合(Overfitting)與欠擬合(Underfitting)是機器學習中的一組現(xiàn)象。如圖3-4所示,過擬合一般是由于模型過于復雜或參數(shù)過多而導致模型對訓練數(shù)據(jù)過度擬合的現(xiàn)象,而欠擬合則是由于模型過于簡單或參數(shù)過少而導致模型難以訓練數(shù)據(jù)的現(xiàn)象,這兩種現(xiàn)象均能導致模型的預測值與真實值之間出現(xiàn)較大的差距。3.5訓練擬合與正則化圖3-2過擬合與欠擬合現(xiàn)象
3.5訓練擬合與正則化
4.1PAC學習理論
4.2泛化誤差上界謝謝!第四章數(shù)據(jù)采集與數(shù)據(jù)存儲大數(shù)據(jù)管理與應用——主編:王剛副主編:劉婧、邵臻數(shù)據(jù)是信息世界的基礎(chǔ)性資源,但由于體量巨大,種類繁多,變化迅速,真實質(zhì)差等問題導致難以充分發(fā)揮數(shù)據(jù)的價值。為此,誕生了數(shù)據(jù)采集與數(shù)據(jù)倉儲技術(shù),主要研究如何管理分析和利用數(shù)據(jù)。該技術(shù)是計算機核心技術(shù)之一,以其為核心的各種數(shù)據(jù)庫應用管理,無可爭議的改變了政府部門和企事業(yè)單位的運營和管理方式,隨著數(shù)據(jù)庫廣泛應用和深度擴展,不僅是計算機和信息技術(shù)行業(yè),包括技術(shù)管理,工程管理甚至決策人員在內(nèi)的眾多行業(yè),都開始關(guān)注數(shù)據(jù)庫技術(shù)的應用價值。數(shù)據(jù)采集關(guān)系型數(shù)據(jù)存儲非關(guān)系型數(shù)據(jù)存儲數(shù)據(jù)倉庫第四章數(shù)據(jù)采集與數(shù)據(jù)存儲01數(shù)據(jù)采集02關(guān)系型數(shù)據(jù)存儲03非關(guān)系型數(shù)據(jù)存儲04數(shù)據(jù)倉庫數(shù)據(jù)采集(DataAcquisition)是指將要獲取的信息通過傳感器轉(zhuǎn)換為信號,并經(jīng)過對信號的調(diào)整、采樣、量化、編碼和傳輸?shù)炔襟E,最后送到計算機系統(tǒng)中進行處理、分析、存儲和顯示的過程。數(shù)據(jù)采集是數(shù)據(jù)分析中的重要一環(huán),它首先通過傳感器或社交網(wǎng)絡、移動互聯(lián)網(wǎng)等方式獲得各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化的海量數(shù)據(jù)。在大數(shù)據(jù)時代,面對數(shù)據(jù)來源廣泛、數(shù)據(jù)類型復雜以及海量數(shù)據(jù)的井噴式增長和不斷增長的用戶需求,傳統(tǒng)的集中式數(shù)據(jù)庫的弊端日益顯現(xiàn),于是基于分布式數(shù)據(jù)庫的大數(shù)據(jù)采集方法應運而生。傳統(tǒng)數(shù)據(jù)采集是從傳感器等設備自動采集信息的過程。這種方法數(shù)據(jù)來源單一,數(shù)據(jù)結(jié)構(gòu)簡單,且存儲、管理和分析數(shù)據(jù)量也相對較小,大多采用集中式的關(guān)系型數(shù)據(jù)庫或并行數(shù)據(jù)倉庫即可處理。1.1數(shù)據(jù)采集概述1.1數(shù)據(jù)采集概述表4-1傳統(tǒng)數(shù)據(jù)采集與大數(shù)據(jù)采集的區(qū)別傳統(tǒng)數(shù)據(jù)采集大數(shù)據(jù)采集來源單一,數(shù)據(jù)量相當小來源廣泛,數(shù)量巨大結(jié)構(gòu)單一數(shù)據(jù)類型豐富關(guān)系數(shù)據(jù)庫和并行數(shù)據(jù)庫分布式數(shù)據(jù)庫傳統(tǒng)數(shù)據(jù)采集系統(tǒng)數(shù)據(jù)采集系統(tǒng)性能的好壞,主要取決于它的精度和速度。在保證精度的條件下,應該盡可能提高采樣速度,以滿足實時采集、實時處理和實時控制等對速度的要求。一般都包含有計算機系統(tǒng),這使得數(shù)據(jù)采集的質(zhì)量和效率等大為提高,同時節(jié)省了硬件投資。軟件在數(shù)據(jù)采集系統(tǒng)中的作用越來越大,增加了系統(tǒng)設計的靈活性。數(shù)據(jù)采集與數(shù)據(jù)處理相互結(jié)合日益緊密,形成了數(shù)據(jù)采集與處理相互融合的系統(tǒng),可實現(xiàn)從數(shù)據(jù)采集、處理到控制的全部工作。速度快,數(shù)據(jù)采集過程一般都具有“實時”特性。隨著微電子技術(shù)的發(fā)展,電路集成度的提高,體積越來越小,可靠性越來越高。1.2數(shù)據(jù)采集系統(tǒng)大數(shù)據(jù)采集系統(tǒng)日志采集系統(tǒng)網(wǎng)絡數(shù)據(jù)采集系統(tǒng)網(wǎng)絡數(shù)據(jù)采集系統(tǒng)是指通過網(wǎng)絡爬蟲和一些網(wǎng)站平臺提供的公共API(如Twitter和新浪微博API)等方式從網(wǎng)站上獲取數(shù)據(jù)。網(wǎng)絡爬蟲的原理:按照一定的規(guī)則,自動抓取Web信息的程序或者腳本。爬蟲一般有數(shù)據(jù)采集、處理和存儲三部分功能。1.2數(shù)據(jù)采集系統(tǒng)圖4-1網(wǎng)絡爬蟲示意圖大數(shù)據(jù)采集系統(tǒng)網(wǎng)絡數(shù)據(jù)采集系統(tǒng)網(wǎng)絡爬蟲的類型:通用網(wǎng)絡爬蟲、聚焦網(wǎng)絡爬蟲、增量式網(wǎng)絡爬蟲以及深層網(wǎng)絡爬蟲等。網(wǎng)絡爬蟲的工具:前常用的網(wǎng)頁爬蟲系統(tǒng)有ApacheNutch、Crawler4j、Scrapy等框架。網(wǎng)絡爬蟲工作流程1.2數(shù)據(jù)采集系統(tǒng)4-2網(wǎng)絡爬蟲的基本工作流程大數(shù)據(jù)采集系統(tǒng)數(shù)據(jù)庫采集系統(tǒng)一些企業(yè)會使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫比如Mysql、Oracle等存儲數(shù)據(jù),此外,Redis和Mongodb的NoSQL數(shù)據(jù)庫也常用于企業(yè)數(shù)據(jù)的采集。針對此類大數(shù)據(jù)采集技術(shù),目前主要流行的大數(shù)據(jù)采集分析技術(shù)是Hive。在大數(shù)據(jù)采集技術(shù)中還有一個關(guān)鍵環(huán)節(jié)是轉(zhuǎn)換操作,將清洗后的數(shù)據(jù)轉(zhuǎn)換成不同的數(shù)據(jù)形式,由不同的數(shù)據(jù)分析系統(tǒng)和計算系統(tǒng)進行分析和處理。1.2數(shù)據(jù)采集系統(tǒng)企業(yè)內(nèi)部數(shù)據(jù)采集企業(yè)內(nèi)部數(shù)據(jù)采集來源于各個業(yè)務生產(chǎn)系統(tǒng),包括CRM數(shù)據(jù)、CC(呼叫中心)數(shù)據(jù)、財務數(shù)據(jù)、倉儲數(shù)據(jù)、門店數(shù)據(jù)、銷售數(shù)據(jù)、OA數(shù)據(jù)、物流數(shù)據(jù)、網(wǎng)站數(shù)據(jù)。CRM數(shù)據(jù),即企業(yè)客戶管理系統(tǒng)的相關(guān)數(shù)據(jù)。CC(呼叫中心)數(shù)據(jù),即企業(yè)呼叫中心系統(tǒng)的相關(guān)數(shù)據(jù)。財務數(shù)據(jù),包括現(xiàn)金流、資產(chǎn)管理、盈利、負債等數(shù)據(jù)。倉儲數(shù)據(jù),包括庫存周轉(zhuǎn)、庫存結(jié)構(gòu)、暢銷、滯銷等數(shù)據(jù)。門店數(shù)據(jù),除線下銷售外,還包括POS數(shù)據(jù)、動線視頻數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù)。銷售數(shù)據(jù),包括渠道、平臺、品類等維度的銷售數(shù)據(jù)。OA數(shù)據(jù),是企業(yè)內(nèi)部辦公系統(tǒng)的相關(guān)數(shù)據(jù),該數(shù)據(jù)可以為優(yōu)化企業(yè)內(nèi)部流程服務。物流數(shù)據(jù),包括出庫、配送、調(diào)度、退換貨等數(shù)據(jù)。網(wǎng)站數(shù)據(jù),即流量數(shù)據(jù)。1.3企業(yè)數(shù)據(jù)采集企業(yè)外部數(shù)據(jù)采集企業(yè)外部數(shù)據(jù)是指數(shù)據(jù)由企業(yè)外部產(chǎn)生,企業(yè)通過合作、購買、采集等形式獲得。企業(yè)外部數(shù)據(jù)通常包括競爭數(shù)據(jù)、營銷數(shù)據(jù)、物流數(shù)據(jù)、行業(yè)數(shù)據(jù)等。競爭數(shù)據(jù),通常是通過購買或程序采集等形式,獲得關(guān)于競爭對手的流量、銷售、產(chǎn)品、營銷等方面的數(shù)據(jù),如競爭對手產(chǎn)品價格、競爭對手會員數(shù)據(jù)、營銷投放渠道等。營銷數(shù)據(jù),指企業(yè)通過營銷或推廣合作,獲取自身或站外相關(guān)媒體、渠道的曝光、點擊、投放等詳細數(shù)據(jù)。物流數(shù)據(jù),指第三方的物流數(shù)據(jù)。行業(yè)數(shù)據(jù),指通過購買、調(diào)研等獲得關(guān)于市場整體行情、市場趨勢、用戶結(jié)構(gòu)、競爭環(huán)境等信息,常見于行業(yè)報告數(shù)據(jù)。1.3企業(yè)數(shù)據(jù)采集關(guān)系模型的數(shù)據(jù)結(jié)構(gòu)用二維表格(關(guān)系)表示實體和實體間關(guān)系的模型稱為關(guān)系模型。2.1關(guān)系模型表4-2學生基本信息表關(guān)系模型的數(shù)據(jù)操作與約束條件操作主要包括查詢、插入、刪除和修改四類,其中查詢是最重要、最基本的操作。操作特點一次操作可以存取多個元組。隱蔽存取數(shù)據(jù)的路徑。關(guān)系模型優(yōu)缺點主要優(yōu)點關(guān)系模型與非關(guān)系模型不同,它是建立在嚴格的數(shù)學概念的基礎(chǔ)上的。無論實體還是實體之間的聯(lián)系都用關(guān)系來表示。關(guān)系模型的存取路徑對用戶透明,從而具有更高的數(shù)據(jù)獨立性,更好的安全保密性。數(shù)據(jù)模型具有豐富的完整性。主要缺點:運行效率不高、不能直接描述復雜的數(shù)據(jù)對象和數(shù)據(jù)類型。2.1關(guān)系模型范式(NF,NormalForma)是一種關(guān)系的狀態(tài),也是衡量關(guān)系模式好壞的標準。根據(jù)關(guān)系模式滿足的不同性質(zhì)和規(guī)范化的程度,關(guān)系模式被分為第一范式、第二范式、第三范式、BC范式、第四范式和第五范式等,其中范式越高則規(guī)范化的程度越高,關(guān)系模式也就越好。第一范式:在關(guān)系模式R的每個關(guān)系R中,如果每個屬性值都是不可再分的原子值,那么稱R是第一范式(1NF)的模式。2.2關(guān)系規(guī)范化表4-3(a)非規(guī)范化關(guān)系
倉庫編號負責人
倉庫編號負責人姓名負責人電話姓名電話
W1李明1304560001
W1李明1304560001W2王紅
W2王紅
W3張小兵1881001001
W3張小兵1881001001
表4-3(b)規(guī)范化關(guān)系范式(NF,NormalForma)第二范式:如果一個關(guān)系模式R為1NF,并且R中的每個非主屬性(不是組成主鍵的屬性)都完全函數(shù)依賴于R的每個候選關(guān)鍵字(主要是主關(guān)鍵字),則稱R是第二范式(簡記為2NF)的模式。第三范式:如果一個關(guān)系模式R為2NF,且R中所有非主屬性都不傳遞依賴于關(guān)鍵字,則稱R是第三范式(簡記為3NF)的模式。BC范式:如果關(guān)系模式R為1NF,X?U,且每個屬性都不傳遞依賴于R的候選鍵,那么稱R是BCNF的模式。關(guān)系模式的規(guī)范化要求關(guān)系規(guī)范化的基本思想是通過逐步消除不合適的數(shù)據(jù)依賴,使原模式中的各種關(guān)系模式達到某種程度的分離。規(guī)范化使得分離后的一個關(guān)系只描述一個概念、一個實體或?qū)嶓w間的一種聯(lián)系,采用“一事一地”的模式設計原則,把多于一個概念的關(guān)系模式分離成多個單一的關(guān)系模式。因此對關(guān)系模式的規(guī)范化實質(zhì)上是對概念的單一化過程。2.2關(guān)系規(guī)范化2.2關(guān)系規(guī)范化圖4-3
關(guān)系模式的規(guī)范化過程
基本概念鍵值存儲,也稱關(guān)聯(lián)數(shù)組,從本質(zhì)上來講就是<鍵,值>對的組合,可理解為一類兩列的數(shù)組。鍵值存儲就像一個字典,一個字典包含很多單詞,每個單詞都有多個定義。一個字典就是一個簡單的鍵值存儲,單詞條目即為鍵,每個詞條下的定義條目即為值。鍵值存儲的優(yōu)勢是處理速度非常快,而且不用為值指定一個特定的數(shù)據(jù)類型。但也具有很明顯的缺點,它只能通過鍵的查詢來獲取數(shù)據(jù),而無法使用查詢語言,若鍵值不可知,則無法進行查詢。鍵值存儲兩個重要準則:一是鍵不能重復;二是不能按照值來查詢。鍵值存儲的重要特性:簡潔、高速、可擴展性和可靠性應用案例保存網(wǎng)頁信息用戶配置信息物流運輸訂單信息3.1鍵值數(shù)據(jù)庫基本概念文檔數(shù)據(jù)庫也稱為面向文檔的數(shù)據(jù)庫,面向文檔的數(shù)據(jù)庫是一類以鍵值數(shù)據(jù)庫為基礎(chǔ),不需要定義表結(jié)構(gòu)、可以使用復雜查詢條件的NoSQL數(shù)據(jù)庫。文檔數(shù)據(jù)庫的值是以文檔的形式來存儲的,主要用來存儲、索引并管理面向文檔的數(shù)據(jù)或者類似的半結(jié)構(gòu)化數(shù)據(jù)。文檔存儲的結(jié)構(gòu)主要分為四個層次,從小到大依次是:鍵值對:是文檔存儲的基本單位,包含數(shù)據(jù)和類型。鍵值對的數(shù)據(jù)包括鍵和值,鍵用字符串表示,確保一個鍵值結(jié)構(gòu)里數(shù)據(jù)記錄的唯一性,同時也能記錄信息。文檔:是文檔存儲的核心概念,是數(shù)據(jù)的基本單元。文檔數(shù)據(jù)庫并不會把實體的每個屬性都單獨與某個鍵相關(guān)聯(lián),而是會把多個屬性存儲到同一份文檔里面。集合:一般把相似的文檔納入一個集合,集合就是指一組文檔。數(shù)據(jù)庫:在文檔存儲中,數(shù)據(jù)庫由集合組成。3.2文檔數(shù)據(jù)庫特性無需定義表結(jié)構(gòu)易于查詢易于拓展功能豐富應用案例MongodbCouchdb3.2文檔數(shù)據(jù)庫基本概念列族存儲使用行和列的標識符作為通用的鍵來查找數(shù)據(jù)。列族存儲兼有傳統(tǒng)關(guān)系型數(shù)據(jù)庫面向行的存儲方式與鍵值存儲方式的部分特點,列族數(shù)據(jù)庫類似于關(guān)系型表格,仍然以表的方式組織數(shù)據(jù),由行和列組成,但不同的是列相當于鍵值對,并且引入了列族和時間戳。行:每一行代表一個數(shù)據(jù)對象,包含了若干列族,且每一行中列族及數(shù)量可以不同。列族:列族將一列或多列組織在一起,每個列必須屬于一個列族。時間戳:列的數(shù)據(jù)項可以有多個版本,不同版本的數(shù)據(jù)通過時間戳來索引。特性:容量巨大、讀寫高效、高可擴展性、高可用性、稀疏性。應用案例GoogleEarth個性化查詢服務3.3列式數(shù)據(jù)庫圖存儲概述圖:在圖論中,圖是節(jié)點與邊的集合,一般用來分析實體之間的聯(lián)系及鏈接。節(jié)點:可以用來表示各種事物,例如公司職員、生態(tài)系統(tǒng)中的生物、社交網(wǎng)絡的用戶等。邊:節(jié)點之間的聯(lián)系用邊來表示,邊的始端和末端都必須是節(jié)點。屬性:表示節(jié)點和邊所具有的特征,節(jié)點和邊都可以包含多個屬性。圖存儲:是包含一連串的節(jié)點和邊的系統(tǒng),當它們結(jié)合在一起時,就構(gòu)成了一個圖。圖計算引擎:與關(guān)系型數(shù)據(jù)庫類似,圖存儲的核心也是建立在一個引擎之上的。3.4圖數(shù)據(jù)庫圖4-5
典型圖計算引擎工作流程圖圖存儲概述圖存儲:是包含一連串的節(jié)點和邊的系統(tǒng),當它們結(jié)合在一起時,就構(gòu)成了一個圖。圖計算引擎:與關(guān)系型數(shù)據(jù)庫類似,圖存儲的核心也是建立在一個引擎之上的。查詢語言:采取圖存儲的數(shù)據(jù)庫能夠更加高效地查詢圖中各個節(jié)點之間的路徑。目前常用的查詢語言是Neo4j推出的Cyper。索引機制:基于圖數(shù)據(jù)模型的Nosql系統(tǒng)提供Hash索引或是Full-Text索引以檢索節(jié)點和邊。圖存儲特性:快速查詢、建模簡單、靈活性、敏捷性。應用案例連接分析規(guī)則和推理集成關(guān)聯(lián)數(shù)據(jù)3.4圖數(shù)據(jù)庫數(shù)據(jù)倉庫:一個面向主題的、集成的、隨時間變化的、非易失性的數(shù)據(jù)集合,用于支持管理層的決策過程。特征面向主題:按一個個獨立而明確的主題組織數(shù)據(jù)倉庫中的數(shù)據(jù)。集成性:數(shù)據(jù)倉庫構(gòu)建的過程中,多個外部數(shù)據(jù)源中的不同類型和定義的數(shù)據(jù),經(jīng)過提取、清洗和轉(zhuǎn)換等一系列處理,最終構(gòu)成一個有機整體。時變性:數(shù)據(jù)倉庫中的數(shù)據(jù)隨著時間的變化不斷得到定期的增補和更新,以保證決策的正確性。非易失性:數(shù)據(jù)非易失性又稱穩(wěn)定性,一旦數(shù)據(jù)被導入數(shù)據(jù)倉庫,就永遠不會被刪除。4.1數(shù)據(jù)倉庫的特征數(shù)據(jù)倉庫系統(tǒng)是計算機系統(tǒng)、DW、DWMS、應用軟件、數(shù)據(jù)庫管理員和用戶的集合。即數(shù)據(jù)倉庫系統(tǒng)一般由硬件、軟件(包括開發(fā)工具)、數(shù)據(jù)倉庫、數(shù)據(jù)倉庫管理員等構(gòu)成。兩層體系結(jié)構(gòu):包括相互分離的數(shù)據(jù)源層和數(shù)據(jù)倉庫層,由四個連續(xù)的數(shù)據(jù)流階段組成。4.2數(shù)據(jù)倉庫系統(tǒng)圖4-7數(shù)據(jù)倉庫二層體系結(jié)構(gòu)示意圖三層體系結(jié)構(gòu):在數(shù)據(jù)源層和數(shù)據(jù)倉庫層之間增加了操作型數(shù)據(jù)存儲,用于存儲源數(shù)據(jù)處理、集成后獲得的操作型數(shù)據(jù),將數(shù)據(jù)填充到數(shù)據(jù)倉庫中。4.2數(shù)據(jù)倉庫系統(tǒng)圖4-8數(shù)據(jù)倉庫三層體系結(jié)構(gòu)示意圖決策支持系統(tǒng)(DecisionSupportSystem,DSS)DSS是可擴展交互式IT技術(shù)和工具的集合,處理和分析獲得的數(shù)據(jù),輔助管理人員決策。數(shù)據(jù)倉庫在DSS中的應用數(shù)據(jù)倉庫從各個數(shù)據(jù)源中抽取數(shù)據(jù),經(jīng)過清洗、轉(zhuǎn)換等處理后成為基本數(shù)據(jù),基本數(shù)據(jù)在時間機制下生成歷史數(shù)據(jù),在綜合機制下生成綜合數(shù)據(jù)。DSS接受到用戶的決策請求后,通過數(shù)據(jù)挖掘工具從數(shù)據(jù)倉庫中獲取相關(guān)數(shù)據(jù),進行后續(xù)處理、分析,并將結(jié)果提交給用戶輔助其決策。4.3數(shù)據(jù)倉庫與決策支持謝謝!第五章數(shù)據(jù)預處理大數(shù)據(jù)管理與應用——主編:王剛副主編:劉婧、邵臻當前,在各行各業(yè)中正不斷累積海量的數(shù)據(jù)資源,受到采集方式、存儲手段等各種因素的影響,實踐中所收集到的原始數(shù)據(jù)信息往往容易出現(xiàn)數(shù)據(jù)缺失、解釋性不足等問題,利用這些低質(zhì)量的數(shù)據(jù)進行分析將會影響后續(xù)分析的有效性和合理性。而數(shù)據(jù)預處理的目標就是要以數(shù)據(jù)分析所要解決的問題為出發(fā)點,通過相應的預處理,從而產(chǎn)生高質(zhì)量、滿足分析需求的數(shù)據(jù)資源。在本章中您將理解數(shù)據(jù)預處理中數(shù)據(jù)質(zhì)量的相關(guān)性質(zhì),掌握數(shù)據(jù)清洗方式和數(shù)據(jù)清洗方法,數(shù)據(jù)變化的相關(guān)策略,掌握數(shù)據(jù)集成及其他預處理方法。數(shù)據(jù)質(zhì)量數(shù)據(jù)清洗數(shù)據(jù)變換數(shù)據(jù)集成其他預處理方法第五章數(shù)據(jù)預處理01數(shù)據(jù)質(zhì)量02數(shù)據(jù)清洗03數(shù)據(jù)變換04數(shù)據(jù)集成05其他預處理方法在實際應用中,大型數(shù)據(jù)庫和數(shù)據(jù)倉庫往往容易出現(xiàn)不正確、不完整和不一致等情況。數(shù)據(jù)不正確的原因用于收集數(shù)據(jù)的設備出現(xiàn)了故障;在數(shù)據(jù)輸入時,由于人或計算機的原因?qū)е聰?shù)據(jù)輸入錯誤;用戶在不希望提交個人信息時,故意向強制輸入字段輸入不正確的數(shù)值,這種情況通常被稱為被掩蓋的缺失數(shù)據(jù)。數(shù)據(jù)不完整的原因由于涉及個人隱私等原因有些屬性無法獲得,如銷售事務數(shù)據(jù)中顧客的收入和年齡等信息;在輸入記錄時由于人為的疏漏或機器的故障使得數(shù)據(jù)不完整,這些不完整的數(shù)據(jù)需要進行重新構(gòu)建。數(shù)據(jù)不一致的原因在我們采集的客戶通訊錄數(shù)據(jù)中,地址字段列出了郵政編碼和城市名,但是有的郵政編碼區(qū)域與響應的城市并不對應,導致這種原因的出現(xiàn)可能是人工輸入該信息時顛倒了兩個數(shù)字,或許是在手寫體掃描時錯讀了一個數(shù)字。1.1準確性、完整性以及一致性在工商業(yè)界,對數(shù)據(jù)質(zhì)量的相關(guān)性要求是一個重要問題。類似的觀點也出現(xiàn)在統(tǒng)計學和實驗科學中,強調(diào)精心設計實驗來收集與特定假設相關(guān)的數(shù)據(jù)。與測量和數(shù)據(jù)收集一樣,許多數(shù)據(jù)質(zhì)量問題與特定的應用和領(lǐng)域有關(guān)。例如,考慮構(gòu)造一個模型,預測交通事故發(fā)生率。如果忽略了駕駛員的年齡和性別信息,并且這些信息不可以間接地通過其他屬性得到,那么模型的精度可能就是有限的,在這種情況下,我們需要盡量采集全面的、相關(guān)的數(shù)據(jù)信息。此外,對某個公司的大型客戶數(shù)據(jù)庫來說,由于時間和統(tǒng)計的原因,顧客地址列表的正確性為80%,其他地址可能過時或不正確。當市場分析人員訪問公司的數(shù)據(jù)庫,獲取顧客地址列表時,基于目標市場營銷考慮,市場分析人員對該數(shù)據(jù)庫的準確性滿意度較高。而當銷售經(jīng)理訪問該數(shù)據(jù)庫時,由于地址的缺失和過時,對該數(shù)據(jù)庫的滿意度較低。有些數(shù)據(jù)收集后就開始老化,使用老化后的數(shù)據(jù)進行數(shù)據(jù)分析、數(shù)據(jù)挖掘,將會產(chǎn)生不同的分析結(jié)果。如果數(shù)據(jù)提供的是正在發(fā)生的現(xiàn)象或過程的快照,如顧客的購買行為或Web瀏覽模式,則快照只代表有限時間內(nèi)的真實情況;如果數(shù)據(jù)已經(jīng)過時,基于它的模型和模式也就已經(jīng)過時,在這種情況下,我們需要考慮重新采集數(shù)據(jù)信息,及時對數(shù)據(jù)進行更新。1.2相關(guān)性和時效性數(shù)據(jù)的可信性是指數(shù)據(jù)在適用性、準確性、完整性、及時性和有效性方面是否能滿足用戶的應用要求,反映出有多少數(shù)據(jù)是用戶信賴的。如果把數(shù)據(jù)可信性定義得過窄,會使得人們感覺問題來自數(shù)據(jù)采入或者系統(tǒng)誤差,而導致數(shù)據(jù)的可信性差。數(shù)據(jù)的可解釋性反映數(shù)據(jù)是否容易理解,是在數(shù)據(jù)科學的“有用性”中至關(guān)重要的方面之一,它確保使用的數(shù)據(jù)與想要解決的問題保持一致。當某一數(shù)據(jù)庫在某一時刻存在錯誤,恰巧該時刻銷售部門使用了該數(shù)據(jù)庫的數(shù)據(jù),雖然數(shù)據(jù)庫的錯誤在之后被及時修正,但之前的錯誤已經(jīng)給銷售部門造成困擾。1.3可信性和可解釋性全人工清洗這種清洗方式的特點是速度慢,準確度較高,一般應用于數(shù)據(jù)量較小的數(shù)據(jù)集中。全機器清洗這種清洗方式的優(yōu)點是清洗完全自動化,將人從繁雜的邏輯任務中解脫出來,去完成更重要的事。人機同步清洗該方式不僅降低了編寫程序的復雜度和難度,同時也不需要大量的人工操作但缺點是人必須要實時參與清洗過程。人機異步清洗這種清洗的原理與人機同步清洗基本一樣,唯一的不同是在遇到程序不能處理的問題時,不直接要求人工參與,而是生成報告的形式記錄下異常情況,然后繼續(xù)進行清洗工作。2.1數(shù)據(jù)清洗的方式圖5-1數(shù)據(jù)清洗原理填補空缺值忽略元組:當缺少類標號時,通常采用忽略元組的方法。除非元組中空缺值的屬性較多,否則忽略元組不是有效的方法。人工填寫空缺值:該方法耗費時間,尤其是當數(shù)據(jù)集很大、缺少的數(shù)據(jù)很多時,該方法可能行不通。全局常量填充空缺值:用同一個常數(shù)替換空缺的屬性值,該方法雖然簡單,但可能得出有偏差甚至錯誤的數(shù)據(jù)挖掘結(jié)論,因此應謹慎使用。屬性的平均值填充空缺值:計算某一屬性的平均值,再用該平均值來進行填充。同類樣本的平均值填補空缺值:使用與給定元組同一類的所有樣本的平均值。用最可能的值填充空缺值:用回歸分析或決策樹歸納確定最有可能的值。最近鄰方法填補空缺值:相互之間“接近”的對象具有相似的預測值。如果知道一個對象的值,就可以預測其最近的鄰居對象。2.2數(shù)據(jù)清洗方法消除噪聲數(shù)據(jù)分箱:分箱是通過考察周圍的值來平滑存儲的數(shù)據(jù)值。它將存儲的值分布到一些箱中,由于分箱需要參考相鄰的值,因此它能對數(shù)據(jù)進行局部平滑。聚類:聚類是按照個體相似性把它們劃歸到若干類別(簇)中,使同一類數(shù)據(jù)之間的相似性盡可能大,不同類數(shù)據(jù)之間的相似性盡可能小。計算機與人工檢查結(jié)合:識別孤立點還可以利用計算機和人工檢查結(jié)合的辦法。例如在針對銀行信用欺詐行為的探測中,孤立點可能包含有用信息,也可能包含噪聲?;貧w:可以采用線性回歸和非線性回歸找出合適的回歸函數(shù),用以平滑數(shù)據(jù)、消除噪聲。實現(xiàn)數(shù)據(jù)一致性從多數(shù)據(jù)源集成的數(shù)據(jù)可能存在語義沖突,因此需要定義完整性約束來檢測不一致性,或者通過分析數(shù)據(jù),發(fā)現(xiàn)聯(lián)系,從而使得數(shù)據(jù)保持一致。對于數(shù)據(jù)集中存在的不一致數(shù)據(jù),可以使用糾正編碼不一致問題的程序,也可以用知識工程工具來檢測不符合條件約束的數(shù)據(jù)。2.2數(shù)據(jù)清洗方法光滑目的是去掉數(shù)據(jù)中的噪聲,這種技術(shù)包括分箱、聚類和回歸。屬性構(gòu)造(或特征構(gòu)造)可以由給定的屬性構(gòu)造新的屬性并添加到屬性集中,以幫助挖掘過程。聚集對數(shù)據(jù)進行匯總和聚集,例如可以聚集日銷售數(shù)據(jù),計算月和年銷售量。規(guī)范化把屬性數(shù)據(jù)按比例縮放,使之落入一個特定的小區(qū)間,如0.0-1.0。離散化數(shù)值屬性的原始值用區(qū)間標簽或概念標簽替換,這些標簽可以遞歸地組織成更高層概念,導致數(shù)值屬性的概念分層。由標稱數(shù)據(jù)產(chǎn)生概念分層例如關(guān)于銷售的數(shù)據(jù)挖掘模式除了在單個分店挖掘之外,還可以針對指定的地區(qū)或國家挖掘。3.1數(shù)據(jù)變換策略最?。畲笠?guī)范化Z-Score規(guī)范化(或零-均值規(guī)范化)小數(shù)定標規(guī)范化3.2通過規(guī)范化變換數(shù)據(jù)通過分箱離散化等寬分箱:將變量的取值范圍分為k個等寬的區(qū)間,每個區(qū)間當作一個分箱。等頻分箱:把觀測值按照從小到大的順序排列,根據(jù)觀測的個數(shù)等分為k部分,每部分當作一個分箱,例如,數(shù)值最小的1/k比例的觀測形成第一個分箱等。基于k均值聚類的分箱:使用k均值聚類法將觀測值聚為k類,但在聚類過程中需要保證分箱的有序性:第一個分箱中所有觀測值都要小于第二個分箱中的觀測值,第二個分箱中所有觀測值都要小于第三個分箱中的觀測值等。通過直方圖分析離散化像分箱一樣,直方圖分析也是一種無監(jiān)督的離散化技術(shù),因為它也不使用類信息。直方圖把屬性A的值劃分成不相交的區(qū)間,被稱作桶或箱。通過聚類、決策樹和相關(guān)性分析離散化聚類分析是一種常見的離散化方法,通過將屬性A的值劃分成簇或組。聚類算法可以用來離散化數(shù)值屬性A。聚類考慮A的分布及數(shù)據(jù)點的鄰近性,因此可以產(chǎn)生高質(zhì)量的離散化結(jié)果。3.3通過離散化變換數(shù)據(jù)圖5-2基于聚類分析的數(shù)據(jù)離散化由用戶或?qū)<以谀J郊夛@式地說明屬性的部分序通常分類屬性或維的概念分層涉及一組屬性,用戶或?qū)<以谀J郊壨ㄟ^說明屬性的部分序或全序,可以很容易地定義概念分層。通過顯式數(shù)據(jù)分組說明分層結(jié)構(gòu)的一部分這基本上是人工定義概念分層結(jié)構(gòu)的一部分。在大型數(shù)據(jù)庫中,通過顯式的值枚舉定義整個概念分層是不現(xiàn)實的,然而對一小部分中間層數(shù)據(jù),我們可以很容易地顯式說明分組。說明屬性集,但不說明它們的偏序用戶可以說明一個屬性集,形成概念分層,但并不顯式說明它們的偏序,然后系統(tǒng)可以試圖自動地產(chǎn)生屬性的序,構(gòu)造有意義的概念分層。只說明部分屬性集在定義分層時,用戶可能對分層結(jié)構(gòu)中應當包含什么只是有一個很模糊的想法,或者說用戶在分層結(jié)構(gòu)的說明中只包含了相關(guān)屬性的一部分。3.4標稱數(shù)據(jù)的概念分層基于規(guī)則的實體識別方法利用相似函數(shù)度量數(shù)據(jù)實體之間的相似性是解決實體識別問題的重要思路,然而大多數(shù)時候,我們無法在現(xiàn)實世界中找到一個完美的相似性度量函數(shù)來衡量實體之間的相似性。因此我們需要利用語義規(guī)則引入額外的專家用戶信息,引導實體識別過程。結(jié)合語義規(guī)則的方法可以修正相似函數(shù)產(chǎn)生的誤差,提高識別的精度,該方法的極限情況是完全用語義規(guī)則來解決實體識別問題。基于統(tǒng)計方法的實體識別常規(guī)的統(tǒng)計方法需要設置參數(shù)或者給定訓練數(shù)據(jù),而有專家提出了一種兩階段的統(tǒng)計學習方法,可完全自動地執(zhí)行實體識別過程,其思想是將第一階段在數(shù)據(jù)實體上兩兩匹配結(jié)果中較好的一部分抽取出來,并將其作為第二階段的支持向量機方法的訓練數(shù)據(jù)。該工作基于最近鄰方法和支持向量機方法分別給出了對應的實體識別算法。4.1實體識別問題圖5-3數(shù)據(jù)集成過程標稱數(shù)據(jù)的卡方相關(guān)檢驗數(shù)值數(shù)據(jù)的相關(guān)系數(shù)數(shù)值數(shù)據(jù)的協(xié)方差4.2冗余和相關(guān)分析數(shù)據(jù)準備數(shù)據(jù)準備階段又稱為數(shù)據(jù)的預處理階段,在相似重復數(shù)據(jù)檢測工作中用來解決結(jié)構(gòu)方面的異質(zhì)問題,從而使得來自不同數(shù)據(jù)源的數(shù)據(jù)以統(tǒng)一的方式存儲在一個數(shù)據(jù)庫中,主要包括解析、數(shù)據(jù)轉(zhuǎn)換和標準化等階段。減小查詢空間由于數(shù)據(jù)庫存儲的信息量巨大,如果所有的元組都進行相似重復檢測,不僅耗費大量的時間,而且效率也比較低,因此通常使用啟發(fā)式的搜索方法來縮小檢測的空間。相似重復記錄的識別雖然在數(shù)據(jù)準備階段對數(shù)據(jù)進行了一系列的標準化操作,但是記錄中還是會存在一些語義上或者語法上的不規(guī)范,因此需要使用一些技術(shù)手段進一步對相似重復記錄進行檢測。驗證為了驗證檢測方法的有效性和準確性,有專家制定了查準率和查全率兩個度量標準。如果對于檢測的結(jié)果不滿意,則需要進一步設定更合適的閾值,采用更合適的方法重新處理,以達到滿意的效果。4.3元組重復在數(shù)據(jù)庫集成領(lǐng)域內(nèi)建立異構(gòu)數(shù)據(jù)源之間的語義互操作越來越成為一個核心問題,而語義互操作問題最后歸結(jié)為解決數(shù)據(jù)沖突的問題,這是數(shù)據(jù)集成最主要的任務。數(shù)據(jù)沖突包括模式層次和語義層次上的沖突,相比較而言,后者更難解決。在異構(gòu)和分布式數(shù)據(jù)庫系統(tǒng)中,各局部數(shù)據(jù)庫均是獨立運行、獨立管理的,具有自治性,因而造成局部數(shù)據(jù)庫的數(shù)據(jù)彼此之間的語義和數(shù)據(jù)值有可能不一致,造成各局部數(shù)據(jù)庫中的數(shù)據(jù)源沖突,從而使得對象的描述產(chǎn)生二義性。語義互操作問題一般有兩種解決方法:全局模式和域本體方法。全局模式方法通過構(gòu)建一個全局模式來建立全局模式和局部數(shù)據(jù)源模式之間的映射關(guān)系,這種方法的缺點是嚴重依賴相關(guān)的應用系統(tǒng)或者是參與的局部數(shù)據(jù)源模式。域本體方法是利用機器可理解的概念以及概念之間的關(guān)系,這些概念和概念之間的關(guān)系用一個共享本體來表示,各個數(shù)據(jù)源都可以理解該本體的含義。這種方法中的知識在特定的域當中,但是獨立于特定的應用系統(tǒng)和模式。在這種方法中還需要輔助工具來捕獲和表示各種知識,從而解決語義沖突。4.4數(shù)據(jù)值沖突的檢測與處理特征選擇是一個很重要的數(shù)據(jù)預處理過程,主要作用有以下兩點:選擇出重要的特征,緩解維數(shù)災難問題以及去除不相關(guān)特征以及降低學習任務的難度。特征選擇的基本框架如下圖5-4所示。雖然現(xiàn)實中存在特征不足和特征冗余兩種情況,但是在實際應用中,往往都是特征冗余的情況,需要我們減少一些特征。5.1特征選擇圖5-4特征選擇的基本流程根據(jù)特征選擇的形式又可以將特征選擇方法分為3種:過濾法,按照發(fā)散性或者相關(guān)性對各個特征進行評分,設定閾值或者待選擇閾值的個數(shù),選擇特征。包裹法,根據(jù)目標函數(shù),每次選擇若干特征或者排除若干特征,直到選擇出最佳的子集。嵌入法,先使用某些機器學習的算法和模型進行訓練,得到各個特征的權(quán)值系數(shù),根據(jù)系數(shù)從大到小選擇特征。類似于過濾法,但是通過訓練來確定特征的優(yōu)劣。5.1特征選擇圖5-5過濾算法的基本原理線性降維方法主成分分析主成分分析(PrincipalComponentsAnalysis,PCA)是最重要的降維方法之一。在數(shù)據(jù)壓縮消除冗余和數(shù)據(jù)噪音消除等領(lǐng)域都有廣泛的應用。線性判別在自然語言處理領(lǐng)域,隱含狄利克雷分布(LatentDirichletAllocation,LDA)是一種處理文檔的主題模型?;诤撕瘮?shù)的非線性降維方法核主成分分析核主成分分析(KernelPrincipalComponentsAnalysis,KPCA)利用核技巧將d維線性不可分的輸入空間映射到線性可分的高維特征空間中,然后對特征空間進行PCA降維,將維度降到d'維,并利用核技巧簡化計算。5.2維度約減基于特征值的非線性降維方法等度量映射等度量映射(IsometricMapping,LSOMAP)算法引進了鄰域圖,樣本只與其相鄰的樣本連接,他們之間的距離可直接計算,較遠的點可通過最小路徑算出距離,在此基礎(chǔ)上進行降維保距。局部線性嵌入局部線性嵌入(LocallyLinearEmbedding,LLE)在處理所謂流形降維的時候,效果比PCA要好很多。拉普拉斯特征映射拉普拉斯特征映射(LaplacianEigenmaps,LE)與LLE算法有些相似,是從局部近似的角度去構(gòu)建數(shù)據(jù)之間的關(guān)系。局部保留投影算法局部保留投影算法(LocalityPreservingProjections,LPP)主要是通過線性近似LE算法來保留的是局部信息。5.2維度約減謝謝!第六章數(shù)據(jù)回歸分析大數(shù)據(jù)管理與應用——主編:王剛副主編:劉婧、邵臻數(shù)據(jù)回歸分析作為大數(shù)據(jù)分析中的一個重要的分支,在管理科學,社會經(jīng)濟學領(lǐng)域中被廣泛使用。在本章中您將了解數(shù)據(jù)回歸分析的整體概述,掌握常用的回歸分析方法包括線性回歸分析,嶺回歸分析和LASSO回歸分析,廣義線性回歸,非線性回歸的基本概念以及建模過程。數(shù)據(jù)回歸分析概述線性回歸分析嶺回歸和LASSO回歸分析廣義線性回歸分析非線性回歸分析第六章
數(shù)據(jù)回歸分析01數(shù)據(jù)回歸分析概述02線性回歸分析03嶺回歸和LASSO回歸分析04廣義線性回歸分析05非線性回歸分析
1.1回歸分析概念回歸描述了兩種及兩種以上的變量間的相關(guān)關(guān)系。按照涉及的特征變量的多少,可以將回歸分為一元回歸分析和多元回歸分析;按照變量間的關(guān)系類型,分為線性回歸分析和非線性回歸分析。嶺回歸分析及LASSO分析是基于正則化的回歸方法。并且,由于線性回歸模型通常需要滿足樣本標簽服從正態(tài)分布的假設前提,然而在實際問題中,樣本標簽的分布有時并不能滿足上述假設,因而可以用來分析連續(xù)型樣本標簽和任意型特征變量之間關(guān)系的廣義線性回歸方法,也是回歸分析中的一類經(jīng)典方法。1.2回歸分析的基本類型變量間關(guān)系變量的數(shù)量回歸類型線性回歸單個樣本標簽,單個特征變量一元線性回歸單個樣本標簽,多個特征變量多元線性回歸多個樣本標簽,多個特征變量多個樣本標簽與多個特征變量的回歸非線性回歸單個樣本標簽,單個特征變量一元非線性回歸單個樣本標簽,單個特征變量多元非線性回歸表6-1回歸分析基本類型回歸分析方法是用來研究變量間關(guān)系,結(jié)構(gòu)分析以及模型預測的有效工具,在經(jīng)濟,管理,金融等各個領(lǐng)域中應用廣泛。從回歸分析方法應用的形式來看,回歸分析方法可以描述各個變量之間的關(guān)系,研究對樣本標簽造成影響的最主要因素,其影響方向以及影響程度等?;貧w分析方法可以進行結(jié)構(gòu)分析,即利用回歸模型的回歸系數(shù)來解釋各變量之間的數(shù)量關(guān)系?;貧w分析方法通常是利用歷史數(shù)據(jù)對已經(jīng)發(fā)生的現(xiàn)象活動進行模擬,找出變化的規(guī)律,進而通過特征變量在未來一段時間的估計值來預測樣本標簽,達到模型預測的目的。從回歸分析方法應用的場景來看,回歸分析方法的應用涉及多個方面,是輔助管理決策的有效工具。回歸分析方法是進行人口預測分析的一類經(jīng)典方法回歸分析方法在輔助市場參與者進行需求預測以及規(guī)劃倉儲方案上具有實際的應用利用學生的校園行為數(shù)據(jù),結(jié)合回歸分析方法,可以優(yōu)化學生培養(yǎng)和管理工作。1.3回歸分析的應用線性回歸(LinearRegression)是回歸分析方法中的一類,主要是對一個或多個特征變量和樣本標簽之間的關(guān)系進行建模的一種回歸分析方法。在線性回歸過程中,使用線性回歸方程對已知數(shù)據(jù)進行建模,并利用這些數(shù)據(jù)對未知的模型參數(shù)進行估計,最終模擬關(guān)于特征變量和樣本標簽的線性變化關(guān)系。線性回歸函數(shù)是一個或多個回歸系數(shù)與特征變量的線性組合,當線性回歸函數(shù)中只有一個特征變量時稱之為一元線性回歸,當有大于一個特征變量的情況稱之為多元線性回歸。實現(xiàn)方法直接,建模速度快,計算簡單??山忉屝詮?,各個特征變量對樣本標簽的影響強弱都可以通過特征變量前面的系數(shù)進行體現(xiàn)。對特征變量和樣本標簽之間的相關(guān)性進行量化,識別出與樣本標簽不相關(guān)的特征變量以及對樣本標簽具有重要影響力的特征變量。2.1線性回歸分析概述線性回歸分析的應用場景廣泛,在金融預測、經(jīng)濟預測以及探究觀測數(shù)據(jù)的因果關(guān)系的觀察性研究中被普遍應用。
2.2線性回歸分析建模過程圖6-1一元線性回歸模型
2.2線性回歸分析建模過程
2.2線性回歸分析建模過程
2.2線性回歸分析建模過程
2.2線性回歸分析建模過程
2.2線性回歸分析建模過程
3.1嶺回歸分析
3.1嶺回歸分析
3.1嶺回歸分析
3.1嶺回歸分析嶺回歸的算法偽代碼:3.1嶺回歸分析LASSO回歸分析概述LASSO(LeastAbsoluteShrinkageandSelectionOperator),是由1996年RobertTibshirani首次提出,其主要是通過在最小二乘法的基礎(chǔ)上添加一個懲罰函數(shù),壓縮回歸系數(shù),使得其同時具有子集選擇和嶺回歸的優(yōu)點。LASSO回歸的主要思想是通過限制回歸系數(shù)絕對值之和小于某個固定值來實現(xiàn)對最小二乘的約束,其同時能夠使一些回歸系數(shù)為零,從而實現(xiàn)其變量選擇的作用。由此可以看出,LASSO具有較好的防止過擬合的作用。因為在樣本的特征變量過多的情況下,通過訓練模型能夠較好地擬合訓練數(shù)據(jù),達到損失函數(shù)接近于0,而這一過程也會造成使訓練的模型無法在新的數(shù)據(jù)樣本中繼續(xù)保持較好的預測效果。在這種情況下,LASSO通過加入正則項,對樣本的特征變量實現(xiàn)變量選擇的作用,降低在訓練模型過程中的過擬合風險。3.2LASSO回歸分析
3.2LASSO回歸分析
3.2LASSO回歸分析
3.2LASSO回歸分析圖6-3LASSO及嶺回歸模型示意圖
3.2LASSO回歸分析
4.1廣義線性回歸分析概述
4.1廣義線性回歸分析概述
4.2泊松回歸分析
4.2泊松回歸分析
4.2泊松回歸分析
4.2泊松回歸分析非線性回歸是線性回歸分析的一種擴展,當非線性回歸中只有單個特征變量時稱為一元非線性回歸,當含有多個特征變量時則稱為多元非線性回歸。非線性回歸問題一般可分為將非線性變換成線性和不能變換成線性兩大類。常用的可轉(zhuǎn)換為線性回歸模型的非線性回歸模型有冪函數(shù),指數(shù)函數(shù),對數(shù)函數(shù)等,各非線性函數(shù)表達式。5.1非線性回歸分析概述表6-2可轉(zhuǎn)換為線性函數(shù)的非線性函數(shù)
5.2指數(shù)函數(shù)模型
5.2指數(shù)函數(shù)模型圖6-4指數(shù)函數(shù)模型圖
5.2指數(shù)函數(shù)模型
5.2指數(shù)函數(shù)模型謝謝!第七章數(shù)據(jù)分類分析大數(shù)據(jù)管理與應用——主編:王剛副主編:劉婧、邵臻分類分析是一種對離散標簽進行預測的監(jiān)督學習方法,其目的是從給定的分類訓練數(shù)據(jù)中學習分類模型,數(shù)據(jù)分類分析在許多場景下都有重要應用,如客戶流失預測、客戶信用風險等級預測和國家電網(wǎng)客戶用電異常行為分析等。在本章中您將了解數(shù)據(jù)分類分析的基本概念,掌握數(shù)據(jù)分類分析的六種基本類型及其典型方法,并了解數(shù)據(jù)分類分析如何應用于實際場景。數(shù)據(jù)分類分析概述基于函數(shù)的分類分析基于概率的分類分析基于最近鄰的分類分析基于決策樹的分類分析基于規(guī)則的分類分析集成分類分析第七章
數(shù)據(jù)分類分析01數(shù)據(jù)分類分析概述02基于函數(shù)的分類分析03基于概率的分類分析04基于最近鄰的分類分析05基于決策樹的分類分析06基于規(guī)則的分類分析07集成分類分析
1.1分類分析基本概念分類分析的基本類型主要可以分為以下六類:基于函數(shù)的分類分析基于概率的分類分析基于最近鄰的分類分析基于決策樹的分類分析基于規(guī)則的分類分析集成分類分析1.2分類分析基本類型客戶流失預測企業(yè)利用大量的銷售數(shù)據(jù)構(gòu)建客戶流失分類模型,幫助業(yè)務人員識別哪些客戶有流失的風險,并找出客戶流失的原因,從而公司能夠及時采取相應的措施挽留客戶??蛻粜庞蔑L險等級預測銀行基于客戶的基本信息、銀行流水記錄和借貸信息等相關(guān)數(shù)據(jù)構(gòu)建信用風險等級分類模型,對客戶的信用風險等級進行劃分,從而確保信用風險較低的客戶能夠得到貸款。國家電網(wǎng)客戶用電異常行為分析電網(wǎng)公司通過收集海量的用電數(shù)據(jù)構(gòu)建用電行為特征,如周統(tǒng)計指標、月統(tǒng)計指標和季度用電量等,并基于這些特征來構(gòu)建客戶用電異常行為分類模型,從而保證正常的供電秩序。其他領(lǐng)域電子商城的優(yōu)惠券使用預測、商品圖片分類、中文語料的類別分析和情感分析、基于文本內(nèi)容的垃圾短信識別、自動駕駛場景中的交通標志檢測、監(jiān)控場景下的行人精細化識別等。1.3分類分析的應用
2.1基于函數(shù)的分類分析的概念
2.2Logistic回歸模型
2.2Logistic回歸模型
2.2Logistic回歸模型圖7-1邏輯函數(shù)的圖像
2.2Logistic回歸模型圖7-2交叉熵損失函數(shù)的圖像
2.2Logistic回歸模型
3.1基于概率的分類分析的概念樸素貝葉斯模型概述樸素貝葉斯模型是一種簡單而高效的分類模型,可以基于貝葉斯定理和條件獨立假設計算出待分類項在其當前條件下各個可能類別出現(xiàn)的概率,并將取得最大值的那個類別作為最終輸出結(jié)果。樸素貝葉斯模型主要的思想就是在已給定特征屬性值的前提下找到出現(xiàn)概率最大的類別標簽。“樸素”是指其在估計類條件概率時假設各個特征屬性之間條件獨立,這也是其易于操作的原因。3.2樸素貝葉斯模型
3.2樸素貝葉斯模型
3.2樸素貝葉斯模型
3.2樸素貝葉斯模型基于K最近鄰(K-NearestNeighbor,KNN)的分類分析將一組已分類點中最接近的分類分配給一個未分類的樣本點,與其他分類方法不同,最近鄰分類法是一種惰性學習方法,不需要在給定樣本的基礎(chǔ)上進行訓練,而是在給出需要預測的新樣本后,通過新樣本最鄰近的樣本標簽來確定其預測分類。最近鄰分類分析是一種非參數(shù)方法,比較簡單、直觀、易于實現(xiàn)。為了解決最近鄰算法對噪聲數(shù)據(jù)過于敏感的缺陷,可以采用擴大參與決策的樣本量的方法,使用K個鄰近點進行決策,形成了KNN分類法。KNN分類法可以生成任意形狀的決策邊界,較其他分類器更為靈活,特別適合于多分類問題,目前該方法已廣泛應用于新聞文本分類和遙感圖像分類等。4.1基于最近鄰的分類分析的概念KNN模型概述KNN分類法是一種基于樣本的惰性學習方法。如果一個樣本在特征空間中的K個最鄰近的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別。KNN算法的基本思想:假設給定一個訓練數(shù)據(jù)集,其中的樣本類別已定,對于新的樣本,根據(jù)其K個最近鄰的訓練樣本的類別,通過多數(shù)表決等方式來進行預測,輸出為預測新樣本的類別標簽。4.2KNN模型
4.2KNN模型
4.2KNN模型KNN的分類決策規(guī)則一般使用多數(shù)投票法,即根據(jù)離樣本最近的K個訓練樣本中的多數(shù)類,決定預測樣本類別。此外,還可以根據(jù)距離遠近進行加權(quán)投票,距離越近的樣本權(quán)重越大。算法KNN模型的算法偽代碼:4.2KNN模型決策樹模型是一種呈樹形結(jié)構(gòu)的機器學習模型,它由一個根節(jié)點、若干個內(nèi)部節(jié)點和葉節(jié)點構(gòu)成,其中,根節(jié)點和內(nèi)部節(jié)點表示特征,葉節(jié)點則表示類標簽。從根節(jié)點到一個葉節(jié)點對應了一條判定規(guī)則,決策樹模型的學習目標就是通過遞歸的手段對特征空間進行劃分,從而構(gòu)造一個從根節(jié)點聯(lián)通到不同葉節(jié)點的決策樹。因此,在分類問題中,決策樹模型可以認為是if-then規(guī)則的集合。最早的決策樹模型由Hunt等人于1966年提出,該模型也是許多決策樹模型的基礎(chǔ),包括ID3、C4.5、C5.0和CART(ClassificationAndRegressionTrees)等。決策樹模型的學習分為特征選擇、決策樹生成和決策樹剪枝三個步驟。特征選擇是決策樹模型進行特征空間劃分的依據(jù),也是構(gòu)建決策樹模型的核心。Quinlan提出的ID3和C4.5模型分別使用信息增益(InformationGain)和信息增益率(InformationGainRatio)進行特征選擇,Breiman等人提出的CART模型則使用了基尼(Gini)系數(shù)作為特征選擇的依據(jù)。5.1基于決策樹的分類分析的概念I(lǐng)D3決策樹模型概述ID3決策樹模型是一種通過信息增益對特征空間進行劃分的決策樹模型。ID3模型的主要思想就是使得最終的葉結(jié)點中的樣本盡可能為同類樣本,即樣本盡可能“純”。但是決策樹無法直接得到整個模型的結(jié)構(gòu),需要采用遞歸算法通過選擇特征不斷地對特征空間進行切分,使得切分后得到的子樣本集盡可能“純”。ID3決策樹模型引進信息熵理論描述樣本的“不純度”,即使用信息增益選擇最優(yōu)劃分特征。5.2ID3決策樹模型
5.2ID3決策樹模型
5.2ID3決策樹模型算法為使得損失函數(shù)最小,需要使得決策樹總體的熵最小,因此決策樹模型的優(yōu)化算法是一個使決策樹的熵不斷減少的過程。ID3算法采用“分而治之”策略進行優(yōu)化,并采用信息增益作為衡量熵減少的程度。決策樹模型的算法偽代碼:5.2ID3決策樹模型
6.1基于規(guī)則的分類分析的概念
6.2RIPPER模型
6.2RIPPER模型算法RIPPER算法主要分為兩個步驟,第一步是規(guī)則集的生成,第二步是規(guī)則集的優(yōu)化。RIPPER模型能夠通過局部優(yōu)化方式得到規(guī)則集,然后通過全局優(yōu)化的方式緩解了局部優(yōu)化的局限性,因而能夠取得比較好的學習效果。RIPPER算法的偽代碼:6.2RIPPER模型集成分類模型通過訓練并組合多個分類器的優(yōu)勢來提升性能,這種組合模型也被稱為“委員會”(Committee)。集成分類模型一般包括兩個步驟,首先通過訓練集生成一組基分類器(BaseClassifier),然后對基分類器的預測結(jié)果進行組合。根
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- Unit 2 Topic 3 Must we exercise to prevent the flu Section B 教學設計 2024-2025學年仁愛科普版英語八年級上冊
- 三年級語文下冊 第一單元 習作:我的植物朋友教學設計 新人教版
- 2017-2018年八年級心理健康教育 意志力非小事 教學設計
- 4古詩三首《山行》(教學設計)2024-2025學年統(tǒng)編版語文三年級上冊
- 新學期班級課件
- 森林小劇場課件
- Unit6 Rain or Shine Section A Pronunciation 教學設計 2024-2025學年人教版英語七年級下冊
- 2023六年級語文上冊 第八單元 26 好的故事教學設計 新人教版
- 《第7課 老師您好-每當我走過老師窗前》(教案)-人音版(2012)音樂三年級下冊
- ××崗位競聘報告
- 農(nóng)村生活污水治理提升工程-初步設計說明
- 財政投資評審咨詢服務預算和結(jié)算評審項目投標方案(技術(shù)標)
- 學校食品安全工作領(lǐng)導小組及具體職責分工
- 一年級語文下冊《荷葉圓圓》課件
- 旅游概論(劉偉主編)(全國高職高專旅游類“十二五”示范教材) 全套課件(中)
- 2023年中國疾病預防控制中心招聘應屆高校畢業(yè)生考試真題及答案
- 2024年建筑業(yè)10項新技術(shù)
- 建設工程檢測報告編制導則DB64-T1685-2020
- 項目干系人與干系人管理
- Java基礎(chǔ)實踐教程-Java編程基礎(chǔ)
- 改善患者就醫(yī)體驗培訓課件
評論
0/150
提交評論