項目一 大數(shù)據(jù)處理概論_第1頁
項目一 大數(shù)據(jù)處理概論_第2頁
項目一 大數(shù)據(jù)處理概論_第3頁
項目一 大數(shù)據(jù)處理概論_第4頁
項目一 大數(shù)據(jù)處理概論_第5頁
已閱讀5頁,還剩23頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

財務(wù)大數(shù)據(jù)分析

—大數(shù)據(jù)處理概論學(xué)生在教師的引導(dǎo)下形成財務(wù)大數(shù)據(jù)分析的基本理論框架,并完成思維導(dǎo)圖進行分組匯報單元預(yù)期學(xué)習(xí)成果:目錄大數(shù)據(jù)處理流程大數(shù)據(jù)處理技術(shù)體系大數(shù)據(jù)常用處理方法目錄大數(shù)據(jù)處理流程大數(shù)據(jù)處理技術(shù)體系大數(shù)據(jù)常用處理方法大數(shù)據(jù)處理流程大數(shù)據(jù)采集大數(shù)據(jù)預(yù)處理大數(shù)據(jù)計算分析大數(shù)據(jù)挖掘利用網(wǎng)絡(luò)爬蟲等技術(shù)主動收集信息利用物聯(lián)網(wǎng)的智能終端接收各種設(shè)備數(shù)據(jù)利用App、WEB應(yīng)用系統(tǒng)等各種客戶端接收應(yīng)用數(shù)據(jù)……對原始數(shù)據(jù)進行必要的清理、集成、轉(zhuǎn)換、規(guī)約等利用分布式數(shù)據(jù)庫對存儲其內(nèi)的海量數(shù)據(jù)進行計算分析、分類匯總

根據(jù)大數(shù)據(jù)的價值,對其進行關(guān)聯(lián)規(guī)則挖掘、分類、聚類、異常檢測、演變分析、特異群組分析等各種數(shù)據(jù)挖掘處理目錄大數(shù)據(jù)處理流程大數(shù)據(jù)處理技術(shù)體系大數(shù)據(jù)常用處理方法大數(shù)據(jù)處理技術(shù)體系數(shù)據(jù)獲取層大數(shù)據(jù)計算與存儲層數(shù)據(jù)挖掘模型與算法層應(yīng)用領(lǐng)域技術(shù)層數(shù)據(jù)格式、協(xié)議轉(zhuǎn)換、提取分布式內(nèi)存數(shù)據(jù)庫網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)探針Web網(wǎng)頁、Web應(yīng)用、文檔、多媒體、APPETL內(nèi)存數(shù)據(jù)庫關(guān)系型數(shù)據(jù)庫HDFS/TachyOn……資源管理YARN/MesosNoSQLHbaseMongoDB…MapReduceSparkCoreHivePigSparkSQLStormSparkGraphXSparkStreaming特征選擇Mahout特征提取文本表示模型對象屬性識別數(shù)據(jù)語義圖算法大數(shù)據(jù)分析算法隱私保護WekaOryxSparkMlib用戶畫像分析風(fēng)險監(jiān)控行為分析數(shù)據(jù)發(fā)布目錄大數(shù)據(jù)處理流程大數(shù)據(jù)處理技術(shù)體系大數(shù)據(jù)常用處理方法大數(shù)據(jù)處理內(nèi)容與方法Web頁面獲取網(wǎng)頁爬蟲動態(tài)Web頁面獲取微博信息內(nèi)容獲取DeepWeb數(shù)據(jù)獲取互聯(lián)網(wǎng)大數(shù)據(jù)提取基于正則表達式的信息提取技術(shù)基于基于HTML結(jié)構(gòu)的信息抽取技術(shù)基于統(tǒng)計的信息抽取技術(shù)大數(shù)據(jù)結(jié)構(gòu)化處理詞匯切分詞性識別新詞識別停用詞處理大數(shù)據(jù)語義分析詞匯級別語義技術(shù)句子級別語義技術(shù)命名實體識別技術(shù)WEB頁面獲取網(wǎng)頁爬蟲內(nèi)核技術(shù)頁面頁面Web服務(wù)器WEB服務(wù)器連接器頁面解析器URL過濾爬行策略搜索DNS緩存URL爬行任務(wù)……動態(tài)網(wǎng)頁獲取模擬瀏覽器實現(xiàn)腳本解析執(zhí)行動態(tài)頁面的主要特征:用戶請求,服務(wù)器臨時內(nèi)容頁面交互與顯示取決于發(fā)起的客戶端微博信息內(nèi)容獲取通過模擬用戶行為采集數(shù)據(jù)通過模擬移動終端采集數(shù)據(jù)通過微博開放的API獲取數(shù)據(jù)DeepWeb數(shù)據(jù)獲取Web表單頁面獲取表單頁面解析尋找表單表單過濾表單處理標(biāo)簽匹配標(biāo)簽抽取標(biāo)簽表項填寫提交表單請求獲取結(jié)果頁面表單結(jié)果提取結(jié)果處理領(lǐng)域本體知識庫互聯(lián)網(wǎng)大數(shù)據(jù)提取Web頁面種類新聞報道型頁面列表型頁面評論型頁面大數(shù)據(jù)抽取的三種技術(shù)基于正則表達式的信息抽取基于HTML結(jié)構(gòu)的信息抽取互聯(lián)網(wǎng)大數(shù)據(jù)抽取基于統(tǒng)計的信息抽取大數(shù)據(jù)結(jié)構(gòu)化處理詞匯切分對句子進行短句切分對每個短句進行詞匯切分歧義識別、消解等開始結(jié)束詞匯切分的流程基于詞典的分詞方法基于統(tǒng)計的分詞方法詞匯切分的方法詞匯切分的方法詞性識別詞性識別基于規(guī)則的方法基于統(tǒng)計的方法N-gram模型,隱馬爾科夫模型(HiddenMarkovModel,HMM)新詞識別隱馬爾科夫模型(HMM)、決策樹模型(DT)、支持向量機模型(SVM)、神經(jīng)網(wǎng)絡(luò)模型、N-gram模型、最大熵模型新詞識別基于規(guī)則基于統(tǒng)計構(gòu)詞學(xué)原理停用詞處理停用詞表基于人工構(gòu)建基于統(tǒng)計構(gòu)建通用停用詞專用停用詞大數(shù)據(jù)語義分析基本的語義分析任務(wù)分析句子主謂賓結(jié)構(gòu)分析句子的詞語修飾關(guān)系基本單元分析識別,如:時間信息、地點信息基本語義分析任務(wù)詞匯級別語義關(guān)系研究詞匯之間的語義相關(guān)度詞匯之間的語義關(guān)系類型判斷詞匯語義關(guān)系研究詞匯屬性判斷詞匯之間的同義或反義關(guān)系判斷句子級別語義分析技術(shù)句子級別語義分析研究句法結(jié)構(gòu)語義結(jié)構(gòu)詞與詞之間的關(guān)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論