版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、6.2 大數(shù)據(jù)分析的關(guān)鍵技術(shù)主要教學(xué)內(nèi)容: 大數(shù)據(jù)采集技術(shù)大數(shù)據(jù)預(yù)處理技術(shù)大數(shù)據(jù)存儲與管理技術(shù)大數(shù)據(jù)挖掘分析技術(shù)大數(shù)據(jù)展現(xiàn)與應(yīng)用技術(shù)大數(shù)據(jù)分析的關(guān)鍵技術(shù) 根據(jù)大數(shù)據(jù)分析的流程,大數(shù)據(jù)分析的關(guān)鍵技術(shù)可分為數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲與管理、數(shù)據(jù)挖掘分析、數(shù)據(jù)可視化等技術(shù)。提供大數(shù)據(jù)服務(wù)平臺所需的虛擬服務(wù)器,以及結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)庫與物聯(lián)網(wǎng)資源等基礎(chǔ)支撐環(huán)境。一、大數(shù)據(jù)采集技術(shù) 大數(shù)據(jù)采集是指通過射頻識別(Radio Frequency Identification,RFID)數(shù)據(jù)、傳感器數(shù)據(jù)、社交網(wǎng)絡(luò)交互數(shù)據(jù)、移動互聯(lián)網(wǎng)數(shù)據(jù)等渠道或方式,獲得各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化(或稱弱
2、結(jié)構(gòu)化)以及非結(jié)構(gòu)化的海量數(shù)據(jù)的過程。大數(shù)據(jù)采集系統(tǒng)主要由大數(shù)據(jù)智能感知層、基礎(chǔ)支撐層等組成。(1)大數(shù)據(jù)智能感知層:在該層必須著重攻克大數(shù)據(jù)源的智能識別、感知、適配、傳輸、接入等技術(shù)。(2)基礎(chǔ)支撐層:在該層需要重點(diǎn)攻克分布式虛擬存儲技術(shù),大數(shù)據(jù)獲取、存儲、組織、分析和決策操作的可視化接口技術(shù),大數(shù)據(jù)的網(wǎng)絡(luò)傳輸與壓縮技術(shù),大數(shù)據(jù)隱私保護(hù)技術(shù)等。主要包括數(shù)據(jù)傳感體系、網(wǎng)絡(luò)通信體系、傳感適配體系、智能識別體系及軟硬件資源接入系統(tǒng),實現(xiàn)對結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的海量數(shù)據(jù)的智能化識別、定位、跟蹤、接入、傳輸以及信號轉(zhuǎn)換、監(jiān)控、初步處理和管理等。二、大數(shù)據(jù)預(yù)處理技術(shù) 大數(shù)據(jù)預(yù)處理技術(shù)主要完成對已接
3、收數(shù)據(jù)的辨析、抽取、清洗等操作。 (1)抽取 (2)清洗因獲取的數(shù)據(jù)可能具有多種結(jié)構(gòu)和類型,數(shù)據(jù)抽取過程可以幫助人們將這些復(fù)雜的數(shù)據(jù)轉(zhuǎn)化為單一的或者便于處理的結(jié)構(gòu)和類型,以達(dá)到快速分析處理的目的。大數(shù)據(jù)并不全都是有價值的,有些數(shù)據(jù)并不是人們所關(guān)心的內(nèi)容,而另一些數(shù)據(jù)則可能是完全錯誤的干擾項,因此,要對數(shù)據(jù)進(jìn)行過濾“去噪”從而提取出有效數(shù)據(jù)。三、大數(shù)據(jù)存儲與管理技術(shù)大數(shù)據(jù)存儲與管理技術(shù)主要包括以下幾方面的技術(shù)。(1)復(fù)雜結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化大數(shù)據(jù)管理與處理技術(shù)。(2)開發(fā)新型數(shù)據(jù)庫技術(shù)。(3)高效、低成本的大數(shù)據(jù)存儲技術(shù)。(4)大數(shù)據(jù)可視化技術(shù)。(5)大數(shù)據(jù)安全技術(shù)。此類技術(shù)包括改進(jìn)數(shù)據(jù)銷
4、毀、透明加解密、分布式訪問控制、數(shù)據(jù)審計技術(shù)等,以及突破隱私保護(hù)和推理控制、數(shù)據(jù)真?zhèn)巫R別和取證、數(shù)據(jù)持有完整性驗證等技術(shù)。此類技術(shù)主要解決大數(shù)據(jù)的可存儲、可表示、可處理、可靠性及有效傳輸?shù)汝P(guān)鍵問題。此類技術(shù)包括分布式非關(guān)系型大數(shù)據(jù)管理與處理技術(shù)、異構(gòu)數(shù)據(jù)的數(shù)據(jù)融合技術(shù)、數(shù)據(jù)組織技術(shù)、大數(shù)據(jù)建模技術(shù)、大數(shù)據(jù)索引技術(shù)等。此類技術(shù)包括開發(fā)可靠的分布式文件系統(tǒng),實現(xiàn)存儲、計算融入存儲、大數(shù)據(jù)的去冗余等,以及大數(shù)據(jù)移動、備份、復(fù)制等技術(shù)。數(shù)據(jù)庫分為關(guān)系型數(shù)據(jù)庫、非關(guān)系型數(shù)據(jù)庫等。數(shù)據(jù)科學(xué) 1.數(shù)據(jù)科學(xué)技能和熟練程度 在上表中列出的這25項技能,反映了通常與數(shù)據(jù)科學(xué)家相關(guān)的技能集合。在進(jìn)行針對數(shù)據(jù)科學(xué)家的
5、調(diào)查中,調(diào)查者要求數(shù)據(jù)專業(yè)人員指出他們在25項不同數(shù)據(jù)科學(xué)技能上的熟練程度。 這項研究數(shù)據(jù)基于620名被訪的數(shù)據(jù)專業(yè)人士,具備某種技能的百分比反映了指出他在該技能上至少中等熟練程度的被訪問者比例職位角色,即:商業(yè)經(jīng)理 = 250;開發(fā)人員 = 222;創(chuàng)意人員 = 221;研究人員 = 353。數(shù)據(jù)科學(xué) 2.重要數(shù)據(jù)科學(xué)技能分析表明,所有數(shù)據(jù)專業(yè)人員中最常見的數(shù)據(jù)科學(xué)十大技能是:統(tǒng)計 溝通(87%)技術(shù) 處理結(jié)構(gòu)化數(shù)據(jù)(75%)數(shù)學(xué)&建模 數(shù)學(xué)(71%)商業(yè) 項目管理(71%)統(tǒng)計 數(shù)據(jù)挖掘和可視化工具(71%)統(tǒng)計 科學(xué)/科學(xué)方法(65%)統(tǒng)計 數(shù)據(jù)管理(65%)商業(yè) 產(chǎn)品設(shè)計和開發(fā)(59%
6、)統(tǒng)計 統(tǒng)計學(xué)和統(tǒng)計建模(59%)商業(yè) 商業(yè)開發(fā)(53%)數(shù)據(jù)科學(xué)3.因職業(yè)角色而異的十大技能(1)商業(yè)經(jīng)理:統(tǒng)計溝通(91%)商業(yè)項目管理(86%)商業(yè)商業(yè)開發(fā)(77%)技術(shù)處理結(jié)構(gòu)化數(shù)據(jù)(74%)商業(yè) 預(yù)算(71%)商業(yè) 產(chǎn)品設(shè)計和開發(fā)(70%)數(shù)學(xué)&建模 數(shù)學(xué)(65%)統(tǒng)計 數(shù)據(jù)管理(64%)統(tǒng)計- -數(shù)據(jù)挖掘和可視化工具(64%)商業(yè) 管理和兼容性(61%)(2)開發(fā)人員:技術(shù) 管理結(jié)構(gòu)化數(shù)據(jù)(91%)統(tǒng)計 溝通(85%)統(tǒng)計 數(shù)據(jù)挖掘和可視化工具(76%)商業(yè) 產(chǎn)品設(shè)計(75%)數(shù)學(xué)&建模 數(shù)學(xué)(75%)統(tǒng)計 數(shù)據(jù)管理(75%)商業(yè) 項目管理(74%)編程 數(shù)據(jù)庫管理(73%)編程
7、后端編程(70%)編程 系統(tǒng)管理(65%)數(shù)據(jù)科學(xué)數(shù)據(jù)科學(xué)(3)創(chuàng)意人員:統(tǒng)計 溝通(87%)技術(shù) 處理結(jié)構(gòu)化數(shù)據(jù)(79%)商業(yè) 項目管理(77%)統(tǒng)計 數(shù)據(jù)挖掘和可視化工具(77%)數(shù)學(xué)&建模 數(shù)學(xué)(75%)商業(yè) 產(chǎn)品設(shè)計和開發(fā)(68%)統(tǒng)計 科學(xué)/科學(xué)方法(68%)統(tǒng)計 數(shù)據(jù)管理(67%)統(tǒng)計 統(tǒng)計學(xué)和統(tǒng)計建模(63%)商業(yè) 商業(yè)開發(fā)(58%)四、大數(shù)據(jù)挖掘分析技術(shù) 從挖掘任務(wù)和挖掘方法的角度,大數(shù)據(jù)挖掘分析的關(guān)鍵技術(shù)如下: (1)可視化分析 (2)數(shù)據(jù)挖掘分析 (3)預(yù)測性分析 (4)語義引擎 (5)數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理數(shù)據(jù)圖像化是將機(jī)器語言以人類能夠理解的形式呈現(xiàn)出來,讓用戶直觀地看到結(jié)果。數(shù)據(jù)挖掘采用機(jī)器語言,通過分割、集群、孤立點(diǎn)分析等算法精練數(shù)據(jù)、挖掘價值。要求這些算法既能夠應(yīng)付大量的數(shù)據(jù),還要具有很高的處理速度??梢宰寯?shù)據(jù)分析師根據(jù)圖像化分析和數(shù)據(jù)挖掘的結(jié)果做出一些前瞻性判斷。語義引擎需要有足夠的人工智能,以便它能從數(shù)據(jù)中主動提取信息。語義處理技術(shù)包括機(jī)器翻譯、情感分析、輿情分析、智能輸入、問答系統(tǒng)等。通過標(biāo)準(zhǔn)化流程和機(jī)器對數(shù)據(jù)進(jìn)行處理,可以確保獲得與預(yù)期質(zhì)量相符合的分析結(jié)果。五、大數(shù)據(jù)展現(xiàn)與應(yīng)用技術(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 武漢體育學(xué)院體育科技學(xué)院《智能制造技術(shù)基礎(chǔ)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2024版企業(yè)財務(wù)數(shù)據(jù)保密合作合同版B版
- 2024版影視作品制作與發(fā)行協(xié)議
- 2024自然人互貸現(xiàn)金協(xié)議樣式大全版B版
- 2024門店勞動法執(zhí)行標(biāo)準(zhǔn)勞動合同范本解析3篇
- 二零二五年度鋼筋班組勞務(wù)分包安全生產(chǎn)責(zé)任合同3篇
- 專業(yè)測量員招聘協(xié)議樣本2024
- 二零二五版保險資金股權(quán)質(zhì)押反擔(dān)保貸款合同3篇
- 二零二五年度床上用品原材料進(jìn)口與加工合同3篇
- 二零二五版人工智能應(yīng)用第三方履約擔(dān)保協(xié)議3篇
- 【譯林版】六年級英語(下冊)單詞默寫單
- 高中英語名詞性從句講解
- 計算機(jī)二級wps題庫及答案
- 整套課件:工業(yè)催化
- 爆破安全管理知識培訓(xùn)
- 旅游地理學(xué)教案
- 煤矸石綜合利用途徑課件
- 企業(yè)信息公示聯(lián)絡(luò)員備案申請表
- 衛(wèi)生部關(guān)于發(fā)布《綜合醫(yī)院組織編制原則試行草案》的通知((78)衛(wèi)醫(yī)字第1689號)
- 挑戰(zhàn)杯生命科學(xué)獲獎作品范例
- 醫(yī)院崗位設(shè)置與人員編制標(biāo)準(zhǔn)
評論
0/150
提交評論