認(rèn)識(shí)大數(shù)據(jù)信息技術(shù)基礎(chǔ)課件_第1頁(yè)
認(rèn)識(shí)大數(shù)據(jù)信息技術(shù)基礎(chǔ)課件_第2頁(yè)
認(rèn)識(shí)大數(shù)據(jù)信息技術(shù)基礎(chǔ)課件_第3頁(yè)
認(rèn)識(shí)大數(shù)據(jù)信息技術(shù)基礎(chǔ)課件_第4頁(yè)
認(rèn)識(shí)大數(shù)據(jù)信息技術(shù)基礎(chǔ)課件_第5頁(yè)
已閱讀5頁(yè),還剩15頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

信息技術(shù)基礎(chǔ)Informationtechnologybase認(rèn)識(shí)大數(shù)據(jù)Windows10+Office2016認(rèn)識(shí)大數(shù)據(jù)1大數(shù)據(jù)的概念2大數(shù)據(jù)的特征3數(shù)據(jù)的計(jì)量單位4大數(shù)據(jù)處理的基本流程5大數(shù)據(jù)的典型應(yīng)用領(lǐng)域?qū)W習(xí)情景情景描述王明在使用計(jì)算機(jī)時(shí)發(fā)現(xiàn),網(wǎng)頁(yè)中經(jīng)常會(huì)推薦一些他曾經(jīng)搜索或關(guān)注過(guò)的信息,如前段時(shí)間,他在天貓上購(gòu)買了件T恤,然后每次打開(kāi)天貓網(wǎng)頁(yè)時(shí),在推薦購(gòu)買區(qū)都會(huì)顯示一些同類的物品。王明覺(jué)得很神奇,經(jīng)過(guò)了解,才知道這是大數(shù)據(jù)技術(shù)的一種應(yīng)用,它將用戶的使用習(xí)慣、搜索習(xí)慣記錄到數(shù)據(jù)庫(kù)中,應(yīng)用獨(dú)特的算法計(jì)算出用戶可能感興趣或有需要的內(nèi)容,然后將相同的類目推薦到用戶眼前。今天我們就王明同學(xué)一起去了解大數(shù)據(jù)技術(shù)的定義和發(fā)展,了解數(shù)據(jù)的計(jì)量單位,熟悉大數(shù)據(jù)處理的基本流程和大數(shù)據(jù)的典型應(yīng)用案例。知識(shí)目標(biāo)能力目標(biāo)素質(zhì)目標(biāo)了解大數(shù)據(jù)的基本概念;了解大數(shù)據(jù)的應(yīng)用。利用大數(shù)據(jù)思維思考問(wèn)題培養(yǎng)學(xué)生的生活應(yīng)用知識(shí)與理論知識(shí)的銜接能力。目標(biāo)重點(diǎn)了解大數(shù)據(jù)的基本概念;了解大數(shù)據(jù)的應(yīng)用難點(diǎn)具備大數(shù)據(jù)思維能力重點(diǎn)難點(diǎn)1大數(shù)據(jù)的概念什么是大數(shù)據(jù)大數(shù)據(jù)是指無(wú)法在一定時(shí)間內(nèi)用常規(guī)軟件工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)技術(shù),是指從各種各樣類型的數(shù)據(jù)中,快速獲得有價(jià)值信息的能力。適用于大數(shù)據(jù)的技術(shù),包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫(kù),數(shù)據(jù)挖掘電網(wǎng),分布式文件系統(tǒng),分布式數(shù)據(jù)庫(kù),云計(jì)算平臺(tái),互聯(lián)網(wǎng),和可擴(kuò)展的存儲(chǔ)系統(tǒng)。2大數(shù)據(jù)的特征大數(shù)據(jù)的特征一是數(shù)據(jù)體量巨大(Volume)。截至目前,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB(1PB=210TB),而歷史上全人類說(shuō)過(guò)的所有的話的數(shù)據(jù)量大約是5EB(1EB=210PB)。二是數(shù)據(jù)類型繁多(Variety)。類型的多樣性讓數(shù)據(jù)被分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。相對(duì)于以往便于存儲(chǔ)的以文本為主的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)越來(lái)越多,包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等,多類型數(shù)據(jù)對(duì)數(shù)據(jù)的處理能力提出了更高要求。三是價(jià)值密度低(Value)。價(jià)值密度的高低與數(shù)據(jù)總量的大小成反比。以視頻為例,一部1小時(shí)的視頻,在連續(xù)不間斷的監(jiān)控中,有用數(shù)據(jù)可能僅有一二秒。如何通過(guò)強(qiáng)大的機(jī)器算法更迅速地完成數(shù)據(jù)的價(jià)值“提純”成為目前大數(shù)據(jù)背景下亟待解決的難題。四是處理速度快(Velocity)。這是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘的最顯著特征。在海量的數(shù)據(jù)面前,處理數(shù)據(jù)的效率就是企業(yè)的生命。3數(shù)據(jù)的計(jì)量單位數(shù)據(jù)的計(jì)量單位在研究和應(yīng)用大數(shù)據(jù)時(shí),經(jīng)常會(huì)接觸到數(shù)據(jù)存儲(chǔ)的計(jì)量單位,而隨著大數(shù)據(jù)的產(chǎn)生,數(shù)據(jù)的計(jì)量單位也在逐步發(fā)生變化。MB、GB等常用單位已無(wú)法有效地描述大數(shù)據(jù),典型的大數(shù)據(jù)一般會(huì)用到PB、EB和ZB這3種單位。數(shù)值換算單位名稱1024B=1KB千字節(jié)(KiloByte)1024KB=1MB兆字節(jié)(MegaByte)1024MB=1GB吉字節(jié)(GigaByte)1024GB=1TB太字節(jié)(TeraByte)1024TB=1PB拍字節(jié)(PetaByte)1024PB=1EB艾字節(jié)(ExaByte)1024EB=1ZB皆字節(jié)(ZettaByte)1024ZB=1YB佑字節(jié)(YottaByte)1024YB=1NB諾字節(jié)(NonaByte)4大數(shù)據(jù)處理的基本流程基本流程在處理大數(shù)據(jù)的過(guò)程中,通常需要經(jīng)過(guò)采集、導(dǎo)入、預(yù)處理、統(tǒng)計(jì)分析、數(shù)據(jù)挖掘和數(shù)據(jù)展現(xiàn)等步驟。數(shù)據(jù)抽取與集成:數(shù)據(jù)的抽取和集成是大數(shù)據(jù)處理的第一步,從抽取數(shù)據(jù)中提取出關(guān)系和實(shí)體,經(jīng)過(guò)關(guān)聯(lián)和聚合等操作,按照統(tǒng)一定義的格式對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)。數(shù)據(jù)分析:數(shù)據(jù)分析是大數(shù)據(jù)處理的核心步驟,在決策支持、商業(yè)智能、推薦系統(tǒng)、預(yù)測(cè)系統(tǒng)中應(yīng)用廣泛,在從異構(gòu)的數(shù)據(jù)源中獲取了原始數(shù)據(jù)后,將數(shù)據(jù)導(dǎo)入一個(gè)集中的大型分布式數(shù)據(jù)庫(kù)或分布式存儲(chǔ)集群,進(jìn)行一些基本的預(yù)處理工作,然后根據(jù)自己的需求對(duì)原始數(shù)據(jù)進(jìn)行分析。數(shù)據(jù)解釋和展現(xiàn):在完成數(shù)據(jù)的分析后,應(yīng)該使用合適的、便于理解的展示方式將正確的數(shù)據(jù)處理結(jié)果展示給終端用戶,可視化和人機(jī)交互是數(shù)據(jù)解釋的主要技術(shù)。5大數(shù)據(jù)的典型應(yīng)用領(lǐng)域醫(yī)藥研發(fā)醫(yī)藥公司能夠通過(guò)大數(shù)據(jù)技術(shù)分析來(lái)自互聯(lián)網(wǎng)上的公眾疾病藥品需求趨勢(shì),確定更有效率的投入產(chǎn)出比,合理配置有限研發(fā)資源。除此之外,在醫(yī)藥副作用研究方面,醫(yī)療大數(shù)據(jù)技術(shù)可以避免臨床試驗(yàn)法、藥物副作用報(bào)告分析法等傳統(tǒng)方法存在的樣本數(shù)小、采樣分布有限等問(wèn)題,從千百萬(wàn)患者的數(shù)據(jù)中挖掘到與某種藥物相關(guān)的不良反應(yīng),樣本數(shù)大,采樣分布廣,所獲得結(jié)果更具有說(shuō)服力。此外,還可以從社交網(wǎng)中搜索到大量人群服用某種藥物的不良反應(yīng)記錄,通過(guò)比對(duì)分析和數(shù)據(jù)挖掘方法,更科學(xué)、更全面地獲得藥物副作用的影響。金融領(lǐng)域銀行可以利用持卡人基本信息、卡基本信息、交易歷史、客戶歷史行為模式、正在發(fā)生行為模式等,結(jié)合智能規(guī)則引擎進(jìn)行實(shí)時(shí)的交易反欺詐分析。例如,IBM金融犯罪管理解決方案幫助銀行利用大數(shù)據(jù)有效地預(yù)防與管理金融犯罪;摩根大通銀行利用大數(shù)據(jù)技術(shù)追蹤盜取客戶賬號(hào)或侵入自動(dòng)柜員機(jī)(ATM)系統(tǒng)的罪犯。農(nóng)業(yè)領(lǐng)域大數(shù)據(jù)最普遍的應(yīng)用就是精準(zhǔn)農(nóng)業(yè)。通過(guò)對(duì)氣候、土壤和空氣質(zhì)量、作物成熟度,甚至是設(shè)備和勞動(dòng)力的成本及可用性方面的實(shí)時(shí)數(shù)據(jù)收集,預(yù)測(cè)分析可以用來(lái)做出更明智的決策,而這就是所謂的精準(zhǔn)農(nóng)業(yè)。推薦系統(tǒng)推薦系統(tǒng)可以通過(guò)電子商務(wù)網(wǎng)站向用戶提供商品信息和建議,如商品推薦、新聞推薦、視頻推薦等。而實(shí)現(xiàn)推薦過(guò)程則需要依賴大數(shù)據(jù),用戶在訪問(wèn)網(wǎng)站時(shí),網(wǎng)站會(huì)記錄和分析用戶的行為并建立模型,將該模型與數(shù)據(jù)庫(kù)中的產(chǎn)品進(jìn)行匹配后,才

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論