大數(shù)據(jù)導(dǎo)論-習(xí)題及答案匯總-黃源 第1-9章_第1頁
大數(shù)據(jù)導(dǎo)論-習(xí)題及答案匯總-黃源 第1-9章_第2頁
大數(shù)據(jù)導(dǎo)論-習(xí)題及答案匯總-黃源 第1-9章_第3頁
大數(shù)據(jù)導(dǎo)論-習(xí)題及答案匯總-黃源 第1-9章_第4頁
大數(shù)據(jù)導(dǎo)論-習(xí)題及答案匯總-黃源 第1-9章_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1.5習(xí)題(1)請闡述什么是大數(shù)據(jù)。(2)大數(shù)據(jù)有什么價(jià)值?(3)大數(shù)據(jù)有哪些意義?(1)大數(shù)據(jù)(bigdata),指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。(2)大數(shù)據(jù)是一種新的非物質(zhì)生產(chǎn)要素,蘊(yùn)含巨大的經(jīng)濟(jì)和社會價(jià)值,并將導(dǎo)致科學(xué)研究的深刻變革,對國家的經(jīng)濟(jì)發(fā)展、社會發(fā)展、科學(xué)進(jìn)展具有戰(zhàn)略性、全局性和長遠(yuǎn)性的意義。(3)數(shù)據(jù)成為當(dāng)今社會生產(chǎn)力的重要因素,只有將現(xiàn)有的數(shù)據(jù)進(jìn)行歸類整理,將零散的、不規(guī)范的數(shù)據(jù)進(jìn)行清洗關(guān)聯(lián),創(chuàng)建數(shù)據(jù)模型,進(jìn)行分析探索。才能挖掘數(shù)據(jù)背后的價(jià)值,發(fā)現(xiàn)事物運(yùn)行的規(guī)律,找到問題出現(xiàn)的根源所在,從而掌握業(yè)績增長的鑰匙。2.6習(xí)題(1)請闡述什么是云計(jì)算。(2)請闡述什么是人工智能。(3)請闡述什么是區(qū)塊鏈。(4)請闡述大數(shù)據(jù)與云計(jì)算、人工智能以及區(qū)塊鏈的區(qū)別和聯(lián)系。(1)云計(jì)算是一種按使用量付費(fèi)的模式,這種模式提供可用的、便捷的、按需的網(wǎng)絡(luò)訪問,進(jìn)入可配置的計(jì)算資源共享池(資源包括網(wǎng)絡(luò),服務(wù)器,存儲,應(yīng)用軟件,服務(wù)),這些資源能夠被快速提供,只需要投入管理工作,或與服務(wù)供應(yīng)商進(jìn)行很少的交互。(2)人工智能(ArtificialIntelligence,Al)是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。人工智能研究的一個(gè)主要目標(biāo)是使機(jī)器能夠勝任一些通常需要人類智能才能完成的復(fù)雜工作。(3)區(qū)塊鏈在本質(zhì)上是一種去中心化的分布式賬本。區(qū)塊鏈技術(shù)作為一種持續(xù)增長的、按序整理成區(qū)塊的鏈?zhǔn)綌?shù)據(jù)結(jié)構(gòu),通過網(wǎng)絡(luò)中多個(gè)節(jié)點(diǎn)共同參與數(shù)據(jù)的計(jì)算和記錄,并且互相驗(yàn)證其信息的有效性。(4)云計(jì)算與大數(shù)據(jù)之間又有著非常緊密的聯(lián)系,大數(shù)據(jù)是云計(jì)算非常重要的應(yīng)用場景,而云計(jì)算則為大數(shù)據(jù)的處理和數(shù)據(jù)挖掘都提供了最佳的技術(shù)解決方案。大數(shù)據(jù)技術(shù)的發(fā)展為人工智能打造了堅(jiān)實(shí)的素材基礎(chǔ)。大數(shù)據(jù)具有體量大、多樣性、價(jià)值密度低、速度快等特點(diǎn),大數(shù)據(jù)技術(shù)能夠通過數(shù)據(jù)采集、預(yù)處理、存儲及管理、分析及挖掘等方式,從各種各樣類型的海量數(shù)據(jù)中,快速獲得有價(jià)值信息,為深度學(xué)習(xí)等人工智能算法提供堅(jiān)實(shí)的素材基礎(chǔ)。人工智能的發(fā)展也需要學(xué)習(xí)大量的知識和經(jīng)驗(yàn),而這些知識和經(jīng)驗(yàn)就是數(shù)據(jù)、人工智能需要有大數(shù)據(jù)支撐,反過來人工智能技術(shù)也同樣促進(jìn)了大數(shù)據(jù)技術(shù)的進(jìn)步,兩者相輔相成,任何一方技術(shù)的突破都會促進(jìn)另外一方的發(fā)展。通過把大數(shù)據(jù)與區(qū)塊鏈相結(jié)合,能讓區(qū)塊鏈中的數(shù)據(jù)更有價(jià)值,也能讓大數(shù)據(jù)的預(yù)測分析落實(shí)為行動,它們都將是數(shù)字經(jīng)濟(jì)時(shí)代的基石。3.5習(xí)題(1)請闡述什么是數(shù)據(jù)采集。(2)請闡述大數(shù)據(jù)采集平臺有哪些。(3)請闡述什么是數(shù)網(wǎng)絡(luò)爬蟲。(4)請闡述什么是robots協(xié)議。(1)數(shù)據(jù)采集又稱數(shù)據(jù)獲取,是指利用某些裝置,從系統(tǒng)外部采集數(shù)據(jù)并輸入到系統(tǒng)內(nèi)部的一個(gè)接口。在互聯(lián)網(wǎng)行業(yè)快速發(fā)展的今天,數(shù)據(jù)采集已經(jīng)被廣泛應(yīng)用于互聯(lián)網(wǎng)及分布式領(lǐng)域,比如攝像頭、麥克風(fēng)以及各類傳感器等都是數(shù)據(jù)采集工具。(2)目前常用的開源日志采集平臺包含有:ApacheFlume、Fluentd、Logstash>Chukwa>Scribe以及SplunkForwarder等。這些采集平臺大部分采用的是分布式架構(gòu),以滿足大規(guī)模日志采集的需要。(3)網(wǎng)絡(luò)爬蟲是一種按照一定的規(guī)則,自動地抓取Web信息的程序或者腳本。網(wǎng)絡(luò)爬蟲可以自動采集所有其能夠訪問到的頁面內(nèi)容,為搜索引擎和大數(shù)據(jù)分析提供數(shù)據(jù)來源。(4)robots協(xié)議全稱叫作“網(wǎng)絡(luò)爬蟲排除標(biāo)準(zhǔn)。該協(xié)議是互聯(lián)網(wǎng)中的道德規(guī)范,主要用于保護(hù)網(wǎng)站中的某些隱私。網(wǎng)站可以通過robots告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。4.6習(xí)題(1)請闡述什么是大數(shù)據(jù)存儲。(2)請闡述什么是分布式存儲。(3)請闡述什么是Hadoop。(4)請闡述什么是NoSQL。(5)請闡述什么是數(shù)據(jù)倉庫。(1)大數(shù)據(jù)存儲通常是指將那些數(shù)量巨大、難于收集、處理、分析的數(shù)據(jù)集持久化到計(jì)算機(jī)中。在進(jìn)行大數(shù)據(jù)分析之前,首先的步驟就是要將海量的數(shù)據(jù)存儲起來,以便今后的使用。(2)分布式存儲最早是由谷歌提出的,其目的是通過廉價(jià)的服務(wù)器來提供使用與大規(guī)模,高并發(fā)場景下的Web訪問問題。與常見的集中式存儲技術(shù)不同,分布式存儲技術(shù)并不是將數(shù)據(jù)存儲在某個(gè)或多個(gè)特定的節(jié)點(diǎn)上,而是通過網(wǎng)絡(luò)使用企業(yè)中的每臺機(jī)器上的磁盤空間,并將這些分散的存儲資源構(gòu)成一個(gè)虛擬的存儲設(shè)備,數(shù)據(jù)分散的存儲在企業(yè)的各個(gè)角落。Hadoop是Apache軟件基金會旗下的一個(gè)開源分布式計(jì)算平臺。以Hadoop分布式文件系統(tǒng)(Hadoopdistributedfilesystem,HDFS)和MapReduce(GoogleMapReduce的開源實(shí)現(xiàn))為核心的Hadoop為用戶提供了系統(tǒng)底層細(xì)節(jié)透明的分布式基礎(chǔ)架構(gòu)。NoSQL數(shù)據(jù)庫又叫作非關(guān)系數(shù)據(jù)庫,和數(shù)據(jù)庫管理系統(tǒng)(RDBMS)相比,NoSQL不使用SQL作為查詢語言,其存儲也可以不需要固定的表模式,用戶操作NoSQL時(shí)通常會避免使用RDBMS的JION操作。(5)數(shù)據(jù)倉庫(DataWarehouse)簡稱DW,顧名思義,數(shù)據(jù)倉庫是一個(gè)很大的數(shù)據(jù)存儲集合,出于企業(yè)的分析性報(bào)告和決策支持目的而創(chuàng)建,并對多樣的業(yè)務(wù)數(shù)據(jù)進(jìn)行篩選與整合。通常,數(shù)據(jù)定期從事務(wù)系統(tǒng)、關(guān)系數(shù)據(jù)庫和其他來源流入數(shù)據(jù)倉庫。5.5習(xí)題(1)請闡述什么是數(shù)據(jù)清洗。(2)請闡述什么是數(shù)據(jù)質(zhì)量。(3)請闡述什么是數(shù)據(jù)缺失值。(4)請闡述什么是異常數(shù)據(jù)。(1)在大數(shù)據(jù)時(shí)代,數(shù)據(jù)清洗通常是指把“臟數(shù)據(jù)”徹底洗掉,所謂“臟數(shù)據(jù)”是指不完整、不規(guī)范、不準(zhǔn)確的數(shù)據(jù),只有通過數(shù)據(jù)清洗才能從根本上提高數(shù)據(jù)質(zhì)量。(2)數(shù)據(jù)質(zhì)量就是確保組織擁有的數(shù)據(jù)完整且準(zhǔn)確,只有完整、準(zhǔn)確的數(shù)據(jù)才可以供企業(yè)分析、共享使用。(3)在數(shù)據(jù)集中,若某記錄的屬性值被標(biāo)記為空白或等,則認(rèn)為該記錄存在缺失值(空值),它也常指不完整的數(shù)據(jù)。(4)異常值也叫做離群值,通常是指采集數(shù)據(jù)時(shí)可能因?yàn)榧夹g(shù)或物理原因,數(shù)據(jù)取值超過數(shù)據(jù)值域范圍。值得注意的是:異常值是數(shù)據(jù)分布的常態(tài),處于特定分布區(qū)域或范圍之外的數(shù)據(jù)通常被定義為異?;蛟肼?。異常值常分為兩種:偽異常和真異常。6.5習(xí)題(1)請闡述什么是大數(shù)據(jù)分析。(2)大數(shù)據(jù)分析有什么價(jià)值?(3)大數(shù)據(jù)分析有哪些步驟?(4)請闡述什么是數(shù)據(jù)挖掘。(5)請闡述決策樹算法的原理。(1)大數(shù)據(jù)分析就是利用一些數(shù)據(jù)分析工具、手段、方法或者思維,從海量和異構(gòu)的數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,從而揭示出數(shù)據(jù)背后的真相,為人們提供決策的依據(jù),指導(dǎo)業(yè)務(wù)發(fā)展。一般來講,大數(shù)據(jù)分析是通常是指對規(guī)模巨大的數(shù)據(jù)進(jìn)行分析,其目的是提取海量數(shù)據(jù)中的有價(jià)值的內(nèi)容,找出內(nèi)在的規(guī)律,從而幫助人們做出最正確的決策。一般來講,典型的大數(shù)據(jù)分析包含六個(gè)步驟,分別是明確需求、收集數(shù)據(jù)、處理數(shù)據(jù)、分析數(shù)據(jù)、展現(xiàn)數(shù)據(jù)以及撰寫報(bào)告。(4)數(shù)據(jù)挖掘(DataMining)是指通過大量數(shù)據(jù)集進(jìn)行分類的自動化過程,以通過數(shù)據(jù)分析來識別趨勢和模式,建立關(guān)系來解決業(yè)務(wù)問題。換句話說,數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。(5)決策樹算法最早產(chǎn)生于上世紀(jì)60年代,該算法首先對數(shù)據(jù)進(jìn)行處理,利用歸納算法生成可讀的規(guī)則和決策樹,然后使用決策對新數(shù)據(jù)進(jìn)行分析,因此在本質(zhì)上決策樹是通過一系列規(guī)則對數(shù)據(jù)進(jìn)行分類的過程。決策樹是一個(gè)預(yù)測模型,它表示對象屬性和對象值之間的一種映射,樹中的每一個(gè)節(jié)點(diǎn)表示對象屬性的判斷條件,其分支表示符合節(jié)點(diǎn)條件的對象。樹的葉子節(jié)點(diǎn)表示對象所屬的預(yù)測結(jié)果。7.5習(xí)題(1)請闡述什么是數(shù)據(jù)可視化。(2)請闡述數(shù)據(jù)可視化的應(yīng)用有哪些。(3)請闡述什么是文本可視化。(4)請闡述什么是社交網(wǎng)絡(luò)可視化。(1)數(shù)據(jù)可視化,是關(guān)于數(shù)據(jù)視覺表現(xiàn)形式的科學(xué)技術(shù)研究,它為大數(shù)據(jù)分析提供了一種更加直觀的挖掘、分析與展示當(dāng)代手段,從而讓大數(shù)據(jù)更有意義。(2)數(shù)據(jù)可視化越來越普及,在工業(yè)物聯(lián)網(wǎng)、電信、智慧醫(yī)療、智能交通、現(xiàn)代農(nóng)業(yè)等多個(gè)行業(yè)都有廣泛的應(yīng)用。(3)文本可視化是指將文本中復(fù)雜的或者難以通過文字表達(dá)的內(nèi)容和規(guī)律以視覺符號的形式表達(dá)出來,同時(shí)向人們提供與視覺信息進(jìn)行快速交互的功能,使人們能夠利用與生俱來的視覺感知的并行化處理能力快速獲取大數(shù)據(jù)中所蘊(yùn)含的的關(guān)鍵信息。(4)社交網(wǎng)絡(luò)可視化通常是展示數(shù)據(jù)在網(wǎng)絡(luò)中的關(guān)聯(lián)關(guān)系,一般用于描繪互相連接的實(shí)體。8.4習(xí)題(1)請闡述什么是數(shù)據(jù)安全。(2)大數(shù)據(jù)有什么特點(diǎn)?(3)大數(shù)據(jù)安全的關(guān)鍵技術(shù)有哪些?(4)請闡述什么是數(shù)據(jù)治理。(5)請闡述數(shù)據(jù)治理的思路。(1)數(shù)據(jù)即資產(chǎn),對企業(yè)單位業(yè)務(wù)深度和廣度的擴(kuò)展具有重要的意義,數(shù)據(jù)安全則是企業(yè)單位生存和發(fā)展的根基。數(shù)據(jù)安全中涉及到的數(shù)據(jù)不僅包括靜態(tài)的、存儲層面的數(shù)據(jù),也包括流動的、使用中的數(shù)據(jù)。(2)大數(shù)據(jù)的廣泛應(yīng)用對數(shù)據(jù)安全的定義與防護(hù)帶來了根本性的變革。首先,傳統(tǒng)數(shù)據(jù)全生命周期安全保障被擴(kuò)展至了近乎無限的開放空間中,互聯(lián)網(wǎng)的每個(gè)節(jié)點(diǎn)和用戶都成為數(shù)據(jù)保障與泄露的攻防點(diǎn),數(shù)據(jù)保障體系的涵蓋范圍空前擴(kuò)大;其次,數(shù)據(jù)種類海量導(dǎo)致信息泄露渠道的多元化與高幾率,多條低敏感度泄露數(shù)據(jù)的關(guān)聯(lián)綜合可能會組合成一條高敏感度數(shù)據(jù),分布式的存儲機(jī)制使數(shù)據(jù)泄露位置更加分散和隨機(jī),這導(dǎo)致控制與查找數(shù)據(jù)泄露來源的難度空前提高;最后,高速的海量數(shù)據(jù)處理速度,也使原始數(shù)據(jù)被重復(fù)和多種維度利用的成本更加降低,原始數(shù)據(jù)被反復(fù)泄露、售賣的幾率與次數(shù)更高,數(shù)據(jù)安全問題所造成的影響更加巨大。(3)數(shù)據(jù)加密技術(shù)、身份認(rèn)證技術(shù)、訪問控制技術(shù)、安全審計(jì)、數(shù)據(jù)脫敏、數(shù)據(jù)溯源(4)數(shù)據(jù)治理就是以服務(wù)組織戰(zhàn)略目標(biāo)為基本原則,通過組織成員的協(xié)同努力,流程制度的制定,以及數(shù)據(jù)資產(chǎn)的梳理、采集清洗、結(jié)構(gòu)化存儲、可視化管理和多維度分析,實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)價(jià)值獲取、業(yè)務(wù)模式創(chuàng)新和經(jīng)營風(fēng)險(xiǎn)控制的過程。(5)在進(jìn)行數(shù)據(jù)治理時(shí),常常包含以下幾步:數(shù)據(jù)采集、數(shù)據(jù)標(biāo)準(zhǔn)管理、主數(shù)據(jù)管理、元數(shù)據(jù)管理、數(shù)據(jù)倉庫建模、數(shù)據(jù)集成、數(shù)據(jù)清洗以及架構(gòu)治理等。9.6習(xí)題(1)請闡述什么是農(nóng)業(yè)大數(shù)據(jù)。(2)農(nóng)業(yè)大數(shù)據(jù)有什么特點(diǎn)?(3)請闡述什么是工業(yè)大數(shù)據(jù)。(4)請闡述什么是金融大數(shù)據(jù)。(5)請闡述什么是交通大數(shù)據(jù)。(6)請闡述什么是智慧交通。(1)農(nóng)業(yè)大數(shù)據(jù),一般指利用現(xiàn)代信息技術(shù)和信息系統(tǒng)為農(nóng)業(yè)產(chǎn)供銷及相關(guān)的管理和服務(wù)提供有效的信息支持,并提高農(nóng)業(yè)的綜合生產(chǎn)力,促進(jìn)農(nóng)業(yè)結(jié)構(gòu)戰(zhàn)略性調(diào)整和經(jīng)營管理效率的總稱。(2)農(nóng)業(yè)大數(shù)據(jù)主要具有復(fù)雜性和不平衡性兩大特點(diǎn)。(3)工業(yè)大數(shù)據(jù)即難以通過傳統(tǒng)的分析工具進(jìn)行有效分析的工業(yè)數(shù)據(jù)的集合,具備明顯的大數(shù)據(jù)的容量大、數(shù)據(jù)類型多、數(shù)據(jù)價(jià)值高、數(shù)據(jù)更新快的特性。(4)金融大數(shù)據(jù)內(nèi)涵,可以理解為大數(shù)據(jù)中蘊(yùn)含的反映人們金融交易行為互動的基本信息,這是一種依據(jù)“信息來源于大數(shù)據(jù)”的認(rèn)知而得出的理論考量。金融大數(shù)據(jù)內(nèi)涵具有極大量、多維度和完備性等特征,人們根據(jù)金融大數(shù)據(jù)進(jìn)行決策,需要有處理這些特征的新科技手段。(5)o大數(shù)據(jù)對于智能交通的意義,在于人們可以應(yīng)用大數(shù)據(jù)解決跨越行政區(qū)域的限制,實(shí)現(xiàn)數(shù)據(jù)信息的共享,在信息集成優(yōu)勢和組合效率上,有助于建立綜合性立體的交通信息體系;另外在車輛安全、交通資源配置以及利用大數(shù)據(jù)的快速性

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論