數(shù)據(jù)采集與加工技術(shù)研究_第1頁
數(shù)據(jù)采集與加工技術(shù)研究_第2頁
數(shù)據(jù)采集與加工技術(shù)研究_第3頁
數(shù)據(jù)采集與加工技術(shù)研究_第4頁
數(shù)據(jù)采集與加工技術(shù)研究_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

北京理工大學(xué)珠海學(xué)院2020屆本科畢業(yè)論文V緒論課題研究背景:在這個(gè)信息化時(shí)代,各個(gè)領(lǐng)域行業(yè)都存在著大數(shù)據(jù)的身影,大數(shù)據(jù)的優(yōu)勢(shì)伴隨著互聯(lián)網(wǎng)企業(yè)的發(fā)展慢慢彰顯出來。全球知名咨詢公司的麥肯錫,是最早提出大數(shù)據(jù)時(shí)代到來的人。他對(duì)大數(shù)據(jù)的評(píng)價(jià)是:一種傳統(tǒng)數(shù)據(jù)庫無法存儲(chǔ)的大規(guī)模數(shù)據(jù)集。大數(shù)據(jù)在信息時(shí)代的地位如同工業(yè)時(shí)代的“煤礦”,它的數(shù)量龐大且內(nèi)部蘊(yùn)含著豐富的資源,但傳統(tǒng)的采集工具無法對(duì)如此龐大的數(shù)據(jù)進(jìn)行采集、加工、存儲(chǔ),因此,大數(shù)據(jù)技術(shù)應(yīng)運(yùn)而生。大數(shù)據(jù)的采集與加工技術(shù)是當(dāng)下研究的熱點(diǎn)之一,在醫(yī)療行業(yè)、科研行業(yè)、企業(yè)管理、電商銷售等發(fā)揮著重要作用。課題研究目的:2019年的《中國互聯(lián)網(wǎng)發(fā)展報(bào)告》指出:中國網(wǎng)民規(guī)模為8.54億人,互聯(lián)網(wǎng)普及率達(dá)61.2%,網(wǎng)站數(shù)量為518萬個(gè)。如今互聯(lián)網(wǎng)覆蓋著人們的日常生活,智能手機(jī)的普及加速社會(huì)進(jìn)入信息化時(shí)代,國內(nèi)外許多互聯(lián)網(wǎng)行業(yè)因此而生,如國外的Facebook、Google等,國內(nèi)的騰訊、網(wǎng)易、阿里巴巴等。這個(gè)時(shí)代,人們手機(jī)一點(diǎn)便可知悉天下事,而用戶的數(shù)據(jù),成為了各大互聯(lián)網(wǎng)行業(yè)相互競爭的強(qiáng)力資本。誰能更精確地采集到數(shù)據(jù),誰能更精確地從各個(gè)層面分析數(shù)據(jù),誰就是這個(gè)信息時(shí)代的贏家。而大數(shù)據(jù)的興起,各個(gè)互聯(lián)網(wǎng)行業(yè)將面臨更大的機(jī)遇和挑戰(zhàn)。與傳統(tǒng)數(shù)據(jù)采集不同,大數(shù)據(jù)的采集更加復(fù)雜,更加困難,分析處理的方法也大不如前。國內(nèi)外研究現(xiàn)狀信息化時(shí)代是充滿機(jī)遇和挑戰(zhàn)的時(shí)代,掌握豐富多彩的信息,就等于掌握了制勝的關(guān)鍵。而信息就來源于大數(shù)據(jù),通過對(duì)大數(shù)據(jù)的分析和處理,提取出有價(jià)值的信息,正是當(dāng)下研究的重點(diǎn)。國外研究現(xiàn)狀在美國,互聯(lián)網(wǎng)企業(yè)最早著手開展大數(shù)據(jù)研究,通過商業(yè)來源、政府來源和其他公開來源三個(gè)途徑來獲取數(shù)據(jù)。美國積極應(yīng)用大數(shù)據(jù)技術(shù)來提升政府管理能力,用大數(shù)據(jù)分析進(jìn)行打擊犯罪、反恐等活動(dòng);利用應(yīng)用大數(shù)據(jù)技術(shù)來提高社會(huì)服務(wù)能力,用于交通管理、醫(yī)療管理等,有助于緩解交通壓力、抑制疫情擴(kuò)散等問題;利用應(yīng)用大數(shù)據(jù)技術(shù)來提高商業(yè)決策水平,利用大數(shù)據(jù)對(duì)消費(fèi)者進(jìn)行分析,掌握消費(fèi)者的行為愛好,有針對(duì)性的制定營銷策略。國內(nèi)研究現(xiàn)狀我國大數(shù)據(jù)技術(shù)研究還在初級(jí)階段,很多技術(shù)尚未成熟。因?yàn)槲覈臄?shù)據(jù)量約占全球總量的20%,可以構(gòu)建以開源為基礎(chǔ)的大數(shù)據(jù)產(chǎn)業(yè)生態(tài)。相關(guān)研究人員表明,目前中國要利用大數(shù)據(jù)來對(duì)未來進(jìn)行預(yù)測和指導(dǎo)實(shí)際深層次的應(yīng)用,才是大數(shù)據(jù)當(dāng)下研究重點(diǎn)。在政策上,全面支持大數(shù)據(jù)產(chǎn)業(yè)化發(fā)展,鼓勵(lì)人們使用和傳播免費(fèi)數(shù)據(jù),公開政府?dāng)?shù)據(jù),立相關(guān)法律法規(guī)保護(hù)網(wǎng)民的隱私等;在經(jīng)濟(jì)上,我國大數(shù)據(jù)市場經(jīng)濟(jì)發(fā)展迅速并呈持續(xù)增長趨勢(shì),早在2015年大數(shù)據(jù)市場經(jīng)濟(jì)規(guī)模就破百億美元,直至2019年,我國大數(shù)據(jù)市場經(jīng)濟(jì)規(guī)模高達(dá)436億美元;在科技上,雖然我國在大數(shù)據(jù)應(yīng)用上取得巨大進(jìn)展,但由于核心技術(shù)尚未掌握,因此與美國、日本等科技大國仍有一些差距。課題研究方向大數(shù)據(jù)應(yīng)用的領(lǐng)域有很多,如:互聯(lián)網(wǎng)行業(yè)、醫(yī)療行業(yè)、科學(xué)研究、企業(yè)管理等。而各領(lǐng)域的數(shù)據(jù)采集方式和加工技術(shù)也會(huì)有所不同,而本文主要研究互聯(lián)網(wǎng)行業(yè)的大數(shù)據(jù)采集方法和加工技術(shù)。大數(shù)據(jù)概述本章節(jié)主要介紹大數(shù)據(jù)的概念、大數(shù)據(jù)的價(jià)值體現(xiàn)以及大數(shù)據(jù)的來源大數(shù)據(jù)概念大數(shù)據(jù)(Bigdata)從字面上理解就是一個(gè)很大的數(shù)據(jù)集,那到底有多大呢,按照外國有名的咨詢企業(yè)麥肯錫提出的定義就是,一個(gè)大到傳統(tǒng)工具無法采集、加工和存儲(chǔ)的數(shù)據(jù)集。我們通常可以通過大數(shù)據(jù)的特征來判斷數(shù)據(jù)集是否為大數(shù)據(jù),它的特征為:數(shù)量大、價(jià)值密度低、數(shù)據(jù)處理速度快、數(shù)據(jù)種類來源多樣化和數(shù)據(jù)準(zhǔn)確性高。大數(shù)據(jù)價(jià)值體現(xiàn)有人將“大數(shù)據(jù)”比作“煤礦”,寓意著它的數(shù)量龐大,大數(shù)據(jù)的價(jià)值體現(xiàn)并不在于其數(shù)量,而在于它的內(nèi)在價(jià)值和挖掘過程中所使用的技術(shù)。對(duì)大多數(shù)互聯(lián)網(wǎng)行業(yè)而言,如何利用大數(shù)據(jù)才是贏得競爭的關(guān)鍵。大數(shù)據(jù)的商業(yè)價(jià)值體現(xiàn)在:客戶類型細(xì)分:對(duì)用戶的興趣愛好、消費(fèi)水平進(jìn)行有針對(duì)性的服務(wù)模擬銷售環(huán)境:通過大數(shù)據(jù)來模擬銷售環(huán)境,從而挖掘潛在需求,提高銷售額。加強(qiáng)內(nèi)部聯(lián)系:企業(yè)可以通過大數(shù)據(jù)技術(shù)提高內(nèi)部管理效率。降低服務(wù)成本:挖掘新的需求,進(jìn)行服務(wù)和產(chǎn)品的供求創(chuàng)新。不過,需要注意的是,即使大數(shù)據(jù)在經(jīng)濟(jì)發(fā)展中占重要地位,也并不意味著可以取代對(duì)社會(huì)問題的理性思考,科學(xué)發(fā)展的邏輯和社會(huì)發(fā)展的理性不能被海量數(shù)據(jù)所淹沒。大數(shù)據(jù)來源隨著互聯(lián)網(wǎng)迅速發(fā)展,人類產(chǎn)生數(shù)據(jù)的途徑也發(fā)生了變化,數(shù)據(jù)形式越來越多樣化,數(shù)據(jù)量也呈現(xiàn)爆炸式增長。人們可以隨時(shí)隨地產(chǎn)生數(shù)據(jù)。從開始采用數(shù)據(jù)庫作為數(shù)據(jù)管理被動(dòng)產(chǎn)生的數(shù)據(jù)到社會(huì)網(wǎng)絡(luò)的發(fā)展,用戶主動(dòng)產(chǎn)生數(shù)據(jù)到物聯(lián)網(wǎng)技術(shù)的崛起,大量傳感器自動(dòng)產(chǎn)生大量復(fù)雜的數(shù)據(jù)。這些由用戶主動(dòng)、被動(dòng)和系統(tǒng)自動(dòng)生產(chǎn)的數(shù)據(jù)共同構(gòu)成了大數(shù)據(jù)的來源。數(shù)據(jù)的主要來源是通過各種數(shù)據(jù)采集器、企業(yè)系統(tǒng)日志、社交平臺(tái)、開源的數(shù)據(jù)分布、車輛和手機(jī)定位信息、網(wǎng)絡(luò)痕跡(如歷史搜索、瀏覽痕跡等)、傳感器等收集的結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)。具體包括,互聯(lián)網(wǎng)數(shù)據(jù)、各行業(yè)數(shù)據(jù)以及政府公開數(shù)據(jù)等?;ヂ?lián)網(wǎng)數(shù)據(jù)隨著Web2.0技術(shù)的出現(xiàn),讓互聯(lián)網(wǎng)用戶由單純的“讀者”轉(zhuǎn)變?yōu)椤皩懽髡摺焙汀肮餐ㄔO(shè)者”,由接受互聯(lián)網(wǎng)數(shù)據(jù)轉(zhuǎn)變?yōu)楫a(chǎn)生互聯(lián)網(wǎng)數(shù)據(jù)。因?yàn)橹悄苁謾C(jī)的普及,各種交友a(bǔ)pp和電商平臺(tái)的出現(xiàn),使得近幾年的移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)呈爆炸性增長。各大社交平臺(tái)的出現(xiàn),用戶的交流和網(wǎng)絡(luò)搜索數(shù)據(jù)促使著大數(shù)據(jù)的形成,給人們帶來了翻天覆地的變化。而互聯(lián)網(wǎng)數(shù)據(jù)的來源如下:社交app(如微信、QQ、微博等),可供用戶之間進(jìn)行信息交流,社交平臺(tái)可記錄用戶傳收的圖片視頻等,也可記錄用戶的行為習(xí)慣。這類數(shù)據(jù)具有一定的實(shí)時(shí)性和針對(duì)性。電商app(如京東、淘寶),平臺(tái)允許用戶自由購買產(chǎn)品并查詢,發(fā)布產(chǎn)品評(píng)論及銷售量。這類數(shù)據(jù)具有一定的實(shí)時(shí)性和真實(shí)性。新聞媒體平臺(tái)(如騰訊新聞、虎撲體育等)發(fā)布的新聞、評(píng)論、報(bào)道等。這類數(shù)據(jù)具有一定的實(shí)時(shí)性和專業(yè)性。網(wǎng)站論壇,屬于開放性平臺(tái),允許用戶發(fā)表個(gè)人意見并記錄用戶的價(jià)值傾向和事件評(píng)估信息等。這類數(shù)據(jù)具有一定的實(shí)時(shí)性和針對(duì)性。政府門戶網(wǎng)站所發(fā)布的一些民生信息、新規(guī)政策、法院公告、疫情信息等。這類數(shù)據(jù)具有實(shí)時(shí)性和權(quán)威性。由于互聯(lián)網(wǎng)數(shù)據(jù)來源廣泛,數(shù)據(jù)結(jié)構(gòu)復(fù)雜、數(shù)量龐大,且平臺(tái)建設(shè)程度不一樣,對(duì)網(wǎng)絡(luò)爬蟲的監(jiān)管程度也不一樣,因此互聯(lián)網(wǎng)數(shù)據(jù)采集,具有一定的難度和挑戰(zhàn)性。下面將會(huì)介紹大數(shù)據(jù)的采集方式。

大數(shù)據(jù)采集分布式存儲(chǔ)由于傳統(tǒng)關(guān)系型數(shù)據(jù)庫的局限性,無法滿足海量數(shù)據(jù)的存儲(chǔ)。因此,為,了適應(yīng)大數(shù)據(jù)時(shí)代,因此分布式存儲(chǔ)技術(shù)應(yīng)運(yùn)而生。分布式存儲(chǔ)系統(tǒng)就是將大量數(shù)據(jù),分散存儲(chǔ)在企業(yè)內(nèi)部的每個(gè)獨(dú)立設(shè)備中,利用企業(yè)內(nèi)部多個(gè)數(shù)據(jù)存儲(chǔ)服務(wù)器來分擔(dān)存儲(chǔ)負(fù)荷。分布式存儲(chǔ)不僅能夠滿足海量數(shù)據(jù)的存儲(chǔ)空間,還能提高數(shù)據(jù)的可靠性、安全性,在未來遇到數(shù)據(jù)量更大的數(shù)據(jù)集時(shí),可以通過增添存儲(chǔ)服務(wù)器來擴(kuò)展存儲(chǔ)空間,而且即使一個(gè)存儲(chǔ)系統(tǒng)發(fā)生故障,也不會(huì)影響其他存儲(chǔ)系統(tǒng)的正常運(yùn)行。數(shù)據(jù)采集方式大數(shù)據(jù)的采集方式主要有:傳感器、系統(tǒng)日志文件采集、Web爬蟲和ETL工具采集等。下面是詳細(xì)的采集方式。傳感器通過傳感器把外界物理量轉(zhuǎn)換成計(jì)算機(jī)能識(shí)別的數(shù)據(jù)。如物聯(lián)網(wǎng)應(yīng)用中的智能家具,用戶可以從手機(jī)上獲取家中設(shè)備的信息,如溫度濕度等。系統(tǒng)日志文件采集系統(tǒng)日志文件采集是最廣泛使用的數(shù)據(jù)采集方法,企業(yè)系統(tǒng)每天都會(huì)自動(dòng)產(chǎn)生大量日志文件,這些日志文件記錄著企業(yè)數(shù)據(jù)源的操作過程。許多互聯(lián)網(wǎng)企業(yè)都有自己的數(shù)據(jù)采集工具,如Hadoop的ChuKwa,Cloudera的Flume,F(xiàn)acebook的Sbcrible以及ApacheKafka等大數(shù)據(jù)采集框架。這些工具均采用分布式架構(gòu),能滿足大數(shù)據(jù)的日志數(shù)據(jù)采集和傳輸需求。Web爬蟲互聯(lián)網(wǎng)網(wǎng)頁數(shù)據(jù)通常使用Web爬蟲進(jìn)行抓取的,網(wǎng)絡(luò)爬蟲也叫網(wǎng)絡(luò)蜘蛛,是一種可以自動(dòng)抓取互聯(lián)網(wǎng)頁面信息的程序。通俗來說,網(wǎng)絡(luò)爬蟲從指定的鏈接入口,按照某種策略從互聯(lián)網(wǎng)中自動(dòng)獲取有用信息。對(duì)于這一互聯(lián)網(wǎng)數(shù)據(jù)采集方式,在文章后面將詳細(xì)介紹。利用ETL工具采集ELT也就是數(shù)據(jù)倉庫技術(shù),是英文Extract(抽?。?、Transform(轉(zhuǎn)換)和Load(加載)的縮寫。簡單來說ETL就是將數(shù)據(jù)經(jīng)過抽取、轉(zhuǎn)換處理后加載到數(shù)據(jù)庫的過程。它可以將企業(yè)內(nèi)部雜亂的數(shù)據(jù),整理好存放在一起。如下圖是ETL的結(jié)構(gòu)圖。圖3.1ETL體系結(jié)構(gòu)圖系統(tǒng)日志采集隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,各行業(yè)的相關(guān)部門、各大公司等都在不停地生產(chǎn)大量信息,這些信息看似簡單,但如果經(jīng)過處理,便可以滿足各種應(yīng)用需求。大數(shù)據(jù)技術(shù)帶來了許多挑戰(zhàn),其中之一就是在大量數(shù)據(jù)中采集到自己所需要的信息。許多大型互聯(lián)網(wǎng)公司、金融行業(yè)、醫(yī)療行業(yè)等本身具備從事大數(shù)據(jù)分析的條件,因此這些企業(yè)每天都會(huì)積累大量的系統(tǒng)日志。這些系統(tǒng)日志數(shù)據(jù)包含著:用戶的交易數(shù)據(jù)、社交數(shù)據(jù)、搜索數(shù)據(jù)等,并擁有穩(wěn)定、安全的數(shù)據(jù)源。一些規(guī)模比較小的公司,并不具備這樣的條件,會(huì)向大型互聯(lián)網(wǎng)公司購買用戶數(shù)據(jù),從而精準(zhǔn)地發(fā)現(xiàn)新客戶。因此,系統(tǒng)日志采集,是大數(shù)據(jù)采集的重要途徑。目前,許多企業(yè)通過架設(shè)日志采集系統(tǒng)來保存日志數(shù)據(jù),這些數(shù)據(jù)可以用于提高商業(yè)價(jià)值和社會(huì)價(jià)值。如Hadoop的Chukwa、Cloudera的Flume、Facebook的Scrible以及ApacheKafka等大數(shù)據(jù)采集架構(gòu)。這些采集工具均采用分布式架構(gòu),能滿足海量系統(tǒng)日志的采集需求。Chukwa采集架構(gòu)Chukwa是構(gòu)建在hadoop基礎(chǔ)上的一個(gè)分布式日志處理系統(tǒng),簡單來說就是你要先有Hadoop,然后才能在上面搭建Chukwa。Chukwa保留著hadoop的可伸縮性和魯棒性,可以在異常情況下,保證系統(tǒng)不死機(jī)、不崩潰。同時(shí)還擁有一個(gè)強(qiáng)大的工具集,可用來展示、分析和監(jiān)控采集到的數(shù)據(jù)。圖3.2為Chukwa的采集架構(gòu)。圖3.2Chukwa的架構(gòu)從上圖可以看出,Chukwa的采集架構(gòu)包括采集層和處理層兩部分。工作原理和流程大致如下:數(shù)據(jù)采集層的Agent管理多個(gè)adaptors(數(shù)據(jù)采集工具和接口),將采集到的原始數(shù)據(jù)發(fā)送到數(shù)據(jù)處理層的Collector;Collector為了避免大量小數(shù)據(jù)寫入集群,會(huì)將收到的數(shù)據(jù)進(jìn)行部分合并再寫入集群里;然后map/reduce負(fù)責(zé)把集群上的數(shù)據(jù)進(jìn)行分類、排序、去重和合并。最后再通過HICC進(jìn)行數(shù)據(jù)展示。從Chukwa的工作流程可以看出,Chukwa對(duì)數(shù)據(jù)的產(chǎn)生、采集、存儲(chǔ)、分析都提供巨大幫助。Flume采集架構(gòu)Flume是Couldera提供的一個(gè)高可用性、高可靠性的分布式日志采集系統(tǒng),能進(jìn)行海量企業(yè)內(nèi)部日志的聚合和傳輸操作。Flume具有可定制能力,可將采集到的數(shù)據(jù)進(jìn)行簡單處理再發(fā)到數(shù)據(jù)接收方處。應(yīng)用在運(yùn)行時(shí)產(chǎn)生的數(shù)據(jù)可以存儲(chǔ)在任何集中存儲(chǔ)器中如分布式文件系統(tǒng)。當(dāng)采集的數(shù)據(jù)非常大,超過系統(tǒng)的寫入數(shù)據(jù)能力時(shí),F(xiàn)lume會(huì)在數(shù)據(jù)產(chǎn)生方和數(shù)據(jù)接受方之間進(jìn)行數(shù)據(jù)傳輸量調(diào)整,以保證數(shù)據(jù)產(chǎn)生方與接收方之間能夠穩(wěn)定地傳輸數(shù)據(jù)。Flume是分布式日志采集系統(tǒng),它將各網(wǎng)站服務(wù)器日志采集起來發(fā)送到指定地方,如:HDFS。如圖2.3Flume的結(jié)構(gòu)。圖3.3Flume結(jié)構(gòu)圖由上圖可知,Source從服務(wù)器上采集數(shù)據(jù)并以event格式換遞給Channel;Channel是一個(gè)臨時(shí)存儲(chǔ)數(shù)據(jù)的通道,等待Sink取出數(shù)據(jù)并將數(shù)據(jù)放到不同目的地如(HDFS)。Scribe采集架構(gòu)Scribe是Facebook的一個(gè)具有高容錯(cuò)性的日志采集系統(tǒng),它可以采集各種數(shù)據(jù)源中的數(shù)據(jù)和各種機(jī)器產(chǎn)生的系統(tǒng)日志,并將它們集中存儲(chǔ)在一個(gè)中央存儲(chǔ)系統(tǒng)中,方便進(jìn)行下一步的數(shù)據(jù)分析處理。如下圖為Scribe的架構(gòu)圖。圖3.4Scribe的結(jié)構(gòu)圖如圖所示,Scribe將采集到的數(shù)據(jù)發(fā)送到同一個(gè)信息隊(duì)列中,等待傳送到分布式文件系統(tǒng)中或其他Scribe中,一旦分布式文件系統(tǒng)發(fā)生故障時(shí),Scribe會(huì)將數(shù)據(jù)發(fā)送到本地文件中等候分布式文件系統(tǒng)修復(fù),待修復(fù)完成后,將存儲(chǔ)在本地文件中的數(shù)據(jù)發(fā)送回分布式文件系統(tǒng)或其他Scribe中。Kafka采集架構(gòu)Kafka是一個(gè)高采集-輸出量的分布式發(fā)布-訂閱信息系統(tǒng),可以處理消費(fèi)者所有在網(wǎng)站上的操作數(shù)據(jù)。最開始由Lockedin公司開發(fā),之后成為了Apache軟件基金會(huì)的一個(gè)開源流處理平臺(tái)。Kafka架構(gòu)具有擴(kuò)展性高、容錯(cuò)率高和高并發(fā)性等,相比其他消息系統(tǒng)具有更高的數(shù)據(jù)采集量和輸出量。Kafka為發(fā)布信息提供了一套存儲(chǔ)系統(tǒng),因此其不僅用于發(fā)布和閱消息,還能用于日志采集。Kafka架構(gòu)如圖3.5。圖3.5Kafka架構(gòu)圖如圖所示,Kafka由Producer、Broker、Consumer三層架構(gòu)組成。Producer將信息發(fā)布到KafkaBroker上,Broker上的topic根據(jù)用戶的定義采集指定消息,然后Consumer即用戶,可以從Broker上讀取自己感興趣的信息。Web爬蟲Web爬蟲,也稱為網(wǎng)絡(luò)蜘蛛或網(wǎng)絡(luò)機(jī)器人,常用于進(jìn)行網(wǎng)頁數(shù)據(jù)采集?;ヂ?lián)網(wǎng)網(wǎng)頁上存在著結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),如:圖片、視頻、音頻、文檔表格等。Web爬蟲通常會(huì)根據(jù)一定的網(wǎng)頁規(guī)則,自動(dòng)獲取網(wǎng)頁上的數(shù)據(jù),并進(jìn)行網(wǎng)頁解析和數(shù)據(jù)存儲(chǔ)。Web爬蟲工作原理Web爬蟲的工作流程大致為:首先選取一些種子URL,將其加入待抓取URL隊(duì)列中;然后從待抓取URL隊(duì)列中抓取URL種子,根據(jù)URL在互聯(lián)網(wǎng)上下載對(duì)應(yīng)的網(wǎng)頁,進(jìn)行處理分析并保存在本地網(wǎng)頁庫中;然后將抓取過的URL放在已抓取URL隊(duì)列中;從已抓取URL隊(duì)列中提取URL加入待抓取URL隊(duì)列,進(jìn)行新一輪網(wǎng)頁抓取;循環(huán)該過程,直到清空待抓取URL隊(duì)列。下圖3.6位爬蟲框架流程圖。圖3.6爬蟲框架流程圖;Web爬蟲面臨的問題截至2019年,我國互聯(lián)網(wǎng)網(wǎng)頁數(shù)量高達(dá)2816億個(gè),雖然網(wǎng)頁數(shù)量規(guī)模巨大,但有關(guān)研究表明其中有將近30%的頁面內(nèi)容是重復(fù)的,使得Web爬蟲的爬行效率降低。網(wǎng)頁內(nèi)容越來越復(fù)雜,不僅有視頻、音頻、圖像、文檔等非結(jié)構(gòu)化數(shù)據(jù),還有需要注冊(cè)登錄才能訪問的內(nèi)容,還有一些網(wǎng)站在建設(shè)的時(shí)候設(shè)定了反爬蟲功能等。一系列問題導(dǎo)致了Web爬蟲的爬行效率降低,影響了爬行質(zhì)量等。為了提高Web爬蟲的爬行速度,一般采用并行爬行方式,但這方式容易導(dǎo)致爬蟲抓取重復(fù)頁面內(nèi)容。為了減少并行爬行方式的重復(fù)率,往往在爬行之前預(yù)先給爬蟲分配URL,使它們按照規(guī)定的路線爬行?;ヂ?lián)網(wǎng)頁面數(shù)量急速增長,網(wǎng)頁數(shù)據(jù)越來越復(fù)雜,Web爬蟲面臨這巨大挑戰(zhàn)。如何提高爬行速度和爬行質(zhì)量是主要問題。Web爬蟲的類別Web爬蟲根據(jù)結(jié)構(gòu)特性可以分為以下四種,分別是:通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、增量式網(wǎng)絡(luò)爬蟲和深層網(wǎng)絡(luò)爬蟲。通用網(wǎng)絡(luò)爬蟲通用網(wǎng)絡(luò)爬蟲,又稱全網(wǎng)爬蟲,可以對(duì)整個(gè)互聯(lián)網(wǎng)網(wǎng)頁進(jìn)行爬行,因此這類Web爬蟲的數(shù)量大、范圍廣。因?yàn)榕佬袑?duì)象是整個(gè)網(wǎng)絡(luò),因此下載網(wǎng)頁數(shù)量龐大,所需要的存儲(chǔ)空間也很大,而且對(duì)爬行速度要求很高,常用于網(wǎng)站搜索引擎如百度、谷歌等。聚焦網(wǎng)絡(luò)爬蟲聚焦網(wǎng)絡(luò)爬蟲,又稱主題網(wǎng)絡(luò)爬蟲,能預(yù)先設(shè)定好要爬行的主題來選擇相關(guān)網(wǎng)頁進(jìn)行爬行,有選擇性地采集數(shù)據(jù)。與通用網(wǎng)絡(luò)爬蟲的爬行范圍相比,聚焦網(wǎng)絡(luò)爬蟲的爬行范圍更小,但采集到的數(shù)據(jù)內(nèi)容精度更高,因此所需要的存儲(chǔ)空間也比較小。聚焦網(wǎng)絡(luò)爬蟲可以按照用戶要求對(duì)一些特定內(nèi)容的網(wǎng)頁進(jìn)行爬行。增量式網(wǎng)絡(luò)爬蟲增量式網(wǎng)絡(luò)爬蟲通俗來說,每當(dāng)互聯(lián)網(wǎng)網(wǎng)頁內(nèi)容發(fā)生變化或已經(jīng)爬行過的網(wǎng)頁內(nèi)容有所更新時(shí),增量式網(wǎng)絡(luò)爬蟲就會(huì)對(duì)這些發(fā)生變化的網(wǎng)頁進(jìn)行再次爬行,以保持所爬行的網(wǎng)頁是新網(wǎng)頁。因此能增量式Web爬蟲在一定程度上能減少網(wǎng)頁下載量,但由于需要對(duì)網(wǎng)頁內(nèi)容進(jìn)行監(jiān)控,因此爬行的算法結(jié)構(gòu)會(huì)相對(duì)復(fù)雜。(4)DeepWeb爬蟲互聯(lián)網(wǎng)的頁面可以分為兩種類型:表層網(wǎng)頁和深層網(wǎng)頁。表層網(wǎng)頁就是可以被常規(guī)搜索引擎所索引的,其頁面信息可以用靜態(tài)鏈接來獲取。深層網(wǎng)絡(luò)就是不能被常規(guī)搜索引擎所索引,如通過填寫表格形式才能獲取在線數(shù)據(jù)庫的動(dòng)態(tài)頁面內(nèi)容、需要注冊(cè)才能觀看的內(nèi)容、PDF或Word文檔和一些無法被靜態(tài)鏈接獲取的內(nèi)容。大數(shù)據(jù)時(shí)代下,數(shù)據(jù)采集是后續(xù)數(shù)據(jù)分析、處理的前提,采集到的互聯(lián)網(wǎng)數(shù)據(jù)的數(shù)量、類型對(duì)大數(shù)據(jù)研究至關(guān)重要。目前已有很多開源的網(wǎng)絡(luò)爬蟲技術(shù),如Nutch、Serapy、JSpider。

大數(shù)據(jù)的加工技術(shù)數(shù)據(jù)采集獲得的數(shù)據(jù)往往存在缺失值、含有噪聲以及數(shù)據(jù)不一致等問題,這些數(shù)據(jù)無法直接進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)挖掘,或者挖掘效率低和挖掘效果差等。而為了提高數(shù)據(jù)發(fā)掘效率,需要進(jìn)行數(shù)據(jù)加工。本章節(jié)主要介紹了數(shù)據(jù)加工的相關(guān)技術(shù),包括數(shù)據(jù)清洗、數(shù)據(jù)變換、數(shù)據(jù)集成和數(shù)據(jù)規(guī)約等技術(shù)數(shù)據(jù)清洗大數(shù)據(jù)發(fā)展離不開大數(shù)據(jù)加工技術(shù),而其應(yīng)用價(jià)值也十分顯著,大數(shù)據(jù)加工技術(shù)的目的是將大量數(shù)據(jù)進(jìn)行數(shù)據(jù)分析,進(jìn)而挖掘它們潛在的價(jià)值。而在數(shù)據(jù)采集的過程中,由于種種因素導(dǎo)致數(shù)據(jù)產(chǎn)生了誤差,產(chǎn)生一些含有雜質(zhì)、被噪聲污染或內(nèi)容缺失等劣質(zhì)數(shù)據(jù),被行業(yè)稱為“低質(zhì)量數(shù)據(jù)”。而要想充分挖掘數(shù)據(jù)的潛在價(jià)值,就必須對(duì)這些“低質(zhì)量數(shù)據(jù)”進(jìn)行初步加工,通過數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約等操作,將“低質(zhì)量數(shù)據(jù)”進(jìn)行質(zhì)量提升。數(shù)據(jù)清洗是數(shù)據(jù)加工的首要方法。常用的操作包括:缺失值處理、光滑噪聲數(shù)據(jù)處理、檢查和糾正偏差等。 缺失值處理忽略元組:當(dāng)類標(biāo)號(hào)缺失時(shí),可以通過采用忽略元組的方式來處理數(shù)據(jù)缺失值,但在使用這方法的時(shí)候,用戶不能使用該元組的其他屬性值,因此可能會(huì)影響后續(xù)的數(shù)據(jù)挖掘效果。人工填寫缺失值:由用戶自己人工填寫缺失值。但缺失值數(shù)量很多時(shí),人工填寫會(huì)很耗時(shí)而且容易產(chǎn)生漏填、錯(cuò)填等二次誤差。使用一個(gè)固定常量填充缺失值:通常使用一個(gè)常量如(“未知”或“0”)來替換缺失值。但如果大量缺失值均采用同一個(gè)常量,在數(shù)據(jù)挖掘時(shí)會(huì)認(rèn)為它們屬性相同,從而得出錯(cuò)誤結(jié)論,因此該方法可能會(huì)導(dǎo)致挖掘結(jié)果產(chǎn)生誤差。使用中位數(shù)/均值度量:根據(jù)數(shù)據(jù)屬性分布特點(diǎn),如果屬性呈對(duì)稱分布,則可取屬性的平均值來填充;如果數(shù)據(jù)呈線性分布,則可取屬性中位數(shù)來填充。使用同類型對(duì)象的屬性均值或中位數(shù)填充:如將潛在客戶按照消費(fèi)水平分類,將消費(fèi)水平相同的客戶的消費(fèi)平均值或中位數(shù)填充到未知客戶的消費(fèi)水平缺失值。使用公式推斷最可能值填充缺失值:利用機(jī)器學(xué)習(xí)方法,如線性回歸方程來預(yù)測缺失的數(shù)據(jù),但如果數(shù)據(jù)屬性并不是線性分布則有可能產(chǎn)生誤差。有時(shí)候,缺失值的產(chǎn)生并不代表數(shù)據(jù)發(fā)生了錯(cuò)誤,有可能是用戶填寫信息時(shí)的漏填,因此數(shù)據(jù)清理時(shí)要盡量識(shí)別這種空值,在處理時(shí)盡可能智能化,減少數(shù)據(jù)誤差。光滑噪聲數(shù)據(jù)處理Bin方法。Bin方法也就是分箱方法,可以觀察數(shù)據(jù)的相鄰值來對(duì)有序數(shù)據(jù)進(jìn)行光滑處理。將有序數(shù)據(jù)分布在箱子中進(jìn)行局部處理,然后利用這段有序數(shù)據(jù)的均值、最大值、最小值來進(jìn)行分配。如圖4.1為分箱法的例子。圖4.1用于數(shù)據(jù)光滑的分箱方法由圖4.1分箱方法可知,首先將商品價(jià)格按照大小進(jìn)行排序,將圖中第一列箱子劃分成大小為3的等頻箱(即每個(gè)箱子包含3個(gè)數(shù)值。) 圖中第二列采用的是均值光滑,將等頻箱中數(shù)值相加取平均值來替換箱子中的值,如圖等頻箱箱1平均值為9,因此均值光滑箱1中每個(gè)數(shù)值都用9替換。圖中第三列采用的是邊界光滑方法,將箱子內(nèi)的最大值和最小值作為邊界,將箱子內(nèi)每個(gè)數(shù)替換成最靠近的邊界值,如等頻箱3中數(shù)值為20,24,25,在邊界光滑方法中就變成20,25,25了?;貧w??梢岳脭?shù)學(xué)中的擬合函數(shù)進(jìn)行數(shù)據(jù)光滑,數(shù)學(xué)中稱作回歸。借助數(shù)學(xué)中的線性回歸方法,獲取數(shù)據(jù)之間的擬合關(guān)系,然后可以通過其中一個(gè)數(shù)據(jù)變量來預(yù)測另一個(gè)數(shù)據(jù)變量取值范圍,從而進(jìn)行數(shù)據(jù)的光滑。孤立點(diǎn)分析。由下圖4.2數(shù)據(jù)聚類圖可以看出,將一些相似或相鄰的數(shù)據(jù)進(jìn)行聚合,形成各種聚類集合。集合之外這些零散的數(shù)據(jù)對(duì)象,稱作孤立點(diǎn)。這些零散的數(shù)據(jù)對(duì)象往往會(huì)被認(rèn)作是異常數(shù)據(jù)或誤差數(shù)據(jù),因此可以清理這些孤立點(diǎn)從而完成光滑數(shù)據(jù)。圖4.2數(shù)據(jù)聚類圖檢測偏差和糾正偏差檢查偏差和糾正偏差是十分繁瑣的過程。產(chǎn)生偏差的原因有很多,有人為的錯(cuò)誤輸入、有人為故意的錯(cuò)誤輸入、有系統(tǒng)故障產(chǎn)生的偏差和一些失效已久的數(shù)據(jù)。檢查偏差。檢查偏差是數(shù)據(jù)清理的第一步,通??梢酝ㄟ^已知的數(shù)據(jù)性質(zhì)來尋找數(shù)據(jù)中的噪聲、孤立點(diǎn)和異常數(shù)據(jù)等需要清理的數(shù)據(jù)。對(duì)每個(gè)數(shù)據(jù)的定義域、數(shù)據(jù)類型、每個(gè)屬性的臨界值和值的范圍進(jìn)行考察;找出屬性之間的函數(shù)關(guān)系;找出數(shù)據(jù)的均值、中位數(shù)和眾數(shù)。目前企業(yè)中有很多商業(yè)工具用作數(shù)據(jù)偏差檢查。例如,數(shù)據(jù)清洗工具可以利用已知的領(lǐng)域知識(shí)來進(jìn)行數(shù)據(jù)偏差檢查和糾正;數(shù)據(jù)審計(jì)工具可以分析數(shù)據(jù)屬性,發(fā)現(xiàn)它們之間的函數(shù)關(guān)系,檢測出不符合規(guī)則的異常數(shù)據(jù)。糾正偏差。當(dāng)檢查出偏差時(shí),需要通過一系列變換來修正偏差。例如,利用數(shù)據(jù)遷移工具實(shí)現(xiàn)字符串的替換。但這些工具只能進(jìn)行有限的變換,因此很多偏差糾正需要定制的程序解決。由上述分析可知,檢查偏差和糾正偏差是迭代執(zhí)行的,整個(gè)過程繁瑣費(fèi)時(shí),而且容易出現(xiàn)錯(cuò)誤,如有些數(shù)據(jù)變換會(huì)導(dǎo)致更多的數(shù)據(jù)偏差,這些疊加偏差可能在其他偏差解決之后才能檢查出來。為了讓數(shù)據(jù)清洗更加有效率,需要加強(qiáng)數(shù)據(jù)清洗的交互性。數(shù)據(jù)集成分布式存儲(chǔ)存在的問題由于大數(shù)據(jù)的分布式存儲(chǔ),數(shù)據(jù)庫分散在各個(gè)地方,數(shù)據(jù)庫之間彼此獨(dú)立,阻隔了數(shù)據(jù)的交流和共享,從而形成了數(shù)據(jù)孤島。數(shù)據(jù)孤島的存在會(huì)導(dǎo)致系統(tǒng)積累大量“垃圾”數(shù)據(jù),使得數(shù)據(jù)的利用率降低。 數(shù)據(jù)集成的概念數(shù)據(jù)集成是結(jié)合應(yīng)用、存儲(chǔ)和各組織數(shù)據(jù)的相關(guān)管理操作。數(shù)據(jù)集成就是將各種數(shù)據(jù)中的格式、特點(diǎn)、性質(zhì)不同的數(shù)據(jù)合并存儲(chǔ)在一個(gè)數(shù)據(jù)倉庫中。數(shù)據(jù)集成后的數(shù)據(jù)倉庫,可以為后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)挖掘提供數(shù)據(jù)支持,用戶可以自由訪問數(shù)據(jù)源,實(shí)現(xiàn)全面的數(shù)據(jù)共享。數(shù)據(jù)集成的數(shù)據(jù)源主要是非結(jié)構(gòu)化、半結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)。如何將數(shù)據(jù)格式轉(zhuǎn)換成一致的格式,是數(shù)據(jù)集成所要面對(duì)的首要難題。數(shù)據(jù)集成面對(duì)的問題數(shù)據(jù)集成需要考慮三個(gè)問題,分別是數(shù)據(jù)冗余問題、數(shù)據(jù)識(shí)別問題和數(shù)據(jù)沖突問題。數(shù)據(jù)冗余問題:數(shù)據(jù)倉庫中的數(shù)據(jù)屬性冗余問題,可以利用數(shù)據(jù)相關(guān)性公式4.1:;(4.1)根據(jù)數(shù)據(jù)相關(guān)性公式可知,當(dāng)?shù)闹荡笥?時(shí),證明A、B兩個(gè)數(shù)據(jù)屬性相關(guān);當(dāng)?shù)闹档扔?時(shí),證明A、B兩個(gè)數(shù)據(jù)屬性不相關(guān)。因此可以利用公式來度量數(shù)據(jù)屬性是否存在冗余。數(shù)據(jù)識(shí)別問題:數(shù)據(jù)識(shí)別問題,也就是數(shù)據(jù)實(shí)體識(shí)別問題,是指不同數(shù)據(jù)庫的用戶為同一實(shí)體,導(dǎo)致多個(gè)數(shù)據(jù)源實(shí)體發(fā)生沖突。可以利用元數(shù)據(jù)實(shí)體來識(shí)別是否為同一實(shí)體,并將實(shí)體進(jìn)行同名化,刪除多余的部分。數(shù)據(jù)沖突問題:數(shù)據(jù)沖突包括檢測和處理,對(duì)于現(xiàn)實(shí)世界的實(shí)體,可能由于其表達(dá)方式不同,而導(dǎo)致其屬性不同。例如,在某所學(xué)校開展了大數(shù)據(jù)課程,其評(píng)分標(biāo)準(zhǔn)為等級(jí)制,即A~E;而另一所學(xué)校開展大數(shù)據(jù)課程,其評(píng)分標(biāo)準(zhǔn)為百分制,即0~100分。因此由于其評(píng)分標(biāo)準(zhǔn)不同,導(dǎo)致了數(shù)據(jù)屬性存在差異性。將數(shù)據(jù)屬性格式統(tǒng)一,能有效減少數(shù)據(jù)的冗余性和差異性,提高數(shù)據(jù)挖掘效率。數(shù)據(jù)集成存在著核心問題,分別是其異構(gòu)性、分布性和自治性。其中異構(gòu)性一直是數(shù)據(jù)集成所要面對(duì)的主要問題。數(shù)據(jù)規(guī)約數(shù)據(jù)規(guī)約就是利用替代方法,使用較小的數(shù)據(jù)來替換原來的數(shù)據(jù),盡可能保證其完整性,在后續(xù)數(shù)據(jù)挖掘中獲得與規(guī)約前相差無幾的結(jié)果。數(shù)據(jù)規(guī)約包括:維簡約、數(shù)量約束和數(shù)據(jù)壓縮。維簡約維簡約實(shí)際上是降低數(shù)據(jù)屬性維數(shù)的過程,通過降低數(shù)據(jù)原來的維數(shù),保證原數(shù)據(jù)庫的數(shù)據(jù)內(nèi)容完整性,既能最大限度節(jié)約數(shù)據(jù)庫的存儲(chǔ)空間,又能去除噪聲影響、提取出數(shù)據(jù)的特征進(jìn)行分析,還能將高維數(shù)據(jù)投影到低維可視空間以便觀察分布情況。數(shù)量約束簡單來說,數(shù)量約束就是用一些小數(shù)據(jù)來概括大數(shù)據(jù),從而節(jié)約存儲(chǔ)空間。具體操作上,數(shù)量約束一般分為參數(shù)形式和非參數(shù)形式,如參數(shù)形式我們可以利用函數(shù)來進(jìn)行約束;非參數(shù)形式可以利用數(shù)據(jù)直方圖或者聚類圖來進(jìn)行約束。數(shù)據(jù)壓縮數(shù)據(jù)壓縮就是原數(shù)據(jù)通過一系列數(shù)據(jù)變換得到自身壓縮表示,如果壓縮后不丟失信息,則可稱為無損壓縮,否則稱為有損壓縮。對(duì)于一些稀疏的數(shù)據(jù),我們通常會(huì)使用主成分分析壓縮方法來進(jìn)行數(shù)據(jù)壓縮,主成分分析壓縮簡單來說就是將一些具有相關(guān)性的數(shù)據(jù)進(jìn)行重新組合排列變成互不相關(guān)的數(shù)據(jù)。而對(duì)于一些高維度數(shù)據(jù),我們通常會(huì)使用離散小波變換方法來處理,經(jīng)過小波變換處理的數(shù)據(jù)可以保留最接近原始數(shù)據(jù)的一部分,而且可以光滑噪聲數(shù)據(jù),而且壓縮速度快。數(shù)據(jù)變換數(shù)據(jù)變換是將數(shù)據(jù)變換或統(tǒng)一成適合數(shù)據(jù)挖掘的形式。數(shù)據(jù)變換常用方法包括:光滑數(shù)據(jù)、屬性構(gòu)造、數(shù)據(jù)匯總、數(shù)據(jù)縮映、數(shù)據(jù)離散化和數(shù)據(jù)泛化等。光滑數(shù)據(jù):就是消除數(shù)據(jù)噪聲影響,在上面數(shù)據(jù)清洗有詳細(xì)方法,主要包括分箱法、回歸和聚類方法。屬性構(gòu)造:根據(jù)數(shù)據(jù)已知的屬性去構(gòu)造新的屬性,有助于加快數(shù)據(jù)挖掘過程。數(shù)據(jù)匯總:將數(shù)據(jù)細(xì)節(jié)匯總在一起,形成一個(gè)抽象的直方圖,便于觀察數(shù)據(jù)傾向。如網(wǎng)站瀏覽人數(shù)年度匯總。數(shù)據(jù)縮映:將數(shù)據(jù)的屬性按比例縮放,讓它落入在一個(gè)特定區(qū)間內(nèi),如:0.0~1.0區(qū)間。數(shù)據(jù)離散化:數(shù)據(jù)屬性的數(shù)據(jù)原始值用區(qū)間標(biāo)簽或概念標(biāo)簽替換。數(shù)據(jù)泛化:泛化就是將低層概念轉(zhuǎn)換成高層概念方便進(jìn)行數(shù)據(jù)分析,如可以將鄉(xiāng)鎮(zhèn)泛化成市級(jí)省級(jí)。

結(jié)論本次畢業(yè)設(shè)計(jì)的題目是數(shù)據(jù)科學(xué)—數(shù)據(jù)采集與加工技術(shù)研究,本課題主要涉及理論知識(shí)的研究,由于缺乏這方面的知識(shí),因此需要翻閱大量資料,以及在指導(dǎo)老師的幫助下才能完成本次畢業(yè)設(shè)計(jì)論文。本文結(jié)合了自己的看法與理解,著重于研究大數(shù)據(jù)的采集技術(shù),深刻了解大數(shù)據(jù)采集的重要性,有意在未來的日子研究這方面的知識(shí)。在本篇論文中,我們可以了解關(guān)于大數(shù)據(jù)采集和加工技術(shù)的相關(guān)問題。大數(shù)據(jù)的來源有很多,如互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、系統(tǒng)日志以及定位信息等;而相對(duì)應(yīng)的采集方法也很多,有傳感器采集、Web爬蟲抓取、系統(tǒng)日志數(shù)據(jù)采集和ETL工具采集等;對(duì)于采集回來的大數(shù)據(jù),我們通常會(huì)先進(jìn)行加工處理再進(jìn)行數(shù)據(jù)挖掘,而加工方法包括:數(shù)據(jù)清洗、數(shù)據(jù)集成、規(guī)約和數(shù)據(jù)變換等,對(duì)數(shù)據(jù)進(jìn)行一系列的加工處理,提高后續(xù)數(shù)據(jù)挖掘的效率。大數(shù)據(jù)采集與加工技術(shù)在中國市場經(jīng)濟(jì)的應(yīng)用十分廣泛,尤其是電商平臺(tái)和論壇等,如字節(jié)跳動(dòng)旗下的“今日頭條”和“西瓜視頻”等app,可以采集用戶的瀏覽歷史,分析用戶的興趣愛好進(jìn)行內(nèi)容推送;還有京東、淘寶等電商平臺(tái),會(huì)采集用戶的瀏覽歷史、消費(fèi)記錄,給用戶推送相關(guān)產(chǎn)品,還會(huì)采集商家的產(chǎn)品數(shù)據(jù)以及用戶的評(píng)價(jià),篩選出價(jià)格最優(yōu)、聲譽(yù)最好的商家。一些以傳統(tǒng)經(jīng)營模式的企業(yè)要跟上時(shí)代的腳步,利用大數(shù)據(jù)技術(shù)進(jìn)行轉(zhuǎn)型,才能在大數(shù)據(jù)時(shí)代中獨(dú)放異彩。大數(shù)據(jù)在本次新冠肺炎的防疫抗疫上也提供了巨大的數(shù)據(jù)支持,我們可

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論