數(shù)據(jù)采集與加工技術(shù)研究

上傳人：文*** IP屬地：山西上傳時(shí)間：2023-11-05 格式：DOC 頁數(shù)：24 大?。?63.28KB 積分：20 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩19頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

北京理工大學(xué)珠海學(xué)院2020屆本科畢業(yè)論文V緒論課題研究背景：在這個(gè)信息化時(shí)代，各個(gè)領(lǐng)域行業(yè)都存在著大數(shù)據(jù)的身影，大數(shù)據(jù)的優(yōu)勢伴隨著互聯(lián)網(wǎng)企業(yè)的發(fā)展慢慢彰顯出來。全球知名咨詢公司的麥肯錫，是最早提出大數(shù)據(jù)時(shí)代到來的人。他對大數(shù)據(jù)的評價(jià)是：一種傳統(tǒng)數(shù)據(jù)庫無法存儲(chǔ)的大規(guī)模數(shù)據(jù)集。大數(shù)據(jù)在信息時(shí)代的地位如同工業(yè)時(shí)代的“煤礦”，它的數(shù)量龐大且內(nèi)部蘊(yùn)含著豐富的資源，但傳統(tǒng)的采集工具無法對如此龐大的數(shù)據(jù)進(jìn)行采集、加工、存儲(chǔ)，因此，大數(shù)據(jù)技術(shù)應(yīng)運(yùn)而生。大數(shù)據(jù)的采集與加工技術(shù)是當(dāng)下研究的熱點(diǎn)之一，在醫(yī)療行業(yè)、科研行業(yè)、企業(yè)管理、電商銷售等發(fā)揮著重要作用。課題研究目的：2019年的《中國互聯(lián)網(wǎng)發(fā)展報(bào)告》指出：中國網(wǎng)民規(guī)模為8.54億人，互聯(lián)網(wǎng)普及率達(dá)61.2%，網(wǎng)站數(shù)量為518萬個(gè)。如今互聯(lián)網(wǎng)覆蓋著人們的日常生活，智能手機(jī)的普及加速社會(huì)進(jìn)入信息化時(shí)代，國內(nèi)外許多互聯(lián)網(wǎng)行業(yè)因此而生，如國外的Facebook、Google等，國內(nèi)的騰訊、網(wǎng)易、阿里巴巴等。這個(gè)時(shí)代，人們手機(jī)一點(diǎn)便可知悉天下事，而用戶的數(shù)據(jù)，成為了各大互聯(lián)網(wǎng)行業(yè)相互競爭的強(qiáng)力資本。誰能更精確地采集到數(shù)據(jù)，誰能更精確地從各個(gè)層面分析數(shù)據(jù)，誰就是這個(gè)信息時(shí)代的贏家。而大數(shù)據(jù)的興起，各個(gè)互聯(lián)網(wǎng)行業(yè)將面臨更大的機(jī)遇和挑戰(zhàn)。與傳統(tǒng)數(shù)據(jù)采集不同，大數(shù)據(jù)的采集更加復(fù)雜，更加困難，分析處理的方法也大不如前。國內(nèi)外研究現(xiàn)狀信息化時(shí)代是充滿機(jī)遇和挑戰(zhàn)的時(shí)代，掌握豐富多彩的信息，就等于掌握了制勝的關(guān)鍵。而信息就來源于大數(shù)據(jù)，通過對大數(shù)據(jù)的分析和處理，提取出有價(jià)值的信息，正是當(dāng)下研究的重點(diǎn)。國外研究現(xiàn)狀在美國，互聯(lián)網(wǎng)企業(yè)最早著手開展大數(shù)據(jù)研究，通過商業(yè)來源、政府來源和其他公開來源三個(gè)途徑來獲取數(shù)據(jù)。美國積極應(yīng)用大數(shù)據(jù)技術(shù)來提升政府管理能力，用大數(shù)據(jù)分析進(jìn)行打擊犯罪、反恐等活動(dòng)；利用應(yīng)用大數(shù)據(jù)技術(shù)來提高社會(huì)服務(wù)能力，用于交通管理、醫(yī)療管理等，有助于緩解交通壓力、抑制疫情擴(kuò)散等問題；利用應(yīng)用大數(shù)據(jù)技術(shù)來提高商業(yè)決策水平，利用大數(shù)據(jù)對消費(fèi)者進(jìn)行分析，掌握消費(fèi)者的行為愛好，有針對性的制定營銷策略。國內(nèi)研究現(xiàn)狀我國大數(shù)據(jù)技術(shù)研究還在初級(jí)階段，很多技術(shù)尚未成熟。因?yàn)槲覈臄?shù)據(jù)量約占全球總量的20%，可以構(gòu)建以開源為基礎(chǔ)的大數(shù)據(jù)產(chǎn)業(yè)生態(tài)。相關(guān)研究人員表明，目前中國要利用大數(shù)據(jù)來對未來進(jìn)行預(yù)測和指導(dǎo)實(shí)際深層次的應(yīng)用，才是大數(shù)據(jù)當(dāng)下研究重點(diǎn)。在政策上，全面支持大數(shù)據(jù)產(chǎn)業(yè)化發(fā)展，鼓勵(lì)人們使用和傳播免費(fèi)數(shù)據(jù)，公開政府?dāng)?shù)據(jù)，立相關(guān)法律法規(guī)保護(hù)網(wǎng)民的隱私等；在經(jīng)濟(jì)上，我國大數(shù)據(jù)市場經(jīng)濟(jì)發(fā)展迅速并呈持續(xù)增長趨勢，早在2015年大數(shù)據(jù)市場經(jīng)濟(jì)規(guī)模就破百億美元，直至2019年，我國大數(shù)據(jù)市場經(jīng)濟(jì)規(guī)模高達(dá)436億美元；在科技上，雖然我國在大數(shù)據(jù)應(yīng)用上取得巨大進(jìn)展，但由于核心技術(shù)尚未掌握，因此與美國、日本等科技大國仍有一些差距。課題研究方向大數(shù)據(jù)應(yīng)用的領(lǐng)域有很多，如：互聯(lián)網(wǎng)行業(yè)、醫(yī)療行業(yè)、科學(xué)研究、企業(yè)管理等。而各領(lǐng)域的數(shù)據(jù)采集方式和加工技術(shù)也會(huì)有所不同，而本文主要研究互聯(lián)網(wǎng)行業(yè)的大數(shù)據(jù)采集方法和加工技術(shù)。大數(shù)據(jù)概述本章節(jié)主要介紹大數(shù)據(jù)的概念、大數(shù)據(jù)的價(jià)值體現(xiàn)以及大數(shù)據(jù)的來源大數(shù)據(jù)概念大數(shù)據(jù)（Bigdata）從字面上理解就是一個(gè)很大的數(shù)據(jù)集，那到底有多大呢，按照外國有名的咨詢企業(yè)麥肯錫提出的定義就是，一個(gè)大到傳統(tǒng)工具無法采集、加工和存儲(chǔ)的數(shù)據(jù)集。我們通?？梢酝ㄟ^大數(shù)據(jù)的特征來判斷數(shù)據(jù)集是否為大數(shù)據(jù)，它的特征為：數(shù)量大、價(jià)值密度低、數(shù)據(jù)處理速度快、數(shù)據(jù)種類來源多樣化和數(shù)據(jù)準(zhǔn)確性高。大數(shù)據(jù)價(jià)值體現(xiàn)有人將“大數(shù)據(jù)”比作“煤礦”，寓意著它的數(shù)量龐大，大數(shù)據(jù)的價(jià)值體現(xiàn)并不在于其數(shù)量，而在于它的內(nèi)在價(jià)值和挖掘過程中所使用的技術(shù)。對大多數(shù)互聯(lián)網(wǎng)行業(yè)而言，如何利用大數(shù)據(jù)才是贏得競爭的關(guān)鍵。大數(shù)據(jù)的商業(yè)價(jià)值體現(xiàn)在：客戶類型細(xì)分：對用戶的興趣愛好、消費(fèi)水平進(jìn)行有針對性的服務(wù)模擬銷售環(huán)境：通過大數(shù)據(jù)來模擬銷售環(huán)境，從而挖掘潛在需求，提高銷售額。加強(qiáng)內(nèi)部聯(lián)系：企業(yè)可以通過大數(shù)據(jù)技術(shù)提高內(nèi)部管理效率。降低服務(wù)成本：挖掘新的需求，進(jìn)行服務(wù)和產(chǎn)品的供求創(chuàng)新。不過，需要注意的是，即使大數(shù)據(jù)在經(jīng)濟(jì)發(fā)展中占重要地位，也并不意味著可以取代對社會(huì)問題的理性思考，科學(xué)發(fā)展的邏輯和社會(huì)發(fā)展的理性不能被海量數(shù)據(jù)所淹沒。大數(shù)據(jù)來源隨著互聯(lián)網(wǎng)迅速發(fā)展，人類產(chǎn)生數(shù)據(jù)的途徑也發(fā)生了變化，數(shù)據(jù)形式越來越多樣化，數(shù)據(jù)量也呈現(xiàn)爆炸式增長。人們可以隨時(shí)隨地產(chǎn)生數(shù)據(jù)。從開始采用數(shù)據(jù)庫作為數(shù)據(jù)管理被動(dòng)產(chǎn)生的數(shù)據(jù)到社會(huì)網(wǎng)絡(luò)的發(fā)展，用戶主動(dòng)產(chǎn)生數(shù)據(jù)到物聯(lián)網(wǎng)技術(shù)的崛起，大量傳感器自動(dòng)產(chǎn)生大量復(fù)雜的數(shù)據(jù)。這些由用戶主動(dòng)、被動(dòng)和系統(tǒng)自動(dòng)生產(chǎn)的數(shù)據(jù)共同構(gòu)成了大數(shù)據(jù)的來源。數(shù)據(jù)的主要來源是通過各種數(shù)據(jù)采集器、企業(yè)系統(tǒng)日志、社交平臺(tái)、開源的數(shù)據(jù)分布、車輛和手機(jī)定位信息、網(wǎng)絡(luò)痕跡（如歷史搜索、瀏覽痕跡等）、傳感器等收集的結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)。具體包括，互聯(lián)網(wǎng)數(shù)據(jù)、各行業(yè)數(shù)據(jù)以及政府公開數(shù)據(jù)等。互聯(lián)網(wǎng)數(shù)據(jù)隨著Web2.0技術(shù)的出現(xiàn)，讓互聯(lián)網(wǎng)用戶由單純的“讀者”轉(zhuǎn)變?yōu)椤皩懽髡摺焙汀肮餐ㄔO(shè)者”，由接受互聯(lián)網(wǎng)數(shù)據(jù)轉(zhuǎn)變?yōu)楫a(chǎn)生互聯(lián)網(wǎng)數(shù)據(jù)。因?yàn)橹悄苁謾C(jī)的普及，各種交友a(bǔ)pp和電商平臺(tái)的出現(xiàn)，使得近幾年的移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)呈爆炸性增長。各大社交平臺(tái)的出現(xiàn)，用戶的交流和網(wǎng)絡(luò)搜索數(shù)據(jù)促使著大數(shù)據(jù)的形成，給人們帶來了翻天覆地的變化。而互聯(lián)網(wǎng)數(shù)據(jù)的來源如下：社交app（如微信、QQ、微博等），可供用戶之間進(jìn)行信息交流，社交平臺(tái)可記錄用戶傳收的圖片視頻等，也可記錄用戶的行為習(xí)慣。這類數(shù)據(jù)具有一定的實(shí)時(shí)性和針對性。電商app（如京東、淘寶），平臺(tái)允許用戶自由購買產(chǎn)品并查詢，發(fā)布產(chǎn)品評論及銷售量。這類數(shù)據(jù)具有一定的實(shí)時(shí)性和真實(shí)性。新聞媒體平臺(tái)（如騰訊新聞、虎撲體育等）發(fā)布的新聞、評論、報(bào)道等。這類數(shù)據(jù)具有一定的實(shí)時(shí)性和專業(yè)性。網(wǎng)站論壇，屬于開放性平臺(tái)，允許用戶發(fā)表個(gè)人意見并記錄用戶的價(jià)值傾向和事件評估信息等。這類數(shù)據(jù)具有一定的實(shí)時(shí)性和針對性。政府門戶網(wǎng)站所發(fā)布的一些民生信息、新規(guī)政策、法院公告、疫情信息等。這類數(shù)據(jù)具有實(shí)時(shí)性和權(quán)威性。由于互聯(lián)網(wǎng)數(shù)據(jù)來源廣泛，數(shù)據(jù)結(jié)構(gòu)復(fù)雜、數(shù)量龐大，且平臺(tái)建設(shè)程度不一樣，對網(wǎng)絡(luò)爬蟲的監(jiān)管程度也不一樣，因此互聯(lián)網(wǎng)數(shù)據(jù)采集，具有一定的難度和挑戰(zhàn)性。下面將會(huì)介紹大數(shù)據(jù)的采集方式。

大數(shù)據(jù)采集分布式存儲(chǔ)由于傳統(tǒng)關(guān)系型數(shù)據(jù)庫的局限性，無法滿足海量數(shù)據(jù)的存儲(chǔ)。因此，為，了適應(yīng)大數(shù)據(jù)時(shí)代，因此分布式存儲(chǔ)技術(shù)應(yīng)運(yùn)而生。分布式存儲(chǔ)系統(tǒng)就是將大量數(shù)據(jù)，分散存儲(chǔ)在企業(yè)內(nèi)部的每個(gè)獨(dú)立設(shè)備中，利用企業(yè)內(nèi)部多個(gè)數(shù)據(jù)存儲(chǔ)服務(wù)器來分擔(dān)存儲(chǔ)負(fù)荷。分布式存儲(chǔ)不僅能夠滿足海量數(shù)據(jù)的存儲(chǔ)空間，還能提高數(shù)據(jù)的可靠性、安全性，在未來遇到數(shù)據(jù)量更大的數(shù)據(jù)集時(shí)，可以通過增添存儲(chǔ)服務(wù)器來擴(kuò)展存儲(chǔ)空間，而且即使一個(gè)存儲(chǔ)系統(tǒng)發(fā)生故障，也不會(huì)影響其他存儲(chǔ)系統(tǒng)的正常運(yùn)行。數(shù)據(jù)采集方式大數(shù)據(jù)的采集方式主要有：傳感器、系統(tǒng)日志文件采集、Web爬蟲和ETL工具采集等。下面是詳細(xì)的采集方式。傳感器通過傳感器把外界物理量轉(zhuǎn)換成計(jì)算機(jī)能識(shí)別的數(shù)據(jù)。如物聯(lián)網(wǎng)應(yīng)用中的智能家具，用戶可以從手機(jī)上獲取家中設(shè)備的信息，如溫度濕度等。系統(tǒng)日志文件采集系統(tǒng)日志文件采集是最廣泛使用的數(shù)據(jù)采集方法，企業(yè)系統(tǒng)每天都會(huì)自動(dòng)產(chǎn)生大量日志文件，這些日志文件記錄著企業(yè)數(shù)據(jù)源的操作過程。許多互聯(lián)網(wǎng)企業(yè)都有自己的數(shù)據(jù)采集工具，如Hadoop的ChuKwa，Cloudera的Flume，F(xiàn)acebook的Sbcrible以及ApacheKafka等大數(shù)據(jù)采集框架。這些工具均采用分布式架構(gòu)，能滿足大數(shù)據(jù)的日志數(shù)據(jù)采集和傳輸需求。Web爬蟲互聯(lián)網(wǎng)網(wǎng)頁數(shù)據(jù)通常使用Web爬蟲進(jìn)行抓取的，網(wǎng)絡(luò)爬蟲也叫網(wǎng)絡(luò)蜘蛛，是一種可以自動(dòng)抓取互聯(lián)網(wǎng)頁面信息的程序。通俗來說，網(wǎng)絡(luò)爬蟲從指定的鏈接入口，按照某種策略從互聯(lián)網(wǎng)中自動(dòng)獲取有用信息。對于這一互聯(lián)網(wǎng)數(shù)據(jù)采集方式，在文章后面將詳細(xì)介紹。利用ETL工具采集ELT也就是數(shù)據(jù)倉庫技術(shù)，是英文Extract（抽?。ransform（轉(zhuǎn)換）和Load（加載）的縮寫。簡單來說ETL就是將數(shù)據(jù)經(jīng)過抽取、轉(zhuǎn)換處理后加載到數(shù)據(jù)庫的過程。它可以將企業(yè)內(nèi)部雜亂的數(shù)據(jù)，整理好存放在一起。如下圖是ETL的結(jié)構(gòu)圖。圖3.1ETL體系結(jié)構(gòu)圖系統(tǒng)日志采集隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展，各行業(yè)的相關(guān)部門、各大公司等都在不停地生產(chǎn)大量信息，這些信息看似簡單，但如果經(jīng)過處理，便可以滿足各種應(yīng)用需求。大數(shù)據(jù)技術(shù)帶來了許多挑戰(zhàn)，其中之一就是在大量數(shù)據(jù)中采集到自己所需要的信息。許多大型互聯(lián)網(wǎng)公司、金融行業(yè)、醫(yī)療行業(yè)等本身具備從事大數(shù)據(jù)分析的條件，因此這些企業(yè)每天都會(huì)積累大量的系統(tǒng)日志。這些系統(tǒng)日志數(shù)據(jù)包含著：用戶的交易數(shù)據(jù)、社交數(shù)據(jù)、搜索數(shù)據(jù)等，并擁有穩(wěn)定、安全的數(shù)據(jù)源。一些規(guī)模比較小的公司，并不具備這樣的條件，會(huì)向大型互聯(lián)網(wǎng)公司購買用戶數(shù)據(jù)，從而精準(zhǔn)地發(fā)現(xiàn)新客戶。因此，系統(tǒng)日志采集，是大數(shù)據(jù)采集的重要途徑。目前，許多企業(yè)通過架設(shè)日志采集系統(tǒng)來保存日志數(shù)據(jù)，這些數(shù)據(jù)可以用于提高商業(yè)價(jià)值和社會(huì)價(jià)值。如Hadoop的Chukwa、Cloudera的Flume、Facebook的Scrible以及ApacheKafka等大數(shù)據(jù)采集架構(gòu)。這些采集工具均采用分布式架構(gòu)，能滿足海量系統(tǒng)日志的采集需求。Chukwa采集架構(gòu)Chukwa是構(gòu)建在hadoop基礎(chǔ)上的一個(gè)分布式日志處理系統(tǒng)，簡單來說就是你要先有Hadoop，然后才能在上面搭建Chukwa。Chukwa保留著hadoop的可伸縮性和魯棒性，可以在異常情況下，保證系統(tǒng)不死機(jī)、不崩潰。同時(shí)還擁有一個(gè)強(qiáng)大的工具集，可用來展示、分析和監(jiān)控采集到的數(shù)據(jù)。圖3.2為Chukwa的采集架構(gòu)。圖3.2Chukwa的架構(gòu)從上圖可以看出，Chukwa的采集架構(gòu)包括采集層和處理層兩部分。工作原理和流程大致如下：數(shù)據(jù)采集層的Agent管理多個(gè)adaptors（數(shù)據(jù)采集工具和接口），將采集到的原始數(shù)據(jù)發(fā)送到數(shù)據(jù)處理層的Collector;Collector為了避免大量小數(shù)據(jù)寫入集群，會(huì)將收到的數(shù)據(jù)進(jìn)行部分合并再寫入集群里；然后map/reduce負(fù)責(zé)把集群上的數(shù)據(jù)進(jìn)行分類、排序、去重和合并。最后再通過HICC進(jìn)行數(shù)據(jù)展示。從Chukwa的工作流程可以看出，Chukwa對數(shù)據(jù)的產(chǎn)生、采集、存儲(chǔ)、分析都提供巨大幫助。Flume采集架構(gòu)Flume是Couldera提供的一個(gè)高可用性、高可靠性的分布式日志采集系統(tǒng)，能進(jìn)行海量企業(yè)內(nèi)部日志的聚合和傳輸操作。Flume具有可定制能力，可將采集到的數(shù)據(jù)進(jìn)行簡單處理再發(fā)到數(shù)據(jù)接收方處。應(yīng)用在運(yùn)行時(shí)產(chǎn)生的數(shù)據(jù)可以存儲(chǔ)在任何集中存儲(chǔ)器中如分布式文件系統(tǒng)。當(dāng)采集的數(shù)據(jù)非常大，超過系統(tǒng)的寫入數(shù)據(jù)能力時(shí)，F(xiàn)lume會(huì)在數(shù)據(jù)產(chǎn)生方和數(shù)據(jù)接受方之間進(jìn)行數(shù)據(jù)傳輸量調(diào)整，以保證數(shù)據(jù)產(chǎn)生方與接收方之間能夠穩(wěn)定地傳輸數(shù)據(jù)。Flume是分布式日志采集系統(tǒng)，它將各網(wǎng)站服務(wù)器日志采集起來發(fā)送到指定地方，如：HDFS。如圖2.3Flume的結(jié)構(gòu)。圖3.3Flume結(jié)構(gòu)圖由上圖可知，Source從服務(wù)器上采集數(shù)據(jù)并以event格式換遞給Channel；Channel是一個(gè)臨時(shí)存儲(chǔ)數(shù)據(jù)的通道，等待Sink取出數(shù)據(jù)并將數(shù)據(jù)放到不同目的地如（HDFS）。Scribe采集架構(gòu)Scribe是Facebook的一個(gè)具有高容錯(cuò)性的日志采集系統(tǒng)，它可以采集各種數(shù)據(jù)源中的數(shù)據(jù)和各種機(jī)器產(chǎn)生的系統(tǒng)日志，并將它們集中存儲(chǔ)在一個(gè)中央存儲(chǔ)系統(tǒng)中，方便進(jìn)行下一步的數(shù)據(jù)分析處理。如下圖為Scribe的架構(gòu)圖。圖3.4Scribe的結(jié)構(gòu)圖如圖所示，Scribe將采集到的數(shù)據(jù)發(fā)送到同一個(gè)信息隊(duì)列中，等待傳送到分布式文件系統(tǒng)中或其他Scribe中，一旦分布式文件系統(tǒng)發(fā)生故障時(shí)，Scribe會(huì)將數(shù)據(jù)發(fā)送到本地文件中等候分布式文件系統(tǒng)修復(fù)，待修復(fù)完成后，將存儲(chǔ)在本地文件中的數(shù)據(jù)發(fā)送回分布式文件系統(tǒng)或其他Scribe中。Kafka采集架構(gòu)Kafka是一個(gè)高采集-輸出量的分布式發(fā)布-訂閱信息系統(tǒng)，可以處理消費(fèi)者所有在網(wǎng)站上的操作數(shù)據(jù)。最開始由Lockedin公司開發(fā)，之后成為了Apache軟件基金會(huì)的一個(gè)開源流處理平臺(tái)。Kafka架構(gòu)具有擴(kuò)展性高、容錯(cuò)率高和高并發(fā)性等，相比其他消息系統(tǒng)具有更高的數(shù)據(jù)采集量和輸出量。Kafka為發(fā)布信息提供了一套存儲(chǔ)系統(tǒng)，因此其不僅用于發(fā)布和閱消息，還能用于日志采集。Kafka架構(gòu)如圖3.5。圖3.5Kafka架構(gòu)圖如圖所示，Kafka由Producer、Broker、Consumer三層架構(gòu)組成。Producer將信息發(fā)布到KafkaBroker上，Broker上的topic根據(jù)用戶的定義采集指定消息，然后Consumer即用戶，可以從Broker上讀取自己感興趣的信息。Web爬蟲Web爬蟲，也稱為網(wǎng)絡(luò)蜘蛛或網(wǎng)絡(luò)機(jī)器人，常用于進(jìn)行網(wǎng)頁數(shù)據(jù)采集?；ヂ?lián)網(wǎng)網(wǎng)頁上存在著結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)，如：圖片、視頻、音頻、文檔表格等。Web爬蟲通常會(huì)根據(jù)一定的網(wǎng)頁規(guī)則，自動(dòng)獲取網(wǎng)頁上的數(shù)據(jù)，并進(jìn)行網(wǎng)頁解析和數(shù)據(jù)存儲(chǔ)。Web爬蟲工作原理Web爬蟲的工作流程大致為：首先選取一些種子URL，將其加入待抓取URL隊(duì)列中；然后從待抓取URL隊(duì)列中抓取URL種子，根據(jù)URL在互聯(lián)網(wǎng)上下載對應(yīng)的網(wǎng)頁，進(jìn)行處理分析并保存在本地網(wǎng)頁庫中；然后將抓取過的URL放在已抓取URL隊(duì)列中；從已抓取URL隊(duì)列中提取URL加入待抓取URL隊(duì)列，進(jìn)行新一輪網(wǎng)頁抓??；循環(huán)該過程，直到清空待抓取URL隊(duì)列。下圖3.6位爬蟲框架流程圖。圖3.6爬蟲框架流程圖；Web爬蟲面臨的問題截至2019年，我國互聯(lián)網(wǎng)網(wǎng)頁數(shù)量高達(dá)2816億個(gè)，雖然網(wǎng)頁數(shù)量規(guī)模巨大，但有關(guān)研究表明其中有將近30%的頁面內(nèi)容是重復(fù)的，使得Web爬蟲的爬行效率降低。網(wǎng)頁內(nèi)容越來越復(fù)雜，不僅有視頻、音頻、圖像、文檔等非結(jié)構(gòu)化數(shù)據(jù)，還有需要注冊登錄才能訪問的內(nèi)容，還有一些網(wǎng)站在建設(shè)的時(shí)候設(shè)定了反爬蟲功能等。一系列問題導(dǎo)致了Web爬蟲的爬行效率降低，影響了爬行質(zhì)量等。為了提高Web爬蟲的爬行速度，一般采用并行爬行方式，但這方式容易導(dǎo)致爬蟲抓取重復(fù)頁面內(nèi)容。為了減少并行爬行方式的重復(fù)率，往往在爬行之前預(yù)先給爬蟲分配URL，使它們按照規(guī)定的路線爬行。互聯(lián)網(wǎng)頁面數(shù)量急速增長，網(wǎng)頁數(shù)據(jù)越來越復(fù)雜，Web爬蟲面臨這巨大挑戰(zhàn)。如何提高爬行速度和爬行質(zhì)量是主要問題。Web爬蟲的類別Web爬蟲根據(jù)結(jié)構(gòu)特性可以分為以下四種，分別是：通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、增量式網(wǎng)絡(luò)爬蟲和深層網(wǎng)絡(luò)爬蟲。通用網(wǎng)絡(luò)爬蟲通用網(wǎng)絡(luò)爬蟲，又稱全網(wǎng)爬蟲，可以對整個(gè)互聯(lián)網(wǎng)網(wǎng)頁進(jìn)行爬行，因此這類Web爬蟲的數(shù)量大、范圍廣。因?yàn)榕佬袑ο笫钦麄€(gè)網(wǎng)絡(luò)，因此下載網(wǎng)頁數(shù)量龐大，所需要的存儲(chǔ)空間也很大，而且對爬行速度要求很高，常用于網(wǎng)站搜索引擎如百度、谷歌等。聚焦網(wǎng)絡(luò)爬蟲聚焦網(wǎng)絡(luò)爬蟲，又稱主題網(wǎng)絡(luò)爬蟲，能預(yù)先設(shè)定好要爬行的主題來選擇相關(guān)網(wǎng)頁進(jìn)行爬行，有選擇性地采集數(shù)據(jù)。與通用網(wǎng)絡(luò)爬蟲的爬行范圍相比，聚焦網(wǎng)絡(luò)爬蟲的爬行范圍更小，但采集到的數(shù)據(jù)內(nèi)容精度更高，因此所需要的存儲(chǔ)空間也比較小。聚焦網(wǎng)絡(luò)爬蟲可以按照用戶要求對一些特定內(nèi)容的網(wǎng)頁進(jìn)行爬行。增量式網(wǎng)絡(luò)爬蟲增量式網(wǎng)絡(luò)爬蟲通俗來說，每當(dāng)互聯(lián)網(wǎng)網(wǎng)頁內(nèi)容發(fā)生變化或已經(jīng)爬行過的網(wǎng)頁內(nèi)容有所更新時(shí)，增量式網(wǎng)絡(luò)爬蟲就會(huì)對這些發(fā)生變化的網(wǎng)頁進(jìn)行再次爬行，以保持所爬行的網(wǎng)頁是新網(wǎng)頁。因此能增量式Web爬蟲在一定程度上能減少網(wǎng)頁下載量，但由于需要對網(wǎng)頁內(nèi)容進(jìn)行監(jiān)控，因此爬行的算法結(jié)構(gòu)會(huì)相對復(fù)雜。（4）DeepWeb爬蟲互聯(lián)網(wǎng)的頁面可以分為兩種類型：表層網(wǎng)頁和深層網(wǎng)頁。表層網(wǎng)頁就是可以被常規(guī)搜索引擎所索引的，其頁面信息可以用靜態(tài)鏈接來獲取。深層網(wǎng)絡(luò)就是不能被常規(guī)搜索引擎所索引，如通過填寫表格形式才能獲取在線數(shù)據(jù)庫的動(dòng)態(tài)頁面內(nèi)容、需要注冊才能觀看的內(nèi)容、PDF或Word文檔和一些無法被靜態(tài)鏈接獲取的內(nèi)容。大數(shù)據(jù)時(shí)代下，數(shù)據(jù)采集是后續(xù)數(shù)據(jù)分析、處理的前提，采集到的互聯(lián)網(wǎng)數(shù)據(jù)的數(shù)量、類型對大數(shù)據(jù)研究至關(guān)重要。目前已有很多開源的網(wǎng)絡(luò)爬蟲技術(shù)，如Nutch、Serapy、JSpider。

大數(shù)據(jù)的加工技術(shù)數(shù)據(jù)采集獲得的數(shù)據(jù)往往存在缺失值、含有噪聲以及數(shù)據(jù)不一致等問題，這些數(shù)據(jù)無法直接進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)挖掘，或者挖掘效率低和挖掘效果差等。而為了提高數(shù)據(jù)發(fā)掘效率，需要進(jìn)行數(shù)據(jù)加工。本章節(jié)主要介紹了數(shù)據(jù)加工的相關(guān)技術(shù)，包括數(shù)據(jù)清洗、數(shù)據(jù)變換、數(shù)據(jù)集成和數(shù)據(jù)規(guī)約等技術(shù)數(shù)據(jù)清洗大數(shù)據(jù)發(fā)展離不開大數(shù)據(jù)加工技術(shù)，而其應(yīng)用價(jià)值也十分顯著，大數(shù)據(jù)加工技術(shù)的目的是將大量數(shù)據(jù)進(jìn)行數(shù)據(jù)分析，進(jìn)而挖掘它們潛在的價(jià)值。而在數(shù)據(jù)采集的過程中，由于種種因素導(dǎo)致數(shù)據(jù)產(chǎn)生了誤差，產(chǎn)生一些含有雜質(zhì)、被噪聲污染或內(nèi)容缺失等劣質(zhì)數(shù)據(jù)，被行業(yè)稱為“低質(zhì)量數(shù)據(jù)”。而要想充分挖掘數(shù)據(jù)的潛在價(jià)值，就必須對這些“低質(zhì)量數(shù)據(jù)”進(jìn)行初步加工，通過數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約等操作，將“低質(zhì)量數(shù)據(jù)”進(jìn)行質(zhì)量提升。數(shù)據(jù)清洗是數(shù)據(jù)加工的首要方法。常用的操作包括：缺失值處理、光滑噪聲數(shù)據(jù)處理、檢查和糾正偏差等。缺失值處理忽略元組：當(dāng)類標(biāo)號(hào)缺失時(shí)，可以通過采用忽略元組的方式來處理數(shù)據(jù)缺失值，但在使用這方法的時(shí)候，用戶不能使用該元組的其他屬性值，因此可能會(huì)影響后續(xù)的數(shù)據(jù)挖掘效果。人工填寫缺失值：由用戶自己人工填寫缺失值。但缺失值數(shù)量很多時(shí)，人工填寫會(huì)很耗時(shí)而且容易產(chǎn)生漏填、錯(cuò)填等二次誤差。使用一個(gè)固定常量填充缺失值:通常使用一個(gè)常量如（“未知”或“0”）來替換缺失值。但如果大量缺失值均采用同一個(gè)常量，在數(shù)據(jù)挖掘時(shí)會(huì)認(rèn)為它們屬性相同，從而得出錯(cuò)誤結(jié)論，因此該方法可能會(huì)導(dǎo)致挖掘結(jié)果產(chǎn)生誤差。使用中位數(shù)/均值度量：根據(jù)數(shù)據(jù)屬性分布特點(diǎn)，如果屬性呈對稱分布，則可取屬性的平均值來填充；如果數(shù)據(jù)呈線性分布，則可取屬性中位數(shù)來填充。使用同類型對象的屬性均值或中位數(shù)填充：如將潛在客戶按照消費(fèi)水平分類，將消費(fèi)水平相同的客戶的消費(fèi)平均值或中位數(shù)填充到未知客戶的消費(fèi)水平缺失值。使用公式推斷最可能值填充缺失值：利用機(jī)器學(xué)習(xí)方法，如線性回歸方程來預(yù)測缺失的數(shù)據(jù)，但如果數(shù)據(jù)屬性并不是線性分布則有可能產(chǎn)生誤差。有時(shí)候，缺失值的產(chǎn)生并不代表數(shù)據(jù)發(fā)生了錯(cuò)誤，有可能是用戶填寫信息時(shí)的漏填，因此數(shù)據(jù)清理時(shí)要盡量識(shí)別這種空值，在處理時(shí)盡可能智能化，減少數(shù)據(jù)誤差。光滑噪聲數(shù)據(jù)處理Bin方法。Bin方法也就是分箱方法，可以觀察數(shù)據(jù)的相鄰值來對有序數(shù)據(jù)進(jìn)行光滑處理。將有序數(shù)據(jù)分布在箱子中進(jìn)行局部處理，然后利用這段有序數(shù)據(jù)的均值、最大值、最小值來進(jìn)行分配。如圖4.1為分箱法的例子。圖4.1用于數(shù)據(jù)光滑的分箱方法由圖4.1分箱方法可知，首先將商品價(jià)格按照大小進(jìn)行排序，將圖中第一列箱子劃分成大小為3的等頻箱（即每個(gè)箱子包含3個(gè)數(shù)值。）圖中第二列采用的是均值光滑，將等頻箱中數(shù)值相加取平均值來替換箱子中的值，如圖等頻箱箱1平均值為9，因此均值光滑箱1中每個(gè)數(shù)值都用9替換。圖中第三列采用的是邊界光滑方法，將箱子內(nèi)的最大值和最小值作為邊界，將箱子內(nèi)每個(gè)數(shù)替換成最靠近的邊界值，如等頻箱3中數(shù)值為20，24，25，在邊界光滑方法中就變成20，25，25了?；貧w?？梢岳脭?shù)學(xué)中的擬合函數(shù)進(jìn)行數(shù)據(jù)光滑，數(shù)學(xué)中稱作回歸。借助數(shù)學(xué)中的線性回歸方法，獲取數(shù)據(jù)之間的擬合關(guān)系，然后可以通過其中一個(gè)數(shù)據(jù)變量來預(yù)測另一個(gè)數(shù)據(jù)變量取值范圍，從而進(jìn)行數(shù)據(jù)的光滑。孤立點(diǎn)分析。由下圖4.2數(shù)據(jù)聚類圖可以看出，將一些相似或相鄰的數(shù)據(jù)進(jìn)行聚合，形成各種聚類集合。集合之外這些零散的數(shù)據(jù)對象，稱作孤立點(diǎn)。這些零散的數(shù)據(jù)對象往往會(huì)被認(rèn)作是異常數(shù)據(jù)或誤差數(shù)據(jù)，因此可以清理這些孤立點(diǎn)從而完成光滑數(shù)據(jù)。圖4.2數(shù)據(jù)聚類圖檢測偏差和糾正偏差檢查偏差和糾正偏差是十分繁瑣的過程。產(chǎn)生偏差的原因有很多，有人為的錯(cuò)誤輸入、有人為故意的錯(cuò)誤輸入、有系統(tǒng)故障產(chǎn)生的偏差和一些失效已久的數(shù)據(jù)。檢查偏差。檢查偏差是數(shù)據(jù)清理的第一步，通?？梢酝ㄟ^已知的數(shù)據(jù)性質(zhì)來尋找數(shù)據(jù)中的噪聲、孤立點(diǎn)和異常數(shù)據(jù)等需要清理的數(shù)據(jù)。對每個(gè)數(shù)據(jù)的定義域、數(shù)據(jù)類型、每個(gè)屬性的臨界值和值的范圍進(jìn)行考察；找出屬性之間的函數(shù)關(guān)系；找出數(shù)據(jù)的均值、中位數(shù)和眾數(shù)。目前企業(yè)中有很多商業(yè)工具用作數(shù)據(jù)偏差檢查。例如，數(shù)據(jù)清洗工具可以利用已知的領(lǐng)域知識(shí)來進(jìn)行數(shù)據(jù)偏差檢查和糾正；數(shù)據(jù)審計(jì)工具可以分析數(shù)據(jù)屬性，發(fā)現(xiàn)它們之間的函數(shù)關(guān)系，檢測出不符合規(guī)則的異常數(shù)據(jù)。糾正偏差。當(dāng)檢查出偏差時(shí)，需要通過一系列變換來修正偏差。例如，利用數(shù)據(jù)遷移工具實(shí)現(xiàn)字符串的替換。但這些工具只能進(jìn)行有限的變換，因此很多偏差糾正需要定制的程序解決。由上述分析可知，檢查偏差和糾正偏差是迭代執(zhí)行的，整個(gè)過程繁瑣費(fèi)時(shí)，而且容易出現(xiàn)錯(cuò)誤，如有些數(shù)據(jù)變換會(huì)導(dǎo)致更多的數(shù)據(jù)偏差，這些疊加偏差可能在其他偏差解決之后才能檢查出來。為了讓數(shù)據(jù)清洗更加有效率，需要加強(qiáng)數(shù)據(jù)清洗的交互性。數(shù)據(jù)集成分布式存儲(chǔ)存在的問題由于大數(shù)據(jù)的分布式存儲(chǔ)，數(shù)據(jù)庫分散在各個(gè)地方，數(shù)據(jù)庫之間彼此獨(dú)立，阻隔了數(shù)據(jù)的交流和共享，從而形成了數(shù)據(jù)孤島。數(shù)據(jù)孤島的存在會(huì)導(dǎo)致系統(tǒng)積累大量“垃圾”數(shù)據(jù)，使得數(shù)據(jù)的利用率降低。數(shù)據(jù)集成的概念數(shù)據(jù)集成是結(jié)合應(yīng)用、存儲(chǔ)和各組織數(shù)據(jù)的相關(guān)管理操作。數(shù)據(jù)集成就是將各種數(shù)據(jù)中的格式、特點(diǎn)、性質(zhì)不同的數(shù)據(jù)合并存儲(chǔ)在一個(gè)數(shù)據(jù)倉庫中。數(shù)據(jù)集成后的數(shù)據(jù)倉庫，可以為后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)挖掘提供數(shù)據(jù)支持，用戶可以自由訪問數(shù)據(jù)源，實(shí)現(xiàn)全面的數(shù)據(jù)共享。數(shù)據(jù)集成的數(shù)據(jù)源主要是非結(jié)構(gòu)化、半結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)。如何將數(shù)據(jù)格式轉(zhuǎn)換成一致的格式，是數(shù)據(jù)集成所要面對的首要難題。數(shù)據(jù)集成面對的問題數(shù)據(jù)集成需要考慮三個(gè)問題，分別是數(shù)據(jù)冗余問題、數(shù)據(jù)識(shí)別問題和數(shù)據(jù)沖突問題。數(shù)據(jù)冗余問題：數(shù)據(jù)倉庫中的數(shù)據(jù)屬性冗余問題，可以利用數(shù)據(jù)相關(guān)性公式4.1：；（4.1）根據(jù)數(shù)據(jù)相關(guān)性公式可知，當(dāng)?shù)闹荡笥?時(shí)，證明A、B兩個(gè)數(shù)據(jù)屬性相關(guān)；當(dāng)?shù)闹档扔?時(shí)，證明A、B兩個(gè)數(shù)據(jù)屬性不相關(guān)。因此可以利用公式來度量數(shù)據(jù)屬性是否存在冗余。數(shù)據(jù)識(shí)別問題：數(shù)據(jù)識(shí)別問題，也就是數(shù)據(jù)實(shí)體識(shí)別問題，是指不同數(shù)據(jù)庫的用戶為同一實(shí)體，導(dǎo)致多個(gè)數(shù)據(jù)源實(shí)體發(fā)生沖突。可以利用元數(shù)據(jù)實(shí)體來識(shí)別是否為同一實(shí)體，并將實(shí)體進(jìn)行同名化，刪除多余的部分。數(shù)據(jù)沖突問題：數(shù)據(jù)沖突包括檢測和處理，對于現(xiàn)實(shí)世界的實(shí)體，可能由于其表達(dá)方式不同，而導(dǎo)致其屬性不同。例如，在某所學(xué)校開展了大數(shù)據(jù)課程，其評分標(biāo)準(zhǔn)為等級(jí)制，即A~E；而另一所學(xué)校開展大數(shù)據(jù)課程，其評分標(biāo)準(zhǔn)為百分制，即0~100分。因此由于其評分標(biāo)準(zhǔn)不同，導(dǎo)致了數(shù)據(jù)屬性存在差異性。將數(shù)據(jù)屬性格式統(tǒng)一，能有效減少數(shù)據(jù)的冗余性和差異性，提高數(shù)據(jù)挖掘效率。數(shù)據(jù)集成存在著核心問題，分別是其異構(gòu)性、分布性和自治性。其中異構(gòu)性一直是數(shù)據(jù)集成所要面對的主要問題。數(shù)據(jù)規(guī)約數(shù)據(jù)規(guī)約就是利用替代方法，使用較小的數(shù)據(jù)來替換原來的數(shù)據(jù)，盡可能保證其完整性，在后續(xù)數(shù)據(jù)挖掘中獲得與規(guī)約前相差無幾的結(jié)果。數(shù)據(jù)規(guī)約包括：維簡約、數(shù)量約束和數(shù)據(jù)壓縮。維簡約維簡約實(shí)際上是降低數(shù)據(jù)屬性維數(shù)的過程，通過降低數(shù)據(jù)原來的維數(shù)，保證原數(shù)據(jù)庫的數(shù)據(jù)內(nèi)容完整性，既能最大限度節(jié)約數(shù)據(jù)庫的存儲(chǔ)空間，又能去除噪聲影響、提取出數(shù)據(jù)的特征進(jìn)行分析，還能將高維數(shù)據(jù)投影到低維可視空間以便觀察分布情況。數(shù)量約束簡單來說，數(shù)量約束就是用一些小數(shù)據(jù)來概括大數(shù)據(jù)，從而節(jié)約存儲(chǔ)空間。具體操作上，數(shù)量約束一般分為參數(shù)形式和非參數(shù)形式，如參數(shù)形式我們可以利用函數(shù)來進(jìn)行約束；非參數(shù)形式可以利用數(shù)據(jù)直方圖或者聚類圖來進(jìn)行約束。數(shù)據(jù)壓縮數(shù)據(jù)壓縮就是原數(shù)據(jù)通過一系列數(shù)據(jù)變換得到自身壓縮表示，如果壓縮后不丟失信息，則可稱為無損壓縮，否則稱為有損壓縮。對于一些稀疏的數(shù)據(jù)，我們通常會(huì)使用主成分分析壓縮方法來進(jìn)行數(shù)據(jù)壓縮，主成分分析壓縮簡單來說就是將一些具有相關(guān)性的數(shù)據(jù)進(jìn)行重新組合排列變成互不相關(guān)的數(shù)據(jù)。而對于一些高維度數(shù)據(jù)，我們通常會(huì)使用離散小波變換方法來處理，經(jīng)過小波變換處理的數(shù)據(jù)可以保留最接近原始數(shù)據(jù)的一部分，而且可以光滑噪聲數(shù)據(jù)，而且壓縮速度快。數(shù)據(jù)變換數(shù)據(jù)變換是將數(shù)據(jù)變換或統(tǒng)一成適合數(shù)據(jù)挖掘的形式。數(shù)據(jù)變換常用方法包括：光滑數(shù)據(jù)、屬性構(gòu)造、數(shù)據(jù)匯總、數(shù)據(jù)縮映、數(shù)據(jù)離散化和數(shù)據(jù)泛化等。光滑數(shù)據(jù)：就是消除數(shù)據(jù)噪聲影響，在上面數(shù)據(jù)清洗有詳細(xì)方法，主要包括分箱法、回歸和聚類方法。屬性構(gòu)造：根據(jù)數(shù)據(jù)已知的屬性去構(gòu)造新的屬性，有助于加快數(shù)據(jù)挖掘過程。數(shù)據(jù)匯總：將數(shù)據(jù)細(xì)節(jié)匯總在一起，形成一個(gè)抽象的直方圖，便于觀察數(shù)據(jù)傾向。如網(wǎng)站瀏覽人數(shù)年度匯總。數(shù)據(jù)縮映：將數(shù)據(jù)的屬性按比例縮放，讓它落入在一個(gè)特定區(qū)間內(nèi)，如：0.0~1.0區(qū)間。數(shù)據(jù)離散化：數(shù)據(jù)屬性的數(shù)據(jù)原始值用區(qū)間標(biāo)簽或概念標(biāo)簽替換。數(shù)據(jù)泛化：泛化就是將低層概念轉(zhuǎn)換成高層概念方便進(jìn)行數(shù)據(jù)分析，如可以將鄉(xiāng)鎮(zhèn)泛化成市級(jí)省級(jí)。

結(jié)論本次畢業(yè)設(shè)計(jì)的題目是數(shù)據(jù)科學(xué)—數(shù)據(jù)采集與加工技術(shù)研究，本課題主要涉及理論知識(shí)的研究，由于缺乏這方面的知識(shí)，因此需要翻閱大量資料，以及在指導(dǎo)老師的幫助下才能完成本次畢業(yè)設(shè)計(jì)論文。本文結(jié)合了自己的看法與理解，著重于研究大數(shù)據(jù)的采集技術(shù)，深刻了解大數(shù)據(jù)采集的重要性，有意在未來的日子研究這方面的知識(shí)。在本篇論文中，我們可以了解關(guān)于大數(shù)據(jù)采集和加工技術(shù)的相關(guān)問題。大數(shù)據(jù)的來源有很多，如互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、系統(tǒng)日志以及定位信息等；而相對應(yīng)的采集方法也很多，有傳感器采集、Web爬蟲抓取、系統(tǒng)日志數(shù)據(jù)采集和ETL工具采集等；對于采集回來的大數(shù)據(jù)，我們通常會(huì)先進(jìn)行加工處理再進(jìn)行數(shù)據(jù)挖掘，而加工方法包括：數(shù)據(jù)清洗、數(shù)據(jù)集成、規(guī)約和數(shù)據(jù)變換等，對數(shù)據(jù)進(jìn)行一系列的加工處理，提高后續(xù)數(shù)據(jù)挖掘的效率。大數(shù)據(jù)采集與加工技術(shù)在中國市場經(jīng)濟(jì)的應(yīng)用十分廣泛，尤其是電商平臺(tái)和論壇等，如字節(jié)跳動(dòng)旗下的“今日頭條”和“西瓜視頻”等app，可以采集用戶的瀏覽歷史，分析用戶的興趣愛好進(jìn)行內(nèi)容推送；還有京東、淘寶等電商平臺(tái)，會(huì)采集用戶的瀏覽歷史、消費(fèi)記錄，給用戶推送相關(guān)產(chǎn)品，還會(huì)采集商家的產(chǎn)品數(shù)據(jù)以及用戶的評價(jià)，篩選出價(jià)格最優(yōu)、聲譽(yù)最好的商家。一些以傳統(tǒng)經(jīng)營模式的企業(yè)要跟上時(shí)代的腳步，利用大數(shù)據(jù)技術(shù)進(jìn)行轉(zhuǎn)型，才能在大數(shù)據(jù)時(shí)代中獨(dú)放異彩。大數(shù)據(jù)在本次新冠肺炎的防疫抗疫上也提供了巨大的數(shù)據(jù)支持，我們可

人人文庫> 全部分類> 教育資料 > 作文作品

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)采集與加工技術(shù)研究

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔