互聯(lián)網(wǎng)大數(shù)據(jù)采集與處理的重點(diǎn)技術(shù)_第1頁(yè)
互聯(lián)網(wǎng)大數(shù)據(jù)采集與處理的重點(diǎn)技術(shù)_第2頁(yè)
互聯(lián)網(wǎng)大數(shù)據(jù)采集與處理的重點(diǎn)技術(shù)_第3頁(yè)
互聯(lián)網(wǎng)大數(shù)據(jù)采集與處理的重點(diǎn)技術(shù)_第4頁(yè)
互聯(lián)網(wǎng)大數(shù)據(jù)采集與處理的重點(diǎn)技術(shù)_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

互聯(lián)網(wǎng)大數(shù)據(jù)采集與處理的重點(diǎn)技術(shù)摘要:由于我國(guó)整體經(jīng)濟(jì)水平不斷提升,國(guó)家的科學(xué)技術(shù)水平也在不斷發(fā)展,計(jì)算機(jī)技術(shù)是時(shí)代發(fā)展的產(chǎn)物,隨著計(jì)算機(jī)技術(shù)越來(lái)越成熟,得到了應(yīng)用也越來(lái)越廣泛,特別是互聯(lián)網(wǎng)數(shù)據(jù)采集與處理技術(shù),在各個(gè)控制系統(tǒng)中發(fā)揮著重要的作用,本研究針對(duì)互聯(lián)網(wǎng)數(shù)據(jù)采集與處理技術(shù)展開(kāi)了一系列的探究,首先就數(shù)據(jù)采集的意義進(jìn)行了分析,然后分析了數(shù)據(jù)采集系統(tǒng)的組成與特點(diǎn),最后分析了智能化系統(tǒng)的構(gòu)建,對(duì)于推進(jìn)數(shù)據(jù)處理技術(shù)的進(jìn)一步發(fā)展有一定的借鑒意義。關(guān)鍵詞:互聯(lián)網(wǎng);數(shù)據(jù)采集;處理技術(shù);社會(huì)生產(chǎn);進(jìn)步1.前言隨著互聯(lián)網(wǎng)技術(shù)的出現(xiàn),半導(dǎo)體技術(shù)的發(fā)展也越來(lái)越快,與此同時(shí),集成電路等在各個(gè)系統(tǒng)中的應(yīng)用也比較廣泛,在這樣的形勢(shì)下,以計(jì)算機(jī)技術(shù)為前提的數(shù)據(jù)采集以及處理技術(shù)得到了廣泛的應(yīng)用,同時(shí)促進(jìn)了各行各業(yè)前所未有的發(fā)展。當(dāng)今社會(huì)是信息時(shí)代也是計(jì)算機(jī)時(shí)代,互聯(lián)網(wǎng)的種類(lèi)變得越來(lái)也多,這一系列的變化都見(jiàn)證了計(jì)算機(jī)的發(fā)展,所以互聯(lián)網(wǎng)技術(shù)的運(yùn)用是真正推進(jìn)現(xiàn)代社會(huì)人們生活效率提升的體現(xiàn),特別是計(jì)算機(jī)在數(shù)據(jù)采集以及處理技術(shù)中的應(yīng)用,更是極大的推進(jìn)了工業(yè)操作效率的提升。2互聯(lián)網(wǎng)大數(shù)據(jù)的采集方法傳感器傳感器方法主要是通過(guò)測(cè)試一些物品的物理特性,通常情況下包括物體的音量,濕溫度,電壓等等物理符號(hào)信息,采集完畢后將這些數(shù)學(xué)值轉(zhuǎn)變?yōu)橐恍╇娔X能夠準(zhǔn)確識(shí)別的信號(hào),然后上傳到數(shù)字終端進(jìn)行歸納,完成數(shù)據(jù)的工作。系統(tǒng)日志采集方法一般來(lái)說(shuō),數(shù)據(jù)源系統(tǒng)能夠產(chǎn)生系統(tǒng)的日志文件數(shù)據(jù),用來(lái)對(duì)數(shù)據(jù)源發(fā)生的各項(xiàng)操作過(guò)程進(jìn)行實(shí)時(shí)記錄,比如一些web服務(wù)器記錄的用戶訪問(wèn)行為和網(wǎng)絡(luò)流量的實(shí)時(shí)監(jiān)管和金融軟件的股票記賬等。許多的互聯(lián)網(wǎng)企業(yè)都有自己的海量數(shù)據(jù)采集工具,多用于系統(tǒng)日志采集,如Hadoop的Chukwa,Cloudera的Flume,F(xiàn)acebook的Scribe等,這些工具均采用分布式架構(gòu),能滿足每秒數(shù)百M(fèi)B的日志數(shù)據(jù)采集和傳輸需求。2.3Web爬蟲(chóng)網(wǎng)絡(luò)爬蟲(chóng)是指為搜索引擎下載并存儲(chǔ)網(wǎng)頁(yè)的程序,它是搜索引擎和web緩存的主要的數(shù)據(jù)采集方式。通過(guò)網(wǎng)絡(luò)爬蟲(chóng)或網(wǎng)站公開(kāi)API等方式從網(wǎng)站上獲取數(shù)據(jù)信息。該方法可以將非結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁(yè)中抽取出來(lái),將其存儲(chǔ)為統(tǒng)一的本地?cái)?shù)據(jù)文件,并以結(jié)構(gòu)化的方式存儲(chǔ)。它支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以自動(dòng)關(guān)聯(lián)。數(shù)據(jù)類(lèi)型十分的復(fù)雜,同時(shí)產(chǎn)生數(shù)據(jù)的方法和路徑也在不斷增多,數(shù)據(jù)的表現(xiàn)形式自然更為多變,由原先簡(jiǎn)單的文字、圖片和視頻轉(zhuǎn)變?yōu)橐恍└鼮閺?fù)雜的保留信息和具有時(shí)空信息價(jià)值的抽象信息。3互聯(lián)網(wǎng)大數(shù)據(jù)的處理技術(shù)如果要把數(shù)據(jù)處理應(yīng)用到一些處理其他領(lǐng)域的輔助資源,就需要極高的數(shù)據(jù)處理和價(jià)值提取價(jià)值,相對(duì)于當(dāng)下的數(shù)據(jù)處理技術(shù)來(lái)說(shuō)是一個(gè)巨大的挑戰(zhàn)?,F(xiàn)在比較流行的數(shù)據(jù)處理方法主要是批處理和流處理模式,這兩種處理模式相對(duì)應(yīng)的是靜態(tài)數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù)這兩種不同的數(shù)據(jù)形式。3.1批處理對(duì)待靜態(tài)數(shù)據(jù)主要是先對(duì)原始用戶的數(shù)據(jù)進(jìn)行分塊釋義,然后通過(guò)不同的任務(wù)處理區(qū)來(lái)進(jìn)行工作,得出最終結(jié)論。這一技術(shù)在文本處理等領(lǐng)域運(yùn)用的尤為廣泛。這種批處理的技術(shù)對(duì)于那些先進(jìn)行存儲(chǔ),然后進(jìn)行計(jì)算的大數(shù)據(jù)來(lái)說(shuō)十分適合。另一方面,交互式的數(shù)據(jù)分析系統(tǒng)則是去處理一些實(shí)時(shí)數(shù)據(jù)的另一個(gè)有效方法。流處理對(duì)那些實(shí)時(shí)數(shù)據(jù)進(jìn)行處理,交互式的數(shù)據(jù)處理方法相對(duì)與流式而言更加靈活多變,易于控制,處理的結(jié)果也更加方便進(jìn)行讀取,常見(jiàn)的應(yīng)用實(shí)例是一*些服務(wù)器的實(shí)時(shí)日志信息采集,網(wǎng)絡(luò)上PB級(jí)數(shù)據(jù)的處理時(shí)間縮短到秒級(jí),所以要求對(duì)這些實(shí)時(shí)數(shù)據(jù)的處理能夠更加迅速和準(zhǔn)確,這些是流數(shù)據(jù)處理的核心處理方法和目標(biāo)。由于當(dāng)下電子設(shè)備的技術(shù)革新和普遍應(yīng)用,更多的圖像和音視頻信息出現(xiàn)在信息源當(dāng)中,由于其自身就能夠表現(xiàn)出數(shù)據(jù)特點(diǎn)和事物聯(lián)系。圖數(shù)據(jù)耦合的特性對(duì)圖的規(guī)模日益增大達(dá)到上百萬(wàn)甚至上億節(jié)點(diǎn)的大圖數(shù)據(jù)計(jì)算提出了巨大的挑戰(zhàn),于此同時(shí),一些圖片數(shù)據(jù)源的關(guān)鍵字查詢技術(shù)和圖片的存儲(chǔ)挖掘技術(shù)之間都有著共通之處,圖數(shù)據(jù)的處理系統(tǒng)要對(duì)不同的圖數(shù)據(jù)進(jìn)行正確的分割和計(jì)算,運(yùn)用寫(xiě)好的互聯(lián)網(wǎng)模型來(lái)批量處理現(xiàn)在的大數(shù)據(jù),這種技術(shù)已經(jīng)在網(wǎng)絡(luò)安全和公共安全領(lǐng)域已經(jīng)運(yùn)用的十分廣泛了,比如通過(guò)大數(shù)據(jù)處理對(duì)一些用戶感興趣的內(nèi)容進(jìn)行微博的推薦閱讀、微信的公眾號(hào)推薦和如今一些視頻流量軟件和平臺(tái)的用戶視頻選取推送等技術(shù)都是此類(lèi)技術(shù),在社會(huì)安全和公共安全方面,對(duì)一些可能存在的用戶異常操作進(jìn)行錯(cuò)誤報(bào)告,醫(yī)院內(nèi)對(duì)病人的身體情況進(jìn)行語(yǔ)義進(jìn)行分析和協(xié)助,一些物聯(lián)網(wǎng)系統(tǒng)則是通過(guò)用戶的使用習(xí)慣對(duì)連接的物理裝置進(jìn)行實(shí)時(shí)操控,還有一些交通管理,環(huán)境管理和生物傳感,物流快遞和物流車(chē)輛形式的路線規(guī)劃等領(lǐng)域有著廣泛的應(yīng)用。4大數(shù)據(jù)發(fā)展展望各種處理大數(shù)據(jù)的方法和技術(shù)在進(jìn)行不斷地革新,國(guó)內(nèi)外的各類(lèi)互聯(lián)網(wǎng)企業(yè)也在對(duì)大數(shù)據(jù)處理的專(zhuān)業(yè)化架構(gòu)技術(shù)進(jìn)行研發(fā)。對(duì)開(kāi)源系統(tǒng)進(jìn)行優(yōu)化,增大開(kāi)發(fā)的規(guī)模,降低開(kāi)發(fā)成本,強(qiáng)化開(kāi)發(fā)的專(zhuān)業(yè)化程度,數(shù)據(jù)處理的模式多樣化程度增加,有利于大數(shù)據(jù)在物聯(lián)網(wǎng)環(huán)境下的良性發(fā)展。大數(shù)據(jù)的處理可以通過(guò)機(jī)器深度學(xué)習(xí)挖掘的進(jìn)行實(shí)現(xiàn),所以機(jī)器的深度學(xué)習(xí)是現(xiàn)在大數(shù)據(jù)信息分析的基礎(chǔ),將一些碎片化的信息結(jié)構(gòu)整合成一個(gè)完整的數(shù)據(jù)源,來(lái)反應(yīng)信息表達(dá)事物的全貌,增加大數(shù)據(jù)挖掘的深度。可視化技術(shù)不僅僅是數(shù)據(jù)分析的關(guān)鍵技術(shù)也是展現(xiàn)通過(guò)數(shù)據(jù)挖掘產(chǎn)生的數(shù)據(jù)結(jié)果的重要手段,通過(guò)強(qiáng)可視化輔助決策可以對(duì)大數(shù)據(jù)分析的準(zhǔn)確性、有效性和對(duì)于人們能否及時(shí)獲得決策信息非常重要??梢灶A(yù)見(jiàn),將來(lái)大數(shù)據(jù)平臺(tái)會(huì)以一種前所未有的方式改變著各行各業(yè)。5結(jié)束語(yǔ)綜上所述,互聯(lián)網(wǎng)的大數(shù)據(jù)采集與處理和信息計(jì)算方式息息相關(guān),如何提高信息計(jì)算方法和機(jī)器建模的數(shù)據(jù)挖掘手段,對(duì)于提高數(shù)據(jù)采集的質(zhì)量和速度都有著重要的意義,面對(duì)越來(lái)越復(fù)雜的數(shù)據(jù),僅僅依靠一種數(shù)據(jù)處理方式也是遠(yuǎn)遠(yuǎn)不夠,只有針對(duì)不同的數(shù)據(jù)類(lèi)型,數(shù)據(jù)產(chǎn)生途徑和數(shù)據(jù)特點(diǎn)進(jìn)行分類(lèi)處理,合理地綜合運(yùn)用各種不同地信息處理方式,才能夠有效地處理數(shù)據(jù)。在實(shí)際地應(yīng)用意義方面,大數(shù)據(jù)的采集和處理技術(shù)也有著廣闊的應(yīng)用價(jià)值,國(guó)內(nèi)外對(duì)于該領(lǐng)域的研究尚且不完善,在該領(lǐng)域占得先機(jī),對(duì)于我國(guó)的數(shù)據(jù)應(yīng)用和處理有著重要的意義,產(chǎn)生對(duì)社會(huì)各層有益的影響。參考文獻(xiàn)王映麗,大數(shù)據(jù)時(shí)代的計(jì)算機(jī)信息處理技術(shù)分析[J].電腦知識(shí)與技術(shù),2018,v.14(10):52-53.何文韜,邵誠(chéng).工業(yè)大數(shù)據(jù)分析技術(shù)的發(fā)展及其面臨

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論