



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、工業(yè)大數(shù)據(jù)的預處理方案數(shù)據(jù)分析,包括大數(shù)據(jù)分析,在企業(yè)的業(yè)務(wù)中,特別是在傳統(tǒng)的商務(wù)行業(yè),已有多年的應(yīng)用實踐,在消費者市場的營銷中已成了必不可缺的技術(shù)。隨著工業(yè)互聯(lián)網(wǎng)和智能制造的興起和開展,工業(yè)大數(shù)據(jù)技術(shù)也越來越受到各方關(guān)注。在“中國制造2025的技術(shù)路線圖中,工業(yè)大數(shù)據(jù)是作為重要突破點來規(guī)劃的,而在未來的十年,以數(shù)據(jù)為核心構(gòu)建的智能化體系會成為支撐智能制造和工業(yè)互聯(lián)網(wǎng)的核心動力。對制造企業(yè)而言,不管是新實施的系統(tǒng)還是老舊系統(tǒng),要實施大數(shù)據(jù)分析平臺, 就需要先弄明白自己到底需要采集哪些數(shù)據(jù)。因為考慮到數(shù)據(jù)的采集難度和本錢,大數(shù)據(jù)分析平臺并不是對企業(yè)所有的數(shù)據(jù)都進行采集,而是相關(guān)的、有直接或者間接
2、聯(lián)系的數(shù)據(jù),企業(yè)要知道哪些數(shù)據(jù)是對于戰(zhàn)略性的決策或者一些細節(jié)決策有幫助的,分析出來的數(shù)據(jù)結(jié)果是有價值的。比方企業(yè)只是想了解產(chǎn)線設(shè)備的運行狀態(tài),這時候就只需要對影響產(chǎn)線設(shè)備性能的關(guān)鍵參數(shù)進行采集。再比方,在產(chǎn)品售后效勞環(huán)節(jié),企業(yè)需要了解產(chǎn)品使用狀態(tài)、購置群體等信息,這些數(shù)據(jù)對支撐新產(chǎn)品的研發(fā)和市場的預測都有著非常重要的價值。因此,建議企業(yè)在進行大數(shù)據(jù)分析規(guī)劃的時候針對一個工程的目標進行精確的分析,比較容易滿足業(yè)務(wù)的目標。 明確目標以后,就要著手開始搜集數(shù)據(jù)并進行預處理了。 本期格物 匯將跟大家介紹,企業(yè)如何實現(xiàn)對工業(yè)大數(shù)據(jù)的預處理。數(shù)據(jù)采集首先我們看看數(shù)據(jù)是如何獲取的,在現(xiàn)實 也中,我們所面對的
3、問題, 往往都是抽象復雜的。我們來看如下兩個例子:如何提升產(chǎn)品的良率?可能這是制造業(yè)最為普遍的一個問題,如果我們要分析解決這個問題,常常就會問到:什么產(chǎn)品?有多少條產(chǎn)線在生成 ?經(jīng)過了哪些機臺?影響產(chǎn)品良率的因素有哪些彼們可能會提出很多很多這樣的問題,解決這些問題需要對相關(guān)業(yè)務(wù)知識非常了解, 問題有關(guān)的數(shù)據(jù)。如何進行人臉識別?這問題更加復雜一些, 雖然我們每個人的大腦每天都在做人臉識別, 的卻異常難懂。我們可能需要做很多科研工作,去挖掘到底哪些數(shù)據(jù)會影響到人臉識別的正確率。如果這些數(shù)據(jù)本身沒有,很可能還需要進行測量采集,比方兩眼之間的距離,嘴的寬度和長度等等。當然,我們還會評估采集的本錢,并對
4、這些數(shù)據(jù)有效性進行評估,驗證我們 的本錢是否值得去花費精力測量。數(shù)據(jù)預處理簡介班級1班級3盡可能多的找出與但是大腦如何工作數(shù)據(jù)采集以后,數(shù)據(jù)往往存放在數(shù)據(jù)庫或文件系統(tǒng)中,我們需要把他們導入到算法模型中進行訓練,得到我們想要的模型。但是我們的數(shù)據(jù)往往雜亂無章,總的來說,數(shù)據(jù)一般存在如下幾類問題:數(shù)據(jù)類型多種多樣我們的數(shù)據(jù)中常常出現(xiàn)字符型,時間型,數(shù)字型等多種數(shù)據(jù)類型。其中:字符型是無法代入模型計算的,所以我們根據(jù)需要,可以對字符型數(shù)據(jù)進行編碼轉(zhuǎn)換。 常用的編碼方法有:數(shù)字編碼:對于有大小比擬的字符型數(shù)據(jù),可以直接轉(zhuǎn)換成數(shù)字編碼。Onehot編碼:對于沒有大小比擬的字符型數(shù)據(jù),可以使用Onehot
5、獨熱編碼。比方:時間類型往往是一類特殊的數(shù)據(jù),把時間簡單看成一個實數(shù)的話,往往不符合邏輯。 對于帶時間的數(shù)據(jù),我們通常使用時間序列的分析方法進行分析。有時候我們更加關(guān)注的是兩列時間的差值,這時我們可以構(gòu)建時間差值列作為新的變量參加模型之中。數(shù)字型往往是導入模型進行訓練的主要局部,數(shù)字型又可以細分為離散型和連續(xù)型,因為離散與連續(xù)的數(shù)據(jù)分布顯著不同,我們可以對其進行分開處理。數(shù)字型之間各個列常存在量綱差異,有的數(shù)據(jù)可能很大, 有的數(shù)據(jù)可能很小,我們需要去除數(shù)據(jù)量綱,防止模型對數(shù) 據(jù)較大的列進行偏倚數(shù)據(jù)值較大時通常方差也較大。常用的數(shù)據(jù)去量綱的方法有最大最小 值歸一化法,均值標準差標準化法等等。數(shù)據(jù)格式不對我們期望數(shù)據(jù)格式是表結(jié)構(gòu),矩陣格式,或者是張量格式。然而我們拿到的數(shù)據(jù)往往不是格式化的數(shù)據(jù),比方機臺的日志數(shù)據(jù),圖像數(shù)據(jù),音頻視頻數(shù)據(jù)。我們需要對上述數(shù)據(jù)轉(zhuǎn)換,把數(shù)據(jù)格式轉(zhuǎn)換成我們想要的格式。數(shù)據(jù)中存在異常數(shù)據(jù)中還會出現(xiàn)缺失值,異常值等異常,這些情況也會強烈影響到模型的訓練, 我們需 要對空值進行補值。如何補值需要我們對數(shù)據(jù)非常了解, 才能推斷出該用什么值來補值, 才 不會改變原有的數(shù)據(jù)分布。一般的補值方法有:0值補值,均值補值,中位數(shù)補值,按上一個數(shù)補值,移動平均補值,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論