版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第6章工業(yè)大數(shù)據(jù)丁紅兵導(dǎo)讀工業(yè)大數(shù)據(jù)是工業(yè)互聯(lián)網(wǎng)的核心內(nèi)容,包括工業(yè)產(chǎn)業(yè)中圍繞典型智能制造模式的整個(gè)產(chǎn)品生命周期各個(gè)環(huán)節(jié)所產(chǎn)生的各類數(shù)據(jù)以及相關(guān)技術(shù)和應(yīng)用。工業(yè)大數(shù)據(jù)的來(lái)源主要來(lái)自于工業(yè)生產(chǎn)和監(jiān)控管理過(guò)程中無(wú)時(shí)無(wú)刻不在產(chǎn)生海量的數(shù)據(jù)。從人的行動(dòng)、交往到產(chǎn)品的設(shè)計(jì)、制造、銷售、使用與回收,這些活動(dòng)其實(shí)一直在進(jìn)行,只是以前缺乏感知技術(shù)去記錄,缺乏存儲(chǔ)手段去保存。當(dāng)然,更主要的原因是以前缺乏計(jì)算能力和計(jì)算方法去分析這些數(shù)據(jù),從中獲取有用的價(jià)值。隨著人類在感知技術(shù)、傳輸技術(shù)、平臺(tái)技術(shù)和數(shù)據(jù)分析技術(shù)上的突破,使得數(shù)據(jù)的價(jià)值越來(lái)越大,人們開(kāi)始有意識(shí)地收集各類工業(yè)數(shù)據(jù)。本章首先介紹工業(yè)數(shù)據(jù)特征、分級(jí)處理和存儲(chǔ)優(yōu)化。其次,深入討論工業(yè)數(shù)據(jù)的清洗、特征提取、聚類和異常值識(shí)別等處理技術(shù),以確保數(shù)據(jù)的準(zhǔn)確性和可靠性。接下來(lái),探討數(shù)據(jù)模型與呈現(xiàn)方式,以便更好地理解和分析工業(yè)數(shù)據(jù)。最后,講解海量數(shù)據(jù)存儲(chǔ)、并行處理與管理技術(shù),以滿足工業(yè)領(lǐng)域?qū)Υ髷?shù)據(jù)處理的需求。本章知識(shí)點(diǎn)?工業(yè)數(shù)據(jù)的特征?工業(yè)數(shù)據(jù)的整理?工業(yè)數(shù)據(jù)的清洗、特征提取、聚類、異常值識(shí)別等處理技術(shù)?數(shù)據(jù)模型與呈現(xiàn)方式?海量數(shù)據(jù)存儲(chǔ)、并行處理與管理技術(shù)1工業(yè)數(shù)據(jù)的特征1.1工業(yè)數(shù)據(jù)的類型工業(yè)數(shù)據(jù)可以分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)三種類型,如表6-1所示。這三種數(shù)據(jù)類型在工業(yè)領(lǐng)域都具有重要的作用,但它們具有不同的特征和處理方式。1工業(yè)數(shù)據(jù)的特征1.2工業(yè)大數(shù)據(jù)的特征工業(yè)大數(shù)據(jù)通??梢杂冒⒛匪固氐ご髮W(xué)的YuriDemchenko等人提出了大數(shù)據(jù)體系架構(gòu)框架5V(Volume、Variety、Velocity、Value、Veracity)特征來(lái)描述,如圖6-1所示。1工業(yè)數(shù)據(jù)的特征圖6-1大數(shù)據(jù)體系架構(gòu)框架的“5V”特征1工業(yè)數(shù)據(jù)的特征1.3數(shù)據(jù)標(biāo)簽數(shù)據(jù)標(biāo)簽是對(duì)數(shù)據(jù)進(jìn)行描述、分類或注釋的標(biāo)識(shí)符或標(biāo)記,用于幫助理解、組織和管理數(shù)據(jù)。數(shù)據(jù)標(biāo)簽通常包括與數(shù)據(jù)相關(guān)的信息,如數(shù)據(jù)類型、屬性、來(lái)源、時(shí)間戳等,以及可能的關(guān)鍵字、標(biāo)簽或分類,以便于后續(xù)的搜索、檢索和分析。隨著數(shù)字營(yíng)銷成為今后所有行業(yè)的主要的發(fā)力方向,大數(shù)據(jù)標(biāo)簽已經(jīng)是勢(shì)在必行的趨勢(shì)。數(shù)據(jù)標(biāo)簽體系結(jié)構(gòu)包括以下幾個(gè)方面:1工業(yè)數(shù)據(jù)的特征數(shù)據(jù)標(biāo)簽類型1)基礎(chǔ)信息標(biāo)簽:如企業(yè)信息、產(chǎn)品信息、人員信息等,用于最基礎(chǔ)的數(shù)據(jù)分類和標(biāo)識(shí)12)業(yè)務(wù)特征標(biāo)簽:涵蓋業(yè)務(wù)處理、流程、狀態(tài)等特征,用于業(yè)務(wù)數(shù)據(jù)的分類和標(biāo)識(shí)。23)用戶行為標(biāo)簽:包括用戶瀏覽、購(gòu)買(mǎi)、搜索等行為的數(shù)據(jù)標(biāo)簽,用于分類和標(biāo)識(shí)用戶行為數(shù)據(jù)。34)數(shù)據(jù)算法標(biāo)簽:通過(guò)算法模型計(jì)算得出的數(shù)據(jù)標(biāo)簽,用于更深層次的數(shù)據(jù)分類和標(biāo)識(shí)。41工業(yè)數(shù)據(jù)的特征數(shù)據(jù)標(biāo)簽結(jié)構(gòu)AB1)標(biāo)簽名稱:簡(jiǎn)潔易懂的中文或英文單詞或短語(yǔ),表示數(shù)據(jù)標(biāo)簽的名稱。C2)標(biāo)簽類型:表示數(shù)據(jù)標(biāo)簽的類型,通常分為基礎(chǔ)信息、業(yè)務(wù)特征、用戶行為和數(shù)據(jù)算法等類型。D3)標(biāo)簽定義:描述數(shù)據(jù)標(biāo)簽的定義和含義,包括標(biāo)簽的屬性、特征、業(yè)務(wù)含義等。4)標(biāo)簽值:以文本或數(shù)字形式表示的數(shù)據(jù)標(biāo)簽的值。1工業(yè)數(shù)據(jù)的特征數(shù)據(jù)標(biāo)簽管理數(shù)據(jù)標(biāo)簽管理涵蓋標(biāo)簽的創(chuàng)建、修改、刪除、審核等操作,明確管理職責(zé)、流程和規(guī)范可確保標(biāo)簽的質(zhì)量和安全,避免錯(cuò)誤和異常。同時(shí),建立完整的數(shù)據(jù)標(biāo)簽管理系統(tǒng)可實(shí)現(xiàn)對(duì)標(biāo)簽的自動(dòng)化管理和維護(hù)。1工業(yè)數(shù)據(jù)的特征數(shù)據(jù)標(biāo)簽應(yīng)用數(shù)據(jù)標(biāo)簽應(yīng)用是指將標(biāo)簽應(yīng)用到實(shí)際業(yè)務(wù)場(chǎng)景中,通過(guò)查詢、篩選、分析、可視化等方式,實(shí)現(xiàn)對(duì)數(shù)據(jù)的快速、準(zhǔn)確處理和利用。例如,利用用戶行為標(biāo)簽進(jìn)行用戶分群,實(shí)現(xiàn)精準(zhǔn)營(yíng)銷;利用業(yè)務(wù)特征標(biāo)簽優(yōu)化業(yè)務(wù)流程,提高工作效率。數(shù)據(jù)中臺(tái)中的標(biāo)簽數(shù)據(jù)層TDM(TagDataModel)是打造統(tǒng)一數(shù)據(jù)視圖、提升數(shù)據(jù)價(jià)值的關(guān)鍵支撐,是數(shù)據(jù)治理和數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)轉(zhuǎn)型的重要基礎(chǔ)能力。TDM面向?qū)ο蠼#瑢?duì)跨業(yè)務(wù)板塊、跨數(shù)據(jù)域的特定對(duì)象數(shù)據(jù)進(jìn)行整合,通過(guò)ID-Mapping把各個(gè)業(yè)務(wù)板塊、各個(gè)業(yè)務(wù)過(guò)程中的同一對(duì)象的數(shù)據(jù)打通,形成對(duì)象的全域標(biāo)簽體系。這樣處理一方面讓數(shù)據(jù)變得可閱讀、易理解,方便業(yè)務(wù)使用;另一方面通過(guò)標(biāo)簽類目體系將標(biāo)簽組織排布,以一種適用性更好的組織方式來(lái)匹配未來(lái)變化的業(yè)務(wù)場(chǎng)景需求。2工業(yè)數(shù)據(jù)的整理2.1數(shù)據(jù)的分級(jí)處理數(shù)據(jù)分級(jí)處理中間件能夠分析和確定數(shù)據(jù)的重要性,并根據(jù)不同的重要程度進(jìn)行數(shù)據(jù)的分配和處理,以實(shí)現(xiàn)更輕量級(jí)的負(fù)載平衡,并設(shè)定不同的使用率目標(biāo)??梢詮V泛應(yīng)用于數(shù)據(jù)的感知、傳輸和應(yīng)用等過(guò)程中。在局部區(qū)域協(xié)同感知時(shí),多個(gè)同質(zhì)或異構(gòu)傳感器執(zhí)行相同的檢測(cè)任務(wù),以獲取豐富的傳感數(shù)據(jù)。通過(guò)局部信息處理和融合,可獲得高精度可靠的傳感信息。例如,在智能園區(qū)中的無(wú)人車可能使用基于GPS信號(hào)、WIFI定位、UWB定位、RFID定位或者基于視覺(jué)信號(hào)定位的多種位置傳感器進(jìn)行多重定位和相互校驗(yàn),僅將位置信息上傳,而將原始信息保留在本地。2工業(yè)數(shù)據(jù)的整理2.2數(shù)據(jù)的存儲(chǔ)優(yōu)化傳感器檢測(cè)獲得的數(shù)據(jù)必須存儲(chǔ)在持久化的存儲(chǔ)設(shè)備上,以便在需要時(shí)能夠快速訪問(wèn)和檢索。隨著數(shù)據(jù)規(guī)模不斷擴(kuò)大,數(shù)據(jù)存儲(chǔ)的性能優(yōu)化成為了一個(gè)至關(guān)重要的技術(shù)挑戰(zhàn),通常需要考慮以下幾個(gè)方面:1)存儲(chǔ)容量:存儲(chǔ)設(shè)備的容量越大,可存儲(chǔ)的數(shù)據(jù)越多。2)讀寫(xiě)速度:讀寫(xiě)存儲(chǔ)設(shè)備的讀寫(xiě)速度越快,數(shù)據(jù)訪問(wèn)時(shí)間越短。3)可靠性:存儲(chǔ)設(shè)備的故障率越低,數(shù)據(jù)丟失的風(fēng)險(xiǎn)越小。4)設(shè)備成本:存儲(chǔ)設(shè)備的價(jià)格越低,成本越低。綜上,盡管可以利用強(qiáng)大的云存儲(chǔ)服務(wù)來(lái)存儲(chǔ)數(shù)據(jù),但綜合考慮性能和成本的因素,仍然需要優(yōu)化策略來(lái)對(duì)數(shù)據(jù)存儲(chǔ)進(jìn)行適當(dāng)優(yōu)化,最常見(jiàn)的方法包括數(shù)據(jù)保留策略、緩存策略、數(shù)據(jù)壓縮等。2工業(yè)數(shù)據(jù)的整理2.3工業(yè)數(shù)據(jù)的存儲(chǔ)工業(yè)數(shù)據(jù)的種類繁多,數(shù)量巨大,因此需要將其整理并存儲(chǔ)到數(shù)據(jù)庫(kù)中,以方便組織、管理和存取。數(shù)據(jù)庫(kù)技術(shù)起源于20世紀(jì)60年代末至70年代初,其核心目標(biāo)是有效地管理、存儲(chǔ)和利用大數(shù)據(jù)。目前常用的數(shù)據(jù)庫(kù)有兩類:關(guān)系數(shù)據(jù)庫(kù)(SQL)和NoSQL數(shù)據(jù)庫(kù)。2工業(yè)數(shù)據(jù)的整理SQL數(shù)據(jù)庫(kù)關(guān)系數(shù)據(jù)庫(kù)建立在關(guān)系數(shù)據(jù)庫(kù)模型的基礎(chǔ)上,利用集合代數(shù)等概念和方法來(lái)處理數(shù)據(jù)。它是一組被組織成具有正式描述的表格的數(shù)據(jù)庫(kù),這些表格實(shí)際上是特殊的數(shù)據(jù)項(xiàng)集合。每個(gè)表格(有時(shí)稱為關(guān)系)包含一個(gè)或多個(gè)數(shù)據(jù)類型的列。每行都包含一個(gè)唯一的數(shù)據(jù)實(shí)體,這些數(shù)據(jù)由列定義的類型表示。在創(chuàng)建關(guān)系數(shù)據(jù)庫(kù)時(shí),可以定義數(shù)據(jù)列的可能值范圍以及可能應(yīng)用于該數(shù)據(jù)值的進(jìn)一步約束。關(guān)系型數(shù)據(jù)庫(kù)遵循ACID原則,即原子性(Atomicity)、一致性(Consistency)、隔離性(Isolation)和持久性(Durability)。1)原子性(Atomicity):原子性的概念十分直觀,即事務(wù)中的所有操作要么全部執(zhí)行完畢,要么全部取消,不允許部分執(zhí)行。事務(wù)成功的標(biāo)志是其中的所有操作都成功完成,如果有任何一個(gè)操作失敗,整個(gè)事務(wù)都會(huì)被取消并回滾到原始狀態(tài)。例如,在銀行轉(zhuǎn)賬中,從A賬戶轉(zhuǎn)100元至B賬戶應(yīng)該作為一個(gè)原子操作,如果只成功執(zhí)行了扣款而未成功存款,那么整個(gè)操作應(yīng)該被取消,以保證數(shù)據(jù)的一致性。2工業(yè)數(shù)據(jù)的整理SQL數(shù)據(jù)庫(kù)2)一致性(Consistency):一致性要求數(shù)據(jù)庫(kù)始終保持一致的狀態(tài),即事務(wù)的執(zhí)行不會(huì)破壞數(shù)據(jù)庫(kù)原本的一致性約束。例如,如果數(shù)據(jù)庫(kù)中有一個(gè)完整性約束規(guī)定了a賬戶存款加上b賬戶存款等于2000,那么在事務(wù)中修改a賬戶存款后,必須同時(shí)修改b賬戶存款,以保證事務(wù)結(jié)束后數(shù)據(jù)庫(kù)仍然滿足約束條件,否則事務(wù)將被視為失敗。3)隔離性(Isolation):隔離性要求并發(fā)執(zhí)行的事務(wù)之間相互獨(dú)立,一個(gè)事務(wù)的執(zhí)行不應(yīng)該受到另一個(gè)事務(wù)的影響。如果一個(gè)事務(wù)正在訪問(wèn)某些數(shù)據(jù),而另一個(gè)事務(wù)正在修改這些數(shù)據(jù),那么前者在后者提交之前應(yīng)該看不到后者的修改。隔離性的目標(biāo)是實(shí)現(xiàn)事務(wù)的串行化,即每個(gè)事務(wù)都感覺(jué)不到其他事務(wù)的并發(fā)執(zhí)行。4)持久性(Durability):持久性確保一旦事務(wù)提交,其所做的修改將永久保存在數(shù)據(jù)庫(kù)中,即使系統(tǒng)發(fā)生宕機(jī)也不會(huì)丟失。持久性保證了數(shù)據(jù)的可靠性和可恢復(fù)性。2工業(yè)數(shù)據(jù)的整理NoSQL數(shù)據(jù)庫(kù)NoSQL(NotonlySQL)是一個(gè)非關(guān)系型數(shù)據(jù)庫(kù)技術(shù)的統(tǒng)稱,它具有非關(guān)系型、分布式、不提供ACID等特點(diǎn)。它與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)(如MySQL、Oracle等)不同,不需要遵循固定的表結(jié)構(gòu)和數(shù)據(jù)模型,數(shù)據(jù)以鍵值對(duì)、文檔形式或圖形結(jié)構(gòu)等形式存儲(chǔ)。Web2.0時(shí)代的興起催生了NoSQL數(shù)據(jù)庫(kù)的發(fā)展。隨著互聯(lián)網(wǎng)的普及和移動(dòng)互聯(lián)網(wǎng)的迅速發(fā)展,數(shù)據(jù)量和種類呈現(xiàn)出更加龐大和多樣化的趨勢(shì)。在這種情況下,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)顯得捉襟見(jiàn)肘。而NoSQL數(shù)據(jù)庫(kù)以其高可擴(kuò)展性、高性能和靈活性等優(yōu)勢(shì),在互聯(lián)網(wǎng)公司和大數(shù)據(jù)應(yīng)用場(chǎng)景中得到了廣泛應(yīng)用和推廣。目前常見(jiàn)的NoSQL數(shù)據(jù)庫(kù)包括MongoDB、Cassandra、Redis、HBase等。2工業(yè)數(shù)據(jù)的整理NoSQL數(shù)據(jù)庫(kù)圖6-2不同類型的NoSQL數(shù)據(jù)庫(kù)原理對(duì)比2工業(yè)數(shù)據(jù)的整理2.3數(shù)據(jù)庫(kù)構(gòu)建實(shí)例以“某膜材料公司”國(guó)內(nèi)數(shù)字化程度最高的濾紙產(chǎn)線為例,這條產(chǎn)線在疫情期間為火神山和雷神山醫(yī)院提供了所有醫(yī)用空調(diào)濾紙。該生產(chǎn)線采用涂覆或涂布工藝在紡織品表面涂布一層薄膜材料,以增加其特定的功能或性能,調(diào)控參數(shù)包括上漿流量、沖漿流量和車速。沖漿流量通常以涂布劑的質(zhì)量或體積流率表示,可以通過(guò)以下公式計(jì)算:沖漿流量=噴嘴寬度×噴嘴間距×噴嘴流速,其中,噴嘴流速可以根據(jù)噴嘴的設(shè)計(jì)參數(shù)和涂布劑的要求進(jìn)行估算。漿液流量可以根據(jù)涂布劑的涂布密度、涂布速度和覆蓋率進(jìn)行估算,一種常見(jiàn)的計(jì)算公式是:漿液流量=涂布密度×車速×覆蓋率,其中,涂布密度為涂布劑的質(zhì)量或體積單位面積的流量,覆蓋率為涂布劑在紡織品表面的覆蓋比例。車速通??梢愿鶕?jù)生產(chǎn)線的設(shè)計(jì)參數(shù)和涂布速度的要求進(jìn)行設(shè)置,一般可通過(guò)以下公式進(jìn)行計(jì)算:車速=涂布長(zhǎng)度/涂布時(shí)間,其中,涂布長(zhǎng)度為紡織品在涂布設(shè)備上的運(yùn)動(dòng)距離,涂布時(shí)間為涂布過(guò)程所需的時(shí)間。2工業(yè)數(shù)據(jù)的整理2.3數(shù)據(jù)庫(kù)構(gòu)建實(shí)例Niagara平臺(tái)可以采用關(guān)系型數(shù)據(jù)庫(kù)設(shè)計(jì)建立膜材基礎(chǔ)信息表和涂布參數(shù)基礎(chǔ)信息表,如表6-2和表6-3所示。表6-2膜材基礎(chǔ)信息表表6-3涂布參數(shù)基礎(chǔ)信息表字段名稱字段類型是否必填注釋data_idvarchar(64)Y主鍵membrane_namevarchar(255)N膜材名稱weight_gsmdecimal(20,6)N膜材克重date_addeddatetimeN生產(chǎn)時(shí)間thickness_mmdecimal(20,6)N膜材厚度pore_size_nmdecimal(20,6)N膜材孔徑字段名稱字段類型是否必填注釋data_idvarchar(64)Y主鍵nozzle_widthintN噴嘴寬度nozzle_spacingdecimal(10,6)N噴嘴間距nozzle_flow_ratedecimal(10,6)N噴嘴流速coating_density_1decimal(10,6)N1#涂布密度coating_density_2decimal(10,6)N2#涂布密度2工業(yè)數(shù)據(jù)的整理2.3數(shù)據(jù)庫(kù)構(gòu)建實(shí)例1)下載MySQL_Connectormysql-connector-java-8.0.16.jar并拷貝至C:\Niagara\NiagaraVersionYouUse\jre\lib\ext,重啟站點(diǎn)和Workbench。2)從rdbMySQLPalette拖放RdbmsNetwork至站點(diǎn)Config下Drivers文件夾(圖6-3)。Niagara支持與第三方數(shù)據(jù)庫(kù)連接,可以將站點(diǎn)的歷史數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫(kù)中,Niagara支持的數(shù)據(jù)庫(kù)驅(qū)動(dòng)包括MySQL,Oracle,SqlServer等。以MySQL數(shù)據(jù)庫(kù)為例,歷史數(shù)據(jù)導(dǎo)出過(guò)程如下。注意,配置數(shù)據(jù)庫(kù)連接可能需要在防火墻打開(kāi)TCP3306端口。2工業(yè)數(shù)據(jù)的整理2.3數(shù)據(jù)庫(kù)構(gòu)建實(shí)例3)從rdbMySQLPalette拖放MySQLDatabase至RdbmsNetwork下。4)打開(kāi)MySQLDatabase的AXPropertySheet并進(jìn)行如下配置(圖6-4):a.HostAddress:MySQL數(shù)據(jù)庫(kù)對(duì)應(yīng)的IPaddressb.UserName:數(shù)據(jù)庫(kù)用戶名c.Password:密碼d.DatabaseName:數(shù)據(jù)庫(kù)名e.點(diǎn)擊Save后嘗試ping該數(shù)據(jù)庫(kù)圖6-4MySQLDatabase的AXPropertySheet配置2工業(yè)數(shù)據(jù)的整理5)
展開(kāi)MySQLDatabase并雙擊Histories(圖6-5)6)
點(diǎn)擊Discover搜索Niagara的歷史7)搜索到站點(diǎn)的歷史后,將所有的歷史拖入下面的Database里8)在Database里,全選這些歷史并點(diǎn)擊Archive9)在MySQL數(shù)據(jù)庫(kù)中檢查歷史數(shù)據(jù)是否成功導(dǎo)入數(shù)據(jù)庫(kù)(圖6-6)。2工業(yè)數(shù)據(jù)的整理在Database里,全選這些歷史并點(diǎn)擊Archive圖6-6MySQL數(shù)據(jù)庫(kù)中檢查歷史數(shù)據(jù)是否成功導(dǎo)入2工業(yè)數(shù)據(jù)的整理在Database里,全選這些歷史并點(diǎn)擊Archive使用Smardaten進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)處理的第一步是定義數(shù)據(jù)來(lái)源,如添加MySQL數(shù)據(jù)源。連接成功后,可以在Smardaten上進(jìn)行數(shù)據(jù)的處理、分析與展示。已創(chuàng)建MySQL數(shù)據(jù)庫(kù),并且在連接數(shù)據(jù)庫(kù)之前,請(qǐng)收集以下信息:數(shù)據(jù)庫(kù)所在服務(wù)器的IP地址和端口號(hào)、數(shù)據(jù)庫(kù)的名稱、數(shù)據(jù)庫(kù)的用戶名和密碼。接下來(lái)是實(shí)際連接,具體步驟如下:1)以管理員身份登錄Smardaten系統(tǒng),單擊圖標(biāo),并選擇“數(shù)據(jù)源”,進(jìn)入數(shù)據(jù)源模塊。2)在數(shù)據(jù)源模塊,單擊“新增數(shù)據(jù)”,并選擇數(shù)據(jù)源類型“MySQL”,如圖6-7。2工業(yè)數(shù)據(jù)的整理在Database里,全選這些歷史并點(diǎn)擊Archive3)自定義數(shù)據(jù)源名稱,并配置連接信息。4)點(diǎn)擊“測(cè)試連接”,若連接成功則單擊“保存”。創(chuàng)建數(shù)據(jù)源后,Smardaten還可以創(chuàng)建數(shù)據(jù)資產(chǎn)并分析處理數(shù)據(jù)。圖6-7Smardaten系統(tǒng)選擇數(shù)據(jù)源類型“MySQL”3工業(yè)數(shù)據(jù)的處理技術(shù)3.1工業(yè)數(shù)據(jù)的清洗在數(shù)據(jù)治理的實(shí)踐中,解決企業(yè)長(zhǎng)期存在的數(shù)據(jù)質(zhì)量問(wèn)題(如數(shù)據(jù)不一致、不完整、不規(guī)范、以及數(shù)據(jù)冗余等)是至關(guān)重要的。為了徹底解決這些問(wèn)題,需要對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行“數(shù)據(jù)清洗”工作。對(duì)于企業(yè)存量(歷史)數(shù)據(jù)而言,數(shù)據(jù)清理是通過(guò)一系列步驟“清理”數(shù)據(jù),然后以期望的格式輸出清理過(guò)的數(shù)據(jù)。數(shù)據(jù)清理從數(shù)據(jù)的準(zhǔn)確性、完整性、一致性、惟一性、適時(shí)性、有效性幾個(gè)方面來(lái)處理數(shù)據(jù)的丟失值、越界值、不一致代碼、重復(fù)數(shù)據(jù)等問(wèn)題。比如年齡、體重、成績(jī)出現(xiàn)了負(fù)數(shù),都是超出了正常的范圍。SPAA、SAS、Excel等軟件都能根據(jù)定義的取值范圍進(jìn)行識(shí)別篩選。3工業(yè)數(shù)據(jù)的處理技術(shù)3.1工業(yè)數(shù)據(jù)的清洗1)預(yù)處理階段:首先是選擇適當(dāng)?shù)臄?shù)據(jù)處理工具。通常情況下,使用關(guān)系型數(shù)據(jù)庫(kù)是一個(gè)不錯(cuò)的選擇,而對(duì)于單機(jī)環(huán)境,可以考慮使用MySQL,或者采用文本文件存儲(chǔ)結(jié)合Python進(jìn)行操作。其次是查看數(shù)據(jù)的元數(shù)據(jù)和數(shù)據(jù)特征,包括字段解釋、數(shù)據(jù)來(lái)源、代碼表等,通過(guò)對(duì)數(shù)據(jù)的一部分進(jìn)行人工查看,來(lái)獲得對(duì)數(shù)據(jù)本身的直觀了解,以便后續(xù)處理。2)缺失值清洗:通常按照確定缺失值范圍、去除不需要的字段、填充缺失內(nèi)容三步來(lái)處理。首先是確定缺失值的范圍,對(duì)每個(gè)字段計(jì)算缺失值比例,然后根據(jù)不同字段的缺失比例和重要性制定相應(yīng)的策略。接著是去除不需要的字段,可以直接刪除那些不需要的字段,但要注意備份數(shù)據(jù)。填充缺失值內(nèi)容是這個(gè)階段最重要的一步,可以采用多種方式進(jìn)行填充,如用業(yè)務(wù)知識(shí)或經(jīng)驗(yàn)填充、用同一字段指標(biāo)的計(jì)算結(jié)果填充等。最后是重新獲取數(shù)據(jù)。數(shù)據(jù)清洗分為以下六個(gè)階段:3工業(yè)數(shù)據(jù)的處理技術(shù)3.1工業(yè)數(shù)據(jù)的清洗3)格式與內(nèi)容清洗:這個(gè)階段包括解決時(shí)間日期、數(shù)值、全半角等顯示格式不一致的問(wèn)題,清除內(nèi)容中不該存在的字符,以及確保內(nèi)容與字段內(nèi)容一致。4)邏輯錯(cuò)誤清洗:這個(gè)階段主要涉及數(shù)據(jù)去重、去掉不合理的數(shù)值,以及去掉不可靠的字段等操作。5)非需求數(shù)據(jù)清洗:精簡(jiǎn)要分析的數(shù)據(jù),將無(wú)關(guān)字段刪除。6)關(guān)聯(lián)性驗(yàn)證:如果數(shù)據(jù)來(lái)自多個(gè)來(lái)源,可以進(jìn)行關(guān)聯(lián)性驗(yàn)證,以選擇準(zhǔn)確的特征屬性。例如,數(shù)據(jù)庫(kù)中包含客戶的線下購(gòu)買(mǎi)信息,也有電話客服問(wèn)卷信息,兩者可以通過(guò)姓名和手機(jī)號(hào)關(guān)聯(lián)。數(shù)據(jù)清洗的工具包括OpenRefine、DataCleaner、Kettle和Beeload等。它們都具有各自的特點(diǎn)和功能,能夠幫助用戶更有效地進(jìn)行數(shù)據(jù)清洗和處理,提高數(shù)據(jù)的質(zhì)量和可用性。3工業(yè)數(shù)據(jù)的處理技術(shù)3.1工業(yè)數(shù)據(jù)的清洗Smardaten平臺(tái)中數(shù)據(jù)交換機(jī)同樣可以方便實(shí)現(xiàn)數(shù)據(jù)清洗任務(wù)。例如“基本轉(zhuǎn)換”組件可進(jìn)行的基礎(chǔ)操作,包括字段選擇、增加常量、字段合并、剔重、數(shù)據(jù)過(guò)濾、文本替換、類型轉(zhuǎn)換、充值填充、文本截取和全表清理。配置空值填充時(shí),需配置填充策略、并根據(jù)填充策略配置相應(yīng)的參數(shù)。填充策略即填充的方式,包括常量填充和向前填充兩種。若選擇常量填充,需選擇填充字段并輸入常量值。1)填充字段:即待進(jìn)行空值填充的字段,該字段中所有的空值都會(huì)被替換成指定常量。2)輸入常量:即替換填充字段中空值的常量,自定義,填充字段中所有的空值都會(huì)被替換成所定義的常量。若輸入的常量為時(shí)間或者日期,如2021-09-0915:56:12,需使用工具將日期轉(zhuǎn)換為時(shí)間戳1631174172后再輸入,轉(zhuǎn)換工具可參考https://tool.lu/timestamp。3工業(yè)數(shù)據(jù)的處理技術(shù)3.2工業(yè)數(shù)據(jù)的特征提取特征工程通常包括特征構(gòu)建、特征提取和特征選擇這三個(gè)子模塊,重要性排序?yàn)樘卣鳂?gòu)建>特征提取>特征選擇。特征構(gòu)建是從原始數(shù)據(jù)中構(gòu)建出特征,有時(shí)也稱作特征預(yù)處理,包括缺失值處理、異常值處理、無(wú)量綱化(標(biāo)準(zhǔn)化/歸一化)、啞編碼等。特征提取將原特征轉(zhuǎn)換為一組具有明顯物理意義或統(tǒng)計(jì)意義的新特征。特征選擇則是從特征集合中挑選一組最具統(tǒng)計(jì)意義的特征子集。當(dāng)前常見(jiàn)的特征提取方法如下:1)主成分分析(PrincipalComponentAnalysis,PCA)是一種通過(guò)正交變換將原始的n維數(shù)據(jù)集變換到一個(gè)新的被稱為主成分的數(shù)據(jù)集中的方法。在變換后的結(jié)果中,第一個(gè)主成分具有最大的方差值。PCA的特點(diǎn)是無(wú)監(jiān)督的,其目標(biāo)是盡量少地保留原始信息(即使得均方誤差最?。?,使得期望投影維度上的方差最大化。3工業(yè)數(shù)據(jù)的處理技術(shù)3.2工業(yè)數(shù)據(jù)的特征提取2)
獨(dú)立成分分析(IndependentComponentAnalysis,ICA)是將原特征轉(zhuǎn)化為相互獨(dú)立的分量的線性組合。通常情況下,PCA被視為ICA的預(yù)處理步驟。3)
線性判別分析(LinearDiscriminantAnalysis,LDA)是一種有監(jiān)督的方法,旨在盡可能容易地將不同類別樣本區(qū)分開(kāi)來(lái),即使得“類內(nèi)高內(nèi)聚、類間低耦合”。4)
因子分析(FactorAnalysis,FA)是一種常用的統(tǒng)計(jì)分析方法,基于降維的思想,通過(guò)探索變量之間的相關(guān)系數(shù)矩陣,根據(jù)變量的相關(guān)性大小對(duì)變量進(jìn)行分組,使同組內(nèi)變量間的相關(guān)性較高,不同組變量的相關(guān)性較低,而代表每組數(shù)據(jù)基本結(jié)構(gòu)的新變量稱為公共因子。3工業(yè)數(shù)據(jù)的處理技術(shù)3.2工業(yè)數(shù)據(jù)的特征提取Smardaten數(shù)據(jù)分析儀可根據(jù)歷史數(shù)據(jù)分析變量的發(fā)展趨勢(shì)、發(fā)展規(guī)模、變化過(guò)程,為用戶的下階段決策提供數(shù)據(jù)支持。提供包括時(shí)序數(shù)據(jù)預(yù)測(cè)、數(shù)據(jù)周期探測(cè)、數(shù)據(jù)趨勢(shì)探測(cè)、時(shí)序異常值檢測(cè)等細(xì)分能力。以主因子分析為例,用戶選擇需要分析的主因子,并選取其他參與分析的變量。系統(tǒng)將返回各個(gè)因子對(duì)主因子的影響程度及排名。用戶可以基于排名查看每個(gè)變量下子元素對(duì)目標(biāo)變量的影響。數(shù)據(jù)要求如下:1)配置區(qū)的第一個(gè)字段為維度字段,在主因子分析中,默認(rèn)為目標(biāo)主字段,即需要分析的主因子,指標(biāo)為參與分析的其他變量。2)系統(tǒng)只會(huì)展示對(duì)主因子影響較大的前10項(xiàng)指標(biāo)在分析圖表中。3)若主因子為離散變量,其取值必須在2~10種之間。4)當(dāng)主因子為非數(shù)值型變量時(shí),且主因子下的元素類型超過(guò)10類時(shí),暫不支持分析。5)若主因子存在大量空值,會(huì)影響分析結(jié)果的準(zhǔn)確性。如果空值超過(guò)總數(shù)的20%,則不進(jìn)行分析。主因子分析僅支持針對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析。3工業(yè)數(shù)據(jù)的處理技術(shù)3.2工業(yè)數(shù)據(jù)的特征提取完成數(shù)據(jù)準(zhǔn)備后,在分析儀工作區(qū)中,將需要在圖表中展示的用戶數(shù)據(jù)拖入,包括一個(gè)維度和若干指標(biāo)。拖拽完成后,符合數(shù)據(jù)展示條件的視圖菜單將點(diǎn)亮。選擇“智能>主因子分析”,系統(tǒng)將顯示主因子分析圖。在右側(cè)的圖表功能配置中配置主因子分析參數(shù),具體如下:1)目標(biāo)分析列:支持自定義分析的對(duì)象,默認(rèn)為拖入配置區(qū)的第一個(gè)字段。2)模型選擇:包括以下速度為主和精度為主兩種,默認(rèn)為以速度為主。點(diǎn)擊“功能>分析”,系統(tǒng)會(huì)根據(jù)用戶配置的功能參數(shù)重新進(jìn)行分析,生成分析圖表。點(diǎn)擊分析圖表中的排名項(xiàng),系統(tǒng)將展示該項(xiàng)不同區(qū)間對(duì)主因子影響程度的情況。以下主因子分析的對(duì)象為某種膜材的克重。影響膜材克重的指標(biāo)包括時(shí)間、1#漿液流量、2#漿液流量、車速監(jiān)控等,如圖6-9所示。為獲取更精準(zhǔn)的分析結(jié)果,用戶可添加更多影響指標(biāo)。3工業(yè)數(shù)據(jù)的處理技術(shù)3.2工業(yè)數(shù)據(jù)的特征提取圖6-9模材的克重與影響指標(biāo)主因子分析結(jié)果如圖,通過(guò)以下分析圖6-10看出,影響膜材克重的主要原因是1#漿液流量,通過(guò)右側(cè)的排名可以獲得影響因子的排名。3工業(yè)數(shù)據(jù)的處理技術(shù)3.3工業(yè)數(shù)據(jù)的聚類聚類(clustering)是無(wú)監(jiān)督學(xué)習(xí)方法,在無(wú)監(jiān)督學(xué)習(xí)中,我們事先不知道正確結(jié)果,數(shù)據(jù)的標(biāo)簽信息是未知的。因此我們需要通過(guò)某些算法來(lái)發(fā)現(xiàn)數(shù)據(jù)內(nèi)在的本質(zhì)和規(guī)律,從而實(shí)現(xiàn)對(duì)數(shù)據(jù)內(nèi)在關(guān)聯(lián)結(jié)構(gòu)的分類,其中研究最多、應(yīng)用最廣的是聚類。主要算法原型聚類、層次聚類、密度聚類等。3工業(yè)數(shù)據(jù)的處理技術(shù)3.4異常值識(shí)別異常值檢測(cè)算法可以分為基于規(guī)則、基于統(tǒng)計(jì)和基于機(jī)器學(xué)習(xí)等方法?;谝?guī)則的異常值檢測(cè)使用規(guī)則來(lái)描述異常情況,根據(jù)規(guī)則來(lái)判斷數(shù)據(jù)點(diǎn)是否為異常值,基本過(guò)程包括:1)定義規(guī)則,如數(shù)據(jù)點(diǎn)的值超過(guò)閾值則為異常值。2)檢查數(shù)據(jù)點(diǎn)是否滿足規(guī)則。這種方法首先需要獲取規(guī)則,主要有兩種方法:一是設(shè)計(jì)算法自動(dòng)提取,二是由專家制定。然而受限于專家知識(shí),規(guī)則庫(kù)可能不完善,對(duì)于新的異常類別需要及時(shí)更新規(guī)則庫(kù)。3工業(yè)數(shù)據(jù)的處理技術(shù)基于距離基于距離的方法認(rèn)為異常點(diǎn)距離正常點(diǎn)比較遠(yuǎn),因此可以對(duì)于每一個(gè)數(shù)據(jù)點(diǎn),計(jì)算它的K-近鄰距離(或平均距離),并將距離與閾值進(jìn)行比較。3工業(yè)數(shù)據(jù)的處理技術(shù)基于密度基于距離的方法中,閾值是一個(gè)固定值,屬于全局性方法。但是有的數(shù)據(jù)集數(shù)據(jù)分布不均勻,有的地方比較稠密,有的地方比較稀疏,這就可能導(dǎo)致閾值難以確定。我們需要根據(jù)樣本點(diǎn)的局部密度信息去判斷異常情況?;诿芏鹊姆椒ㄖ饕芯植侩x群因子檢測(cè)方法(LocalOutlierFactor,LOF)、基于連通性的離群因子算法(Connectivity-BasedOutlierFactor,COF)、多粒度偏差因子(Multi-GranularityDeviationFactor,MDEF)等。3工業(yè)數(shù)據(jù)的處理技術(shù)基于聚類基于聚類方法的異常點(diǎn)檢測(cè)方法主要基于三種假設(shè):
假設(shè)一:不屬于任何聚類的點(diǎn)是異常點(diǎn),主要方法包括DBSCAN、SNNclustering、FindOutalgorithm、WaveClusterAlgorithm。假設(shè)二:距離最近的聚類結(jié)果較遠(yuǎn)的點(diǎn)是異常點(diǎn),主要方法包括K-Means、Self-OrganizingMaps(SOM)、GMM。假設(shè)三:稀疏聚類和較小的聚類里的點(diǎn)都是異常點(diǎn),主要方法包括CBLOF、LDCOF、CMGOS等,可以發(fā)現(xiàn)異常簇。3工業(yè)數(shù)據(jù)的處理技術(shù)基于樹(shù)此類方法的核心思想是通過(guò)劃分?jǐn)?shù)據(jù)空間來(lái)檢測(cè)異常點(diǎn),其區(qū)別主要在于特征的選擇、分割點(diǎn)的確定以及如何對(duì)分類空間進(jìn)行標(biāo)記。這些方法不受球形鄰近性的限制,因此能夠有效地檢測(cè)任意形狀的異常點(diǎn)。此類方法主要包括iForest孤立森林、SCiForest、穩(wěn)健隨機(jī)采伐森林(RobustRandomCutForest,RRCF)。3工業(yè)數(shù)據(jù)的處理技術(shù)3.5數(shù)據(jù)的分類數(shù)據(jù)分類涉及多種算法,包括基礎(chǔ)分類算法如決策樹(shù)、邏輯回歸、支持向量機(jī)、樸素貝葉斯、K-最近鄰、神經(jīng)網(wǎng)絡(luò)、貝葉斯網(wǎng)絡(luò)、LDA和最大熵模型;以及集成分類算法如隨機(jī)森林、AdaBoost、梯度提升決策樹(shù)、極端梯度提升和LightGBM。這些方法各有優(yōu)勢(shì),適用于不同的數(shù)據(jù)特征和問(wèn)題類型,能夠提高分類的準(zhǔn)確性和魯棒性,具體如下:3工業(yè)數(shù)據(jù)的處理技術(shù)基礎(chǔ)分類算法1)決策樹(shù):通過(guò)劃分?jǐn)?shù)據(jù)集為不同的子集來(lái)預(yù)測(cè)目標(biāo)變量。每個(gè)內(nèi)部節(jié)點(diǎn)表示一個(gè)特征屬性上的判斷條件,分支代表可能的屬性值,葉節(jié)點(diǎn)表示分類結(jié)果。2)邏輯回歸:用于二元分類,通過(guò)邏輯函數(shù)將線性回歸結(jié)果映射到[0,1]范圍內(nèi)。其優(yōu)點(diǎn)是計(jì)算效率高,但處理高維數(shù)據(jù)時(shí)可能會(huì)過(guò)擬合。3)支持向量機(jī)(SupportVectorMachine,SVM):通過(guò)找到一個(gè)超平面來(lái)劃分不同的類別,試圖最大化兩個(gè)類別之間的邊界。4)樸素貝葉斯:基于貝葉斯定理,假設(shè)特征間獨(dú)立,計(jì)算每個(gè)類別的條件概率來(lái)預(yù)測(cè)目標(biāo)變量。5)K-最近鄰(KNearestNeighbor,KNN):根據(jù)數(shù)據(jù)集中的距離度量將新的實(shí)例分類到最近的類別中。321453工業(yè)數(shù)據(jù)的處理技術(shù)集成分類算法1)隨機(jī)森林:基于決策樹(shù)算法,通過(guò)構(gòu)建多個(gè)決策樹(shù)并組合它們的預(yù)測(cè)結(jié)果來(lái)提高分類精度。2)AdaBoost:通過(guò)將多個(gè)弱分類器的結(jié)果組合來(lái)預(yù)測(cè)目標(biāo)變量,處理多類分類問(wèn)題,并對(duì)噪聲和異常值不敏感。3)梯度提升決策樹(shù)(GradientBoostingRegressionTree,GBDT):通過(guò)將多個(gè)決策樹(shù)的結(jié)果組合來(lái)預(yù)測(cè)目標(biāo)變量,適用于復(fù)雜和非線性問(wèn)題。4)極端梯度提升(ExtremeGradientBoosting,XGBoost):改進(jìn)的梯度提升算法,利用二階導(dǎo)數(shù)信息優(yōu)化損失函數(shù),適用于復(fù)雜數(shù)據(jù)集。5)LightGBM((LightGradientBoostingMachine):基于梯度提升的決策樹(shù)算法,采用基于直方圖的學(xué)習(xí)算法,訓(xùn)練速度快,適用于大規(guī)模數(shù)據(jù)集和高維特征。3工業(yè)數(shù)據(jù)的處理技術(shù)3.6數(shù)據(jù)的回歸線性回歸、多項(xiàng)式回歸、嶺回歸、LASSO(LeastAbsoluteShrinkageandSelectionOperator)回歸、ElasticNet回歸、貝葉斯回歸等。4數(shù)據(jù)的呈現(xiàn)與決策4.1數(shù)據(jù)模型現(xiàn)實(shí)世界中客觀對(duì)象的抽象過(guò)程如圖6-15所示,數(shù)據(jù)模型(DataModel)是對(duì)現(xiàn)實(shí)世界數(shù)據(jù)特征的抽象,用來(lái)描述、組織和操作數(shù)據(jù)。數(shù)據(jù)模型是數(shù)據(jù)庫(kù)系統(tǒng)的核心和基礎(chǔ)。根據(jù)數(shù)據(jù)模型應(yīng)用目的不同,可以將其劃分為兩大類,它們分別屬于兩個(gè)不同的層次。第一類是概念模型,第二類是邏輯模型和物理模型。第一類概念模型(ConceptualModel),也稱信息模型,它從用戶的視角來(lái)對(duì)數(shù)據(jù)和信息進(jìn)行建模,主要應(yīng)用于數(shù)據(jù)庫(kù)設(shè)計(jì)。4數(shù)據(jù)的呈現(xiàn)與決策4.1數(shù)據(jù)模型概念模型是現(xiàn)實(shí)世界到信息世界的第一層抽象,信息世界中的基本概念:1)實(shí)體(Entity):客觀存在并可相互區(qū)別的事物稱為實(shí)體??梢允蔷唧w的人、事、物或抽象的概念。2)屬性(Attribute):實(shí)體所具有的某一特性稱為屬性。圖6-15現(xiàn)實(shí)世界中客觀對(duì)象的抽象過(guò)程4數(shù)據(jù)的呈現(xiàn)與決策4.1數(shù)據(jù)模型3)碼(Key):也稱鍵或鍵碼,是唯一標(biāo)識(shí)實(shí)體的屬性集。4)域(Domain):屬性的取值范圍稱為該屬性的域。5)實(shí)體型(EntityType):實(shí)體名及其屬性名集合來(lái)抽象和刻畫(huà)同類實(shí)體6)實(shí)體集(EntitySet):同一類型實(shí)體的集合稱為實(shí)體集7)聯(lián)系(Relationship):現(xiàn)實(shí)世界中事物內(nèi)部以及事物之間的聯(lián)系在信息世界中反映為實(shí)體內(nèi)部的聯(lián)系和實(shí)體之間的聯(lián)系。用E-R(實(shí)體-聯(lián)系)圖表示某個(gè)工廠物資管理的概念模型,如圖6-16所示。實(shí)體包括:倉(cāng)庫(kù)、零件、供應(yīng)商、項(xiàng)目和職工。倉(cāng)庫(kù)屬性包括:倉(cāng)庫(kù)號(hào)、面積、電話號(hào)碼。零件屬性包括:零件號(hào)、名稱、規(guī)格、單價(jià)、描述。供應(yīng)商屬性包括:供應(yīng)商號(hào)、姓名、地址、電話號(hào)碼、賬號(hào)。項(xiàng)目屬性包括:項(xiàng)目號(hào)、預(yù)算、開(kāi)工日期。職工屬性包括:職工號(hào)、姓名、年齡、職稱。實(shí)體之間的聯(lián)系如下:4數(shù)據(jù)的呈現(xiàn)與決策4.1數(shù)據(jù)模型011)一個(gè)倉(cāng)庫(kù)可以存放多種零件,一種零件可以存放在多個(gè)倉(cāng)庫(kù)中。倉(cāng)庫(kù)和零件具有多對(duì)多的聯(lián)系。用庫(kù)存量來(lái)表示某種零件在某個(gè)倉(cāng)庫(kù)中的數(shù)量。022)一個(gè)倉(cāng)庫(kù)有多個(gè)職工當(dāng)倉(cāng)庫(kù)保管員,一個(gè)職工只能在一個(gè)倉(cāng)庫(kù)工作,倉(cāng)庫(kù)和職工之間是一對(duì)多的聯(lián)系。職工實(shí)體型中具有一對(duì)多的聯(lián)系033)職工之間具有領(lǐng)導(dǎo)-被領(lǐng)導(dǎo)關(guān)系。即倉(cāng)庫(kù)主任領(lǐng)導(dǎo)若干保管員。圖6-16
某工廠物資管理的概念模型E-R圖4數(shù)據(jù)的呈現(xiàn)與決策第二類中的邏輯模型主要包括非關(guān)系模型(層次模型(HierarchicalModel)、網(wǎng)狀模型(NetworkModel))、關(guān)系模型(RelationalModel)、面向?qū)ο髷?shù)據(jù)模型(ObjectorientedDataModel)和對(duì)象關(guān)系數(shù)據(jù)模型(ObjectRelationalDataModel)、半結(jié)構(gòu)化數(shù)據(jù)模型(SemistructuredDataModel)等。按計(jì)算機(jī)系統(tǒng)的視角對(duì)數(shù)據(jù)建模,主要用于數(shù)據(jù)庫(kù)管理系統(tǒng)DBMS的實(shí)現(xiàn)。物理模型是對(duì)數(shù)據(jù)最底層的抽象,描述數(shù)據(jù)在系統(tǒng)內(nèi)部的表示方式和存取方法,在磁盤(pán)或磁帶上的存儲(chǔ)方式和存取方法。4.1數(shù)據(jù)模型4數(shù)據(jù)的呈現(xiàn)與決策4.2數(shù)據(jù)呈現(xiàn)方式數(shù)據(jù)的基礎(chǔ)圖表種類繁多,需根據(jù)數(shù)據(jù)結(jié)構(gòu)和關(guān)系選用不同圖表形式,以展示不同效果。對(duì)數(shù)據(jù)可視化而言,關(guān)鍵在于選擇合適圖表呈現(xiàn)數(shù)據(jù)。通常,數(shù)據(jù)之間包含五種主要關(guān)系,即比較、趨勢(shì)、聯(lián)系、分布和構(gòu)成,如圖6-18所示。4數(shù)據(jù)的呈現(xiàn)與決策4.2數(shù)據(jù)呈現(xiàn)方式1)從analyticsPalette中添加AnalyticsService至站點(diǎn)的Services文件夾2)進(jìn)入AnalyticsService的AxPropertySheet(圖6-19),設(shè)置AutoTagAnalyticsPoint為T(mén)rueNiagaraAnalyticsFramework提供了豐富的數(shù)據(jù)圖表,通過(guò)綁定數(shù)據(jù)源采用不同的呈現(xiàn)方式展示數(shù)據(jù)。如餅圖,柱狀圖,曲線圖,條形圖,頻譜圖等。4數(shù)據(jù)的呈現(xiàn)與決策4.2數(shù)據(jù)呈現(xiàn)方式3)為NozzleFlowRate添加hs:speed標(biāo)簽(圖6-20),為CoatingDensity_1和CoatingDensity_2添加hs:dc標(biāo)簽。注意需要將Haystack標(biāo)簽字典提前添加至TagDictionaryService當(dāng)中。4)在站點(diǎn)中創(chuàng)建一個(gè)PX視圖,在視圖添加AnalyticsCharts以顯示數(shù)據(jù)。a.AnalyticsWebChart配置4數(shù)據(jù)的呈現(xiàn)與決策4.2數(shù)據(jù)呈現(xiàn)方式如圖6-21所示,可以通過(guò)AnalyticsWebChart配置噴嘴流速的data,node,interval屬性,實(shí)現(xiàn)以5分鐘為間隔顯示當(dāng)天噴嘴流速,如圖6-22所示。4數(shù)據(jù)的呈現(xiàn)與決策4.2數(shù)據(jù)呈現(xiàn)方式圖6-23涂布密度CoatingDensity的RankingChart顯示b.
RankingChart涂布密度CoatingDensity的data,node,interval屬性配置,并通過(guò)RankingChart顯示結(jié)果,如圖6-23所示。4數(shù)據(jù)的呈現(xiàn)與決策4.2數(shù)據(jù)呈現(xiàn)方式Niagara數(shù)據(jù)大屏特點(diǎn)包括:1)靈活可視化界面:通過(guò)自由布局的大屏設(shè)計(jì)器,結(jié)合豐富的組件和素材,塑造靈活的可視化界面;2)業(yè)務(wù)全景展示:多種類型圖表承載業(yè)務(wù)數(shù)據(jù),可全方位展示業(yè)務(wù)數(shù)據(jù);3)豐富的交互場(chǎng)景:內(nèi)置邏輯處理算子和圖表聯(lián)動(dòng)功能,用于配置豐富的交互動(dòng)作;4)業(yè)務(wù)決策支撐:內(nèi)置智能分析、圖譜分析、圖表分析等多種分析模式支撐決策。Niagara數(shù)據(jù)大屏是一款高效的數(shù)據(jù)可視化工具,能將業(yè)務(wù)關(guān)鍵指標(biāo)以直觀的方式呈現(xiàn)在LED屏幕上,使業(yè)務(wù)人員能夠迅速找到重要數(shù)據(jù),為決策者提供輔助。該大屏具備自助搭建專業(yè)綜合應(yīng)用的能力,可展示數(shù)據(jù)、視頻、文本信息、圖表以及視頻源,支持靈活布局和豐富交互,全面展示業(yè)務(wù)數(shù)據(jù),提供智能分析支持決策。數(shù)據(jù)大屏作為數(shù)據(jù)可視化技術(shù)的重要形式和載體,通過(guò)圖形展示數(shù)據(jù)內(nèi)在價(jià)值,為企事業(yè)單位提供大屏數(shù)據(jù)可視化服務(wù),如圖6-24所示。4數(shù)據(jù)的呈現(xiàn)與決策4.2數(shù)據(jù)呈現(xiàn)方式圖6-24Niagara數(shù)據(jù)大屏4數(shù)據(jù)的呈現(xiàn)與決策4.3故障診斷與控制決策隨著大數(shù)據(jù)時(shí)代的興起,傳統(tǒng)的因果關(guān)系觀念受到挑戰(zhàn),相關(guān)關(guān)系的重要性凸顯。在大數(shù)據(jù)中,當(dāng)一個(gè)數(shù)據(jù)作為根源發(fā)生變化時(shí),另一個(gè)數(shù)據(jù)作為結(jié)果也可能產(chǎn)生相應(yīng)變化,它們之間存在著緊密的聯(lián)系。借助計(jì)算技術(shù)和數(shù)據(jù)分析工具,輕松捕捉到這種聯(lián)系。通過(guò)比對(duì)傳感器全面收集到的相關(guān)數(shù)據(jù)與歷史上的正常數(shù)據(jù),可預(yù)測(cè)設(shè)備可能出現(xiàn)的故障。適度拋棄“因果”觀念,轉(zhuǎn)向“相關(guān)”,有助于我們更快速、全面地理解事件的發(fā)生。從“事后補(bǔ)救模式”轉(zhuǎn)變?yōu)椤爸鲃?dòng)預(yù)警模式”,將數(shù)據(jù)收集、問(wèn)題預(yù)測(cè)和解決緊密相連。工業(yè)大數(shù)據(jù)的智能故障診斷正是基于大數(shù)據(jù)相關(guān)關(guān)系分析的方法。以Niagara故障診斷和控制決策平臺(tái)為例,基于數(shù)據(jù)驅(qū)動(dòng)的無(wú)碼化軟件裝配平臺(tái),通過(guò)生產(chǎn)線裝配模式的軟件開(kāi)發(fā),快速構(gòu)建了針對(duì)膜材料產(chǎn)線的全流程生產(chǎn)-監(jiān)控-預(yù)警-決策,實(shí)現(xiàn)了傳統(tǒng)工業(yè)生產(chǎn)線的預(yù)測(cè)和管理自動(dòng)化、數(shù)字化。4數(shù)據(jù)的呈現(xiàn)與決策4.3故障診斷與控制決策NiagaraAnalyticsFramework與在Niagara上進(jìn)行組態(tài)邏輯編程類似,同樣提供一些組態(tài)模塊,可以通過(guò)拖拽連線的方式去構(gòu)筑一些算法。這些算法可以基于實(shí)時(shí)數(shù)據(jù)或歷史趨勢(shì)數(shù)據(jù)計(jì)算產(chǎn)生一個(gè)結(jié)果。這個(gè)結(jié)果可以出發(fā)一個(gè)告警或顯示在Chart視圖上,實(shí)現(xiàn)系統(tǒng)故障診斷的功能?;蛘呖梢岳^續(xù)作為一個(gè)輸入?yún)⑴c另外一個(gè)計(jì)算。NiagaraAnalyticsFramework也預(yù)置了一些算法庫(kù),可以學(xué)習(xí)其算法邏輯或直接使用。結(jié)合實(shí)例,噴嘴流速故障檢測(cè)的算法。(圖6-25)圖6-25
NiagaraAnalyticsFramework算法庫(kù)5大數(shù)據(jù)的分布式處理技術(shù)5.1海量數(shù)據(jù)存儲(chǔ)技術(shù)工業(yè)互聯(lián)網(wǎng)平臺(tái)依托云計(jì)算技術(shù),采用分布式和冗余存儲(chǔ)來(lái)確保數(shù)據(jù)可靠性。通過(guò)軟件控制彌補(bǔ)硬件不可靠性,構(gòu)建經(jīng)濟(jì)實(shí)惠、可靠的大規(guī)模分布式存儲(chǔ)系統(tǒng)。普通PC服務(wù)器被用作節(jié)點(diǎn)構(gòu)建云計(jì)算機(jī)集群,節(jié)點(diǎn)故障是常態(tài),需要容錯(cuò)機(jī)制通過(guò)軟件監(jiān)視系統(tǒng)運(yùn)行情況,自動(dòng)發(fā)現(xiàn)和恢復(fù)失效節(jié)點(diǎn)。因此,云計(jì)算系統(tǒng)采用分布式存儲(chǔ)的方式存儲(chǔ)數(shù)據(jù),用冗余存儲(chǔ)的方式(集群計(jì)算、數(shù)據(jù)冗余和分布式存儲(chǔ))保證數(shù)據(jù)的可靠性。目前云計(jì)算系統(tǒng)中廣泛使用的數(shù)據(jù)存儲(chǔ)系統(tǒng)是Google的GFS和Hadoop團(tuán)隊(duì)開(kāi)發(fā)的GFS的開(kāi)源實(shí)現(xiàn)HDFS。HDFS(Hadoop分布式文件系統(tǒng))是運(yùn)行在通用硬件(commodityhardware)上的分布式文件系統(tǒng)(DistributedFileSystem)。HDFS是一個(gè)高度容錯(cuò)性的系統(tǒng),適合部署在廉價(jià)的機(jī)器上。5大數(shù)據(jù)的分布式處理技術(shù)5.1海量數(shù)據(jù)存儲(chǔ)技術(shù)Hadoop是一個(gè)由Apache基金會(huì)所開(kāi)發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu),起源于2002年的ApacheNutch項(xiàng)目。2004年DougCutting等人嘗試實(shí)現(xiàn)MapReduce計(jì)算框架,并將其與NDFS(NutchDistributedFileSystem)結(jié)合,用于支持Nutch引擎的主要算法。由于NDFS和MapReduce在Nutch引擎中的成功應(yīng)用,它們于2006年2月被分離出來(lái),形成了一套完整而獨(dú)立的軟件,被命名為Hadoop。HDFS系統(tǒng)架構(gòu)圖6-37所示,其基本概念包括塊(Block)、名稱節(jié)點(diǎn)(NameNode)、數(shù)據(jù)節(jié)點(diǎn)(DataNode)、第二名稱節(jié)點(diǎn)(SecondaryNameNode)。HDFS采用了主從(Master/Slave)結(jié)構(gòu)模型,一個(gè)HDFS集群包括一個(gè)名稱節(jié)點(diǎn)(NameNode)和若干個(gè)數(shù)據(jù)節(jié)點(diǎn)(DataNode)。5大數(shù)據(jù)的分布式處理技術(shù)5.1海量數(shù)據(jù)存儲(chǔ)技術(shù)名稱節(jié)點(diǎn)作為中心服務(wù)器,負(fù)責(zé)管理文件系統(tǒng)的命名空間(Namespace)及客戶端對(duì)文件的訪問(wèn),保存了兩個(gè)核心的數(shù)據(jù)結(jié)構(gòu),即FsImage和EditLog。FsImage用于維護(hù)文件系統(tǒng)樹(shù)以及文件樹(shù)中所有的文件和文件夾的元數(shù)據(jù),操作日志文件EditLog中記錄了所有針對(duì)文件的創(chuàng)建、刪除、重命名等操作。數(shù)據(jù)節(jié)點(diǎn)一般是一個(gè)節(jié)點(diǎn)運(yùn)行一個(gè)數(shù)據(jù)節(jié)點(diǎn)進(jìn)程,負(fù)責(zé)處理文件系統(tǒng)客戶端的讀/寫(xiě)請(qǐng)求,在名稱節(jié)點(diǎn)的統(tǒng)一調(diào)度下進(jìn)行數(shù)據(jù)塊的創(chuàng)建、
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 【講練通】2021版高中歷史岳麓版必修1-單元質(zhì)量評(píng)估(三)
- 六年級(jí)上冊(cè)數(shù)學(xué)教研組工作計(jì)劃范文評(píng)價(jià)
- 【學(xué)練考】2021-2022蘇教版化學(xué)必修1練習(xí)-專題3-從礦物到基礎(chǔ)材料
- 三年級(jí)數(shù)學(xué)(上)計(jì)算題專項(xiàng)練習(xí)附答案
- 五年級(jí)數(shù)學(xué)(小數(shù)乘除法)計(jì)算題專項(xiàng)練習(xí)及答案匯編
- 全程方略2021屆高考數(shù)學(xué)專項(xiàng)精析精煉:2014年考點(diǎn)48-隨機(jī)事件的概率、古典概型、幾何概型
- 家長(zhǎng)進(jìn)課堂小學(xué)生食品安演示教學(xué)
- 增塑劑聚酯薄膜行業(yè)分析
- 2018-2019學(xué)年高中生物-第三章-遺傳的分子基礎(chǔ)本章知識(shí)體系構(gòu)建課件-浙科版必修2
- (期末押題卷)期末重難點(diǎn)高頻易錯(cuò)培優(yōu)卷(試題)-2024-2025學(xué)年四年級(jí)上冊(cè)數(shù)學(xué)人教版
- 期末綜合試卷(試題)2024-2025學(xué)年人教版數(shù)學(xué)五年級(jí)上冊(cè)(含答案)
- 2024-2025學(xué)年上學(xué)期武漢小學(xué)語(yǔ)文六年級(jí)期末模擬試卷
- 《爭(zhēng)做文明班級(jí)》課件
- 遼寧省大連市沙河口區(qū)2022-2023學(xué)年八年級(jí)上學(xué)期物理期末試卷(含答案)
- 2024年新能源汽車概論考試題庫(kù)
- 2024年醫(yī)師定期考核臨床類人文醫(yī)學(xué)知識(shí)考試題庫(kù)及答案(共280題)
- 江蘇省南通市2024屆高三上學(xué)期第一次調(diào)研測(cè)試(一模)生物 含答案
- 2024年公司年終工作會(huì)議講話稿(4篇)
- 2024年四川省內(nèi)江市中考?xì)v史試卷
- 2024員工心理健康培訓(xùn)
- 國(guó)網(wǎng)安全責(zé)任清單培訓(xùn)
評(píng)論
0/150
提交評(píng)論