數(shù)據(jù)挖掘在鑄造企業(yè)的應(yīng)用研究_第1頁
數(shù)據(jù)挖掘在鑄造企業(yè)的應(yīng)用研究_第2頁
數(shù)據(jù)挖掘在鑄造企業(yè)的應(yīng)用研究_第3頁
數(shù)據(jù)挖掘在鑄造企業(yè)的應(yīng)用研究_第4頁
數(shù)據(jù)挖掘在鑄造企業(yè)的應(yīng)用研究_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、    數(shù)據(jù)挖掘在鑄造企業(yè)的應(yīng)用研究    楊軍摘要:在數(shù)字時代的大背景下,越來越多的企業(yè)轉(zhuǎn)型成為數(shù)字大師,使用數(shù)據(jù)來指導(dǎo)整個企業(yè)的生產(chǎn)發(fā)展、管理決策。而數(shù)據(jù)挖掘技術(shù)無疑是現(xiàn)代企業(yè)乘風(fēng)波浪的一把利器,它能抽絲剝繭地透過現(xiàn)象,看清商業(yè)的本質(zhì),為企業(yè)決策提供強(qiáng)有力的科學(xué)依據(jù)。本文針對數(shù)據(jù)挖掘的實現(xiàn)進(jìn)行了研究,對這項技術(shù)在企業(yè)相關(guān)應(yīng)用做了指導(dǎo),在企業(yè)數(shù)據(jù)分析層面上有一定的借鑒意義。abstract: in the background of digital era, more and more enterprises become digital master

2、, using data to guide the entire enterprise production development, management decisions. data mining technology is a tool for modern enterprise development, it can see the nature of the business through the phenomenon, and provide a strong scientific basis for the decision-making of the enterprise.

3、 in this paper, the implementation of data mining is studied, the technology application in the enterprise is guided, which in has a certain reference significance for the enterprise data analysis.關(guān)鍵詞:數(shù)據(jù)挖掘;特征;鑄造企業(yè);應(yīng)用key words: data mining;feature;casting enterprise;application:f721 :a :1006-4311(201

4、7)35-0209-020 引言現(xiàn)在數(shù)字技術(shù)已經(jīng)不是蘋果、谷歌等科技公司的專享技能,在當(dāng)今數(shù)字技術(shù)時代,傳統(tǒng)行業(yè)與數(shù)字技術(shù)結(jié)合,應(yīng)用數(shù)字技術(shù),挖掘數(shù)據(jù)價值才是大勢所趨。成熟靈活地使用數(shù)字技術(shù),改變并極大地拓寬公司的戰(zhàn)略選擇,所以企業(yè)需要不斷利用自己在行業(yè)方面的數(shù)據(jù),結(jié)合現(xiàn)在的數(shù)字技術(shù),建立一個企業(yè)大師系統(tǒng),為企業(yè)領(lǐng)導(dǎo)層提供戰(zhàn)略指導(dǎo)數(shù)據(jù)依據(jù)。在數(shù)據(jù)利用方面,大部分企業(yè)都遵循了“整合數(shù)據(jù)-分析數(shù)據(jù)-挖掘數(shù)據(jù)-指導(dǎo)決策”的思路?,F(xiàn)在大部分企業(yè)更多的認(rèn)識是在數(shù)據(jù)整合這個層面,通過數(shù)據(jù)總線、數(shù)據(jù)治理機(jī)制等是可以將企業(yè)的數(shù)據(jù)進(jìn)行合理化地治理、匯總。分析數(shù)據(jù)和挖掘數(shù)據(jù)層面就需要更多的專業(yè)人士進(jìn)行統(tǒng)一建模和分

5、析,才能得到合理、正確的戰(zhàn)略決策。這時候數(shù)據(jù)分析、數(shù)據(jù)挖掘顯得更加重要。data mining,中文名稱叫做數(shù)據(jù)挖掘。這兩年伴隨著大數(shù)據(jù)一詞也紅得發(fā)紫。數(shù)據(jù)挖掘人才也成為各大公司爭搶的重要角色。數(shù)據(jù)挖掘一般分為兩類,一種是預(yù)測性,通過分類、回歸的算法將數(shù)據(jù)的預(yù)測性展示出來。另一種則是描述性的數(shù)據(jù)分析,主要方法有聚類、關(guān)聯(lián)規(guī)則挖掘、時間序列分析等。有了大量的數(shù)據(jù)為基礎(chǔ),再根據(jù)我們的目標(biāo)決策,這時候就需要選擇不同的數(shù)據(jù)分析方法,就可以達(dá)到要實現(xiàn)的目標(biāo)。在實際使用中,又要根據(jù)實際的情況使用一種或多種工具進(jìn)行分析。1 數(shù)據(jù)挖掘在企業(yè)應(yīng)用的步驟1.1 明確問題在數(shù)據(jù)挖掘中,需要碰到不同的問題采用不同的方

6、法,有時候如果選錯了方法,就如同緣木求魚。明確問題就顯得非常重要。明確問題的方法主要是圍繞以下幾個問題開展的:首先明確問題屬于哪種常見的類型,是分類還是聚合?所要解決的問題是屬于哪個類型,這個涉及到解決問題的方法、后期分析數(shù)據(jù)采用的工具。如果想要做預(yù)測性的問題,一般需要采用分類。同樣數(shù)據(jù)分析方面,劃歸到聚類方法。所挑選的數(shù)據(jù)集合是否夠大,足夠支撐我們的分析?,F(xiàn)在數(shù)據(jù)挖掘技術(shù)都是針對大樣本量的。包括現(xiàn)在經(jīng)常使用的樸素貝葉斯算法等使用的模型都比較簡單,學(xué)習(xí)效率高,在大樣本量下會有很好的表現(xiàn),當(dāng)數(shù)據(jù)集合較小的時候誤差就會變得很大,精度也會達(dá)不到要求。我們所使用的數(shù)據(jù)是否滿足設(shè)置的問題。這是對數(shù)據(jù)源進(jìn)

7、行的驗證,數(shù)據(jù)源的信息是否可以通過分析得到所需要的結(jié)果。一般會對數(shù)據(jù)的分布情況、數(shù)據(jù)維度等方面進(jìn)行校驗。最后得出結(jié)論。經(jīng)過以上的思考,就可以確定整個分析方案需要達(dá)到的目標(biāo)和后續(xù)將使用的大致技術(shù),將會得到企業(yè)大師系統(tǒng)構(gòu)建的藍(lán)圖。1.2 對得到的數(shù)據(jù)進(jìn)行預(yù)處理這里就是對得到的數(shù)據(jù)進(jìn)行一個簡單篩選。大致分為數(shù)據(jù)集成,刪除數(shù)據(jù)冗余、數(shù)據(jù)沖突,數(shù)據(jù)采樣,數(shù)據(jù)清洗、缺省值處理及噪聲處理。其中數(shù)據(jù)采樣取決于我們研究的問題、數(shù)學(xué)模型的處理能力和樣本量的大小。這是需要額外關(guān)注的地方。在預(yù)處理階段要根據(jù)自身使用平臺的性能等問題,選取一個大小合適的采樣樣本,之后將數(shù)據(jù)中的異常值進(jìn)行過濾,保留對我們的目標(biāo)影響最大的幾

8、個因子。這一部分在企業(yè)大師系統(tǒng)的架構(gòu)中,可以結(jié)合數(shù)據(jù)總線等應(yīng)用進(jìn)行。對企業(yè)資源管理系統(tǒng)中的數(shù)據(jù)進(jìn)行篩選,將系統(tǒng)數(shù)據(jù)中具有不完整、無效的數(shù)據(jù)進(jìn)行清理,保留對整個結(jié)果最有用的影響因子,再進(jìn)行建模。這點也是符合六西格瑪管理方法的。1.3 特征工程這個階段將最大限度地從原始數(shù)據(jù)中提取特征以供算法和模型使用,簡而言之,就是對需要解決問題的核心因子的幾個有用屬性進(jìn)行提取選擇和構(gòu)造。這里通過將在上一階段中獲取的重要影響因子轉(zhuǎn)化為特征,更好表示預(yù)測模型處理的實際問題,提升對于未知數(shù)據(jù)的準(zhǔn)確性。特征是一個或者一組對象的客觀特性的抽象結(jié)果,比如顏色就可以認(rèn)為是物體的一個特征。在處理文本的時候,需要對文本進(jìn)行處理,

9、通常使用的步驟是:網(wǎng)頁、分詞、去停用詞、向量化。這樣就可以將一個文本轉(zhuǎn)化成數(shù)據(jù)表單。從而符合所要構(gòu)建的數(shù)據(jù)模型。endprint業(yè)界流傳著一句話,數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,而模型和算法只是逼近這個上限而已。足見這部分的重要程度。1.4 數(shù)學(xué)模型建立數(shù)學(xué)模型。就是針對參照某種事物系統(tǒng)的特征或數(shù)量依存關(guān)系,采用數(shù)學(xué)語言,概括地或近似地表述出一種數(shù)學(xué)結(jié)構(gòu)。而這個數(shù)學(xué)結(jié)構(gòu)關(guān)系,反映了特定問題或者特定事物的狀態(tài)。在建立數(shù)學(xué)模型過程中,需要考慮訓(xùn)練集大小,特征維度、問題線性可分、特征之間關(guān)系等問題。再加上常用的邏輯回歸算法、ensemble方法等屬于比較專業(yè)的領(lǐng)域。邏輯回歸算法主要用在尋找危險因素、

10、預(yù)測、判別等方面。這些優(yōu)秀的數(shù)學(xué)模型需要相關(guān)更為專業(yè)的分析人員來建立。1.5 數(shù)據(jù)訓(xùn)練數(shù)據(jù)訓(xùn)練。經(jīng)過特征工程后,選擇合適的模型進(jìn)行訓(xùn)練,根據(jù)評價標(biāo)準(zhǔn)選擇最優(yōu)的模型和參數(shù),就可以對未知的數(shù)據(jù)進(jìn)行預(yù)測,產(chǎn)出結(jié)果。這里面選取要滿足模型性能,所擁有的輸入特征、訓(xùn)練數(shù)據(jù)中噪聲、提取特征中的噪聲以及模型的復(fù)雜程度等因素。再找出變量之間相互關(guān)系的方法就是在不同數(shù)據(jù)量的訓(xùn)練數(shù)據(jù)上訓(xùn)練模型并繪制學(xué)習(xí)曲線。這個過程并沒有精確的“正確”答案。處理相關(guān)問題,可以先生成很多邏輯回歸問題,然后對生成的每一個問題,研究訓(xùn)練數(shù)據(jù)的數(shù)量與訓(xùn)練模型的性能之間的關(guān)系。最后通過觀察這一系列問題上的關(guān)系總結(jié)得出一個簡單的規(guī)則。當(dāng)然這個

11、過程需要專業(yè)人員進(jìn)行分析和研究。1.6 網(wǎng)站行為中的應(yīng)用對于開發(fā)系統(tǒng)中使用用戶的行為分析。最常見的就是用戶畫像。對于網(wǎng)站運維人員他需要了解使用該系統(tǒng)的人群是什么樣的,他才能對網(wǎng)站更好的維護(hù),或者下一版的改版。此處我們以購物網(wǎng)站為例,這里已經(jīng)很明確要了解整個用戶的受眾群體。首先需要收集用戶的登陸時間、在系統(tǒng)中查看的商品、活躍時間等數(shù)據(jù),盡可能的全面。在眾多繁蕪叢雜的數(shù)據(jù)中保留這次分析需要的數(shù)據(jù),比如查看的商品和活躍時間。再對用戶進(jìn)行分析,提取特征,比如男人關(guān)注什么,女人關(guān)注什么,老人關(guān)注什么等等,每個群體的登陸時間也會略有不同。這時候我們根據(jù)這些特征,進(jìn)行建立數(shù)據(jù)模型,就是那些行為可以讓我們認(rèn)定

12、這個人是什么年齡段的。建立完成模型,通過大量的數(shù)據(jù)驗證這些,我們就可以得到一張用戶畫像,比如80%的用戶是年輕的女性,她們喜歡晚上上網(wǎng),經(jīng)常購買的是口紅之類的物品。這樣就得到了一張完整的用戶畫像。當(dāng)然在實際企業(yè)應(yīng)用中,比這個例子更復(fù)雜,需要更多的專業(yè)人士的輔助。1.7 生產(chǎn)過程中的簡單應(yīng)用在鑄造行業(yè)中,經(jīng)常會遇到質(zhì)量的問題。首先,同樣需要收集鑄件生產(chǎn)過程中的所有數(shù)據(jù),比如鑄件尺寸等鑄件的信息,每道工序的操作員信息,每次工藝的工藝信息。拿到大量的信息之后,可用使用六西格瑪?shù)囊恍┓椒?,將主要問題進(jìn)行聚焦。再加上我們之前獲取到的數(shù)據(jù),就得到了一個完善的特征庫。同樣用每次生產(chǎn)的信息進(jìn)行建模,使用大數(shù)據(jù)進(jìn)行分析,通過足夠多的數(shù)據(jù)進(jìn)行訓(xùn)練模型。我們甚至可以得出在那些工序環(huán)節(jié)出錯的概率,及時去糾正相關(guān)問題,提高產(chǎn)品質(zhì)量。當(dāng)然這也是六西格瑪與數(shù)字化手段相結(jié)合。2 結(jié)語數(shù)據(jù)技術(shù)在企業(yè)生產(chǎn)、經(jīng)營等各個方面起到了非常重要的作用,它是企業(yè)數(shù)字化系統(tǒng)的核心功能,是企業(yè)bi系統(tǒng)的重要指導(dǎo)方向,它的分析成功越來越重要。數(shù)據(jù)挖掘技術(shù)的良好應(yīng)用將可以更好的為企業(yè)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論