




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 數(shù)據(jù)挖掘在鑄造企業(yè)的應(yīng)用研究 楊軍摘要:在數(shù)字時(shí)代的大背景下,越來(lái)越多的企業(yè)轉(zhuǎn)型成為數(shù)字大師,使用數(shù)據(jù)來(lái)指導(dǎo)整個(gè)企業(yè)的生產(chǎn)發(fā)展、管理決策。而數(shù)據(jù)挖掘技術(shù)無(wú)疑是現(xiàn)代企業(yè)乘風(fēng)波浪的一把利器,它能抽絲剝繭地透過(guò)現(xiàn)象,看清商業(yè)的本質(zhì),為企業(yè)決策提供強(qiáng)有力的科學(xué)依據(jù)。本文針對(duì)數(shù)據(jù)挖掘的實(shí)現(xiàn)進(jìn)行了研究,對(duì)這項(xiàng)技術(shù)在企業(yè)相關(guān)應(yīng)用做了指導(dǎo),在企業(yè)數(shù)據(jù)分析層面上有一定的借鑒意義。abstract: in the background of digital era, more and more enterprises become digital master
2、, using data to guide the entire enterprise production development, management decisions. data mining technology is a tool for modern enterprise development, it can see the nature of the business through the phenomenon, and provide a strong scientific basis for the decision-making of the enterprise.
3、 in this paper, the implementation of data mining is studied, the technology application in the enterprise is guided, which in has a certain reference significance for the enterprise data analysis.關(guān)鍵詞:數(shù)據(jù)挖掘;特征;鑄造企業(yè);應(yīng)用key words: data mining;feature;casting enterprise;application:f721 :a :1006-4311(201
4、7)35-0209-020 引言現(xiàn)在數(shù)字技術(shù)已經(jīng)不是蘋果、谷歌等科技公司的專享技能,在當(dāng)今數(shù)字技術(shù)時(shí)代,傳統(tǒng)行業(yè)與數(shù)字技術(shù)結(jié)合,應(yīng)用數(shù)字技術(shù),挖掘數(shù)據(jù)價(jià)值才是大勢(shì)所趨。成熟靈活地使用數(shù)字技術(shù),改變并極大地拓寬公司的戰(zhàn)略選擇,所以企業(yè)需要不斷利用自己在行業(yè)方面的數(shù)據(jù),結(jié)合現(xiàn)在的數(shù)字技術(shù),建立一個(gè)企業(yè)大師系統(tǒng),為企業(yè)領(lǐng)導(dǎo)層提供戰(zhàn)略指導(dǎo)數(shù)據(jù)依據(jù)。在數(shù)據(jù)利用方面,大部分企業(yè)都遵循了“整合數(shù)據(jù)-分析數(shù)據(jù)-挖掘數(shù)據(jù)-指導(dǎo)決策”的思路?,F(xiàn)在大部分企業(yè)更多的認(rèn)識(shí)是在數(shù)據(jù)整合這個(gè)層面,通過(guò)數(shù)據(jù)總線、數(shù)據(jù)治理機(jī)制等是可以將企業(yè)的數(shù)據(jù)進(jìn)行合理化地治理、匯總。分析數(shù)據(jù)和挖掘數(shù)據(jù)層面就需要更多的專業(yè)人士進(jìn)行統(tǒng)一建模和分
5、析,才能得到合理、正確的戰(zhàn)略決策。這時(shí)候數(shù)據(jù)分析、數(shù)據(jù)挖掘顯得更加重要。data mining,中文名稱叫做數(shù)據(jù)挖掘。這兩年伴隨著大數(shù)據(jù)一詞也紅得發(fā)紫。數(shù)據(jù)挖掘人才也成為各大公司爭(zhēng)搶的重要角色。數(shù)據(jù)挖掘一般分為兩類,一種是預(yù)測(cè)性,通過(guò)分類、回歸的算法將數(shù)據(jù)的預(yù)測(cè)性展示出來(lái)。另一種則是描述性的數(shù)據(jù)分析,主要方法有聚類、關(guān)聯(lián)規(guī)則挖掘、時(shí)間序列分析等。有了大量的數(shù)據(jù)為基礎(chǔ),再根據(jù)我們的目標(biāo)決策,這時(shí)候就需要選擇不同的數(shù)據(jù)分析方法,就可以達(dá)到要實(shí)現(xiàn)的目標(biāo)。在實(shí)際使用中,又要根據(jù)實(shí)際的情況使用一種或多種工具進(jìn)行分析。1 數(shù)據(jù)挖掘在企業(yè)應(yīng)用的步驟1.1 明確問(wèn)題在數(shù)據(jù)挖掘中,需要碰到不同的問(wèn)題采用不同的方
6、法,有時(shí)候如果選錯(cuò)了方法,就如同緣木求魚。明確問(wèn)題就顯得非常重要。明確問(wèn)題的方法主要是圍繞以下幾個(gè)問(wèn)題開展的:首先明確問(wèn)題屬于哪種常見的類型,是分類還是聚合?所要解決的問(wèn)題是屬于哪個(gè)類型,這個(gè)涉及到解決問(wèn)題的方法、后期分析數(shù)據(jù)采用的工具。如果想要做預(yù)測(cè)性的問(wèn)題,一般需要采用分類。同樣數(shù)據(jù)分析方面,劃歸到聚類方法。所挑選的數(shù)據(jù)集合是否夠大,足夠支撐我們的分析?,F(xiàn)在數(shù)據(jù)挖掘技術(shù)都是針對(duì)大樣本量的。包括現(xiàn)在經(jīng)常使用的樸素貝葉斯算法等使用的模型都比較簡(jiǎn)單,學(xué)習(xí)效率高,在大樣本量下會(huì)有很好的表現(xiàn),當(dāng)數(shù)據(jù)集合較小的時(shí)候誤差就會(huì)變得很大,精度也會(huì)達(dá)不到要求。我們所使用的數(shù)據(jù)是否滿足設(shè)置的問(wèn)題。這是對(duì)數(shù)據(jù)源進(jìn)
7、行的驗(yàn)證,數(shù)據(jù)源的信息是否可以通過(guò)分析得到所需要的結(jié)果。一般會(huì)對(duì)數(shù)據(jù)的分布情況、數(shù)據(jù)維度等方面進(jìn)行校驗(yàn)。最后得出結(jié)論。經(jīng)過(guò)以上的思考,就可以確定整個(gè)分析方案需要達(dá)到的目標(biāo)和后續(xù)將使用的大致技術(shù),將會(huì)得到企業(yè)大師系統(tǒng)構(gòu)建的藍(lán)圖。1.2 對(duì)得到的數(shù)據(jù)進(jìn)行預(yù)處理這里就是對(duì)得到的數(shù)據(jù)進(jìn)行一個(gè)簡(jiǎn)單篩選。大致分為數(shù)據(jù)集成,刪除數(shù)據(jù)冗余、數(shù)據(jù)沖突,數(shù)據(jù)采樣,數(shù)據(jù)清洗、缺省值處理及噪聲處理。其中數(shù)據(jù)采樣取決于我們研究的問(wèn)題、數(shù)學(xué)模型的處理能力和樣本量的大小。這是需要額外關(guān)注的地方。在預(yù)處理階段要根據(jù)自身使用平臺(tái)的性能等問(wèn)題,選取一個(gè)大小合適的采樣樣本,之后將數(shù)據(jù)中的異常值進(jìn)行過(guò)濾,保留對(duì)我們的目標(biāo)影響最大的幾
8、個(gè)因子。這一部分在企業(yè)大師系統(tǒng)的架構(gòu)中,可以結(jié)合數(shù)據(jù)總線等應(yīng)用進(jìn)行。對(duì)企業(yè)資源管理系統(tǒng)中的數(shù)據(jù)進(jìn)行篩選,將系統(tǒng)數(shù)據(jù)中具有不完整、無(wú)效的數(shù)據(jù)進(jìn)行清理,保留對(duì)整個(gè)結(jié)果最有用的影響因子,再進(jìn)行建模。這點(diǎn)也是符合六西格瑪管理方法的。1.3 特征工程這個(gè)階段將最大限度地從原始數(shù)據(jù)中提取特征以供算法和模型使用,簡(jiǎn)而言之,就是對(duì)需要解決問(wèn)題的核心因子的幾個(gè)有用屬性進(jìn)行提取選擇和構(gòu)造。這里通過(guò)將在上一階段中獲取的重要影響因子轉(zhuǎn)化為特征,更好表示預(yù)測(cè)模型處理的實(shí)際問(wèn)題,提升對(duì)于未知數(shù)據(jù)的準(zhǔn)確性。特征是一個(gè)或者一組對(duì)象的客觀特性的抽象結(jié)果,比如顏色就可以認(rèn)為是物體的一個(gè)特征。在處理文本的時(shí)候,需要對(duì)文本進(jìn)行處理,
9、通常使用的步驟是:網(wǎng)頁(yè)、分詞、去停用詞、向量化。這樣就可以將一個(gè)文本轉(zhuǎn)化成數(shù)據(jù)表單。從而符合所要構(gòu)建的數(shù)據(jù)模型。endprint業(yè)界流傳著一句話,數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,而模型和算法只是逼近這個(gè)上限而已。足見這部分的重要程度。1.4 數(shù)學(xué)模型建立數(shù)學(xué)模型。就是針對(duì)參照某種事物系統(tǒng)的特征或數(shù)量依存關(guān)系,采用數(shù)學(xué)語(yǔ)言,概括地或近似地表述出一種數(shù)學(xué)結(jié)構(gòu)。而這個(gè)數(shù)學(xué)結(jié)構(gòu)關(guān)系,反映了特定問(wèn)題或者特定事物的狀態(tài)。在建立數(shù)學(xué)模型過(guò)程中,需要考慮訓(xùn)練集大小,特征維度、問(wèn)題線性可分、特征之間關(guān)系等問(wèn)題。再加上常用的邏輯回歸算法、ensemble方法等屬于比較專業(yè)的領(lǐng)域。邏輯回歸算法主要用在尋找危險(xiǎn)因素、
10、預(yù)測(cè)、判別等方面。這些優(yōu)秀的數(shù)學(xué)模型需要相關(guān)更為專業(yè)的分析人員來(lái)建立。1.5 數(shù)據(jù)訓(xùn)練數(shù)據(jù)訓(xùn)練。經(jīng)過(guò)特征工程后,選擇合適的模型進(jìn)行訓(xùn)練,根據(jù)評(píng)價(jià)標(biāo)準(zhǔn)選擇最優(yōu)的模型和參數(shù),就可以對(duì)未知的數(shù)據(jù)進(jìn)行預(yù)測(cè),產(chǎn)出結(jié)果。這里面選取要滿足模型性能,所擁有的輸入特征、訓(xùn)練數(shù)據(jù)中噪聲、提取特征中的噪聲以及模型的復(fù)雜程度等因素。再找出變量之間相互關(guān)系的方法就是在不同數(shù)據(jù)量的訓(xùn)練數(shù)據(jù)上訓(xùn)練模型并繪制學(xué)習(xí)曲線。這個(gè)過(guò)程并沒有精確的“正確”答案。處理相關(guān)問(wèn)題,可以先生成很多邏輯回歸問(wèn)題,然后對(duì)生成的每一個(gè)問(wèn)題,研究訓(xùn)練數(shù)據(jù)的數(shù)量與訓(xùn)練模型的性能之間的關(guān)系。最后通過(guò)觀察這一系列問(wèn)題上的關(guān)系總結(jié)得出一個(gè)簡(jiǎn)單的規(guī)則。當(dāng)然這個(gè)
11、過(guò)程需要專業(yè)人員進(jìn)行分析和研究。1.6 網(wǎng)站行為中的應(yīng)用對(duì)于開發(fā)系統(tǒng)中使用用戶的行為分析。最常見的就是用戶畫像。對(duì)于網(wǎng)站運(yùn)維人員他需要了解使用該系統(tǒng)的人群是什么樣的,他才能對(duì)網(wǎng)站更好的維護(hù),或者下一版的改版。此處我們以購(gòu)物網(wǎng)站為例,這里已經(jīng)很明確要了解整個(gè)用戶的受眾群體。首先需要收集用戶的登陸時(shí)間、在系統(tǒng)中查看的商品、活躍時(shí)間等數(shù)據(jù),盡可能的全面。在眾多繁蕪叢雜的數(shù)據(jù)中保留這次分析需要的數(shù)據(jù),比如查看的商品和活躍時(shí)間。再對(duì)用戶進(jìn)行分析,提取特征,比如男人關(guān)注什么,女人關(guān)注什么,老人關(guān)注什么等等,每個(gè)群體的登陸時(shí)間也會(huì)略有不同。這時(shí)候我們根據(jù)這些特征,進(jìn)行建立數(shù)據(jù)模型,就是那些行為可以讓我們認(rèn)定
12、這個(gè)人是什么年齡段的。建立完成模型,通過(guò)大量的數(shù)據(jù)驗(yàn)證這些,我們就可以得到一張用戶畫像,比如80%的用戶是年輕的女性,她們喜歡晚上上網(wǎng),經(jīng)常購(gòu)買的是口紅之類的物品。這樣就得到了一張完整的用戶畫像。當(dāng)然在實(shí)際企業(yè)應(yīng)用中,比這個(gè)例子更復(fù)雜,需要更多的專業(yè)人士的輔助。1.7 生產(chǎn)過(guò)程中的簡(jiǎn)單應(yīng)用在鑄造行業(yè)中,經(jīng)常會(huì)遇到質(zhì)量的問(wèn)題。首先,同樣需要收集鑄件生產(chǎn)過(guò)程中的所有數(shù)據(jù),比如鑄件尺寸等鑄件的信息,每道工序的操作員信息,每次工藝的工藝信息。拿到大量的信息之后,可用使用六西格瑪?shù)囊恍┓椒?,將主要?wèn)題進(jìn)行聚焦。再加上我們之前獲取到的數(shù)據(jù),就得到了一個(gè)完善的特征庫(kù)。同樣用每次生產(chǎn)的信息進(jìn)行建模,使用大數(shù)據(jù)進(jìn)行分析,通過(guò)足夠多的數(shù)據(jù)進(jìn)行訓(xùn)練模型。我們甚至可以得出在那些工序環(huán)節(jié)出錯(cuò)的概率,及時(shí)去糾正相關(guān)問(wèn)題,提高產(chǎn)品質(zhì)量。當(dāng)然這也是六西格瑪與數(shù)字化手段相結(jié)合。2 結(jié)語(yǔ)數(shù)據(jù)技術(shù)在企業(yè)生產(chǎn)、經(jīng)營(yíng)等各個(gè)方面起到了非常重要的作用,它是企業(yè)數(shù)字化系統(tǒng)的核心功能,是企業(yè)bi系統(tǒng)的重要指導(dǎo)方向,它的分析成功越來(lái)越重要。數(shù)據(jù)挖掘技術(shù)的良好應(yīng)用將可以更好的為企業(yè)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 針對(duì)蘋果種植農(nóng)戶的問(wèn)卷調(diào)查
- 雪松搬遷施工方案
- 固話地坪施工方案
- 筏板基礎(chǔ)專項(xiàng)施工方案
- 6年級(jí)下冊(cè)英語(yǔ)譯林版第二單元小課文
- 6-9歲兒童蛋白質(zhì)的標(biāo)準(zhǔn)
- 低溫下簡(jiǎn)支梁缺口沖擊強(qiáng)度
- 溫州工程拆除施工方案
- c25混凝土受凍臨界強(qiáng)度
- 地上物 苗木補(bǔ)償標(biāo)準(zhǔn)
- 《設(shè)計(jì)師工作經(jīng)歷證明范本》
- 高中生升學(xué)就業(yè)指導(dǎo)模板
- 某某市“鄉(xiāng)村振興”行動(dòng)項(xiàng)目-可行性研究報(bào)告
- 麻風(fēng)病防治知識(shí)課件
- 2024年代持法人股東協(xié)議書模板
- 學(xué)校食堂消毒記錄
- 高中音樂第二篇:《黃河大合唱》教案
- 企業(yè)天使輪融資商業(yè)方案模板
- 2024太陽(yáng)能光伏組件技術(shù)規(guī)范
- 潮汕英歌舞文化傳承與創(chuàng)新研究
- 2025年高考作文素材積累:17則熱聞(新聞+觀點(diǎn)+運(yùn)用)及人民日?qǐng)?bào)18篇時(shí)評(píng)
評(píng)論
0/150
提交評(píng)論