版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
大數(shù)據(jù)開發(fā)工程師的工作經(jīng)驗總結(jié)大數(shù)據(jù)開發(fā),有幾個階段:1.數(shù)據(jù)采集【原始數(shù)據(jù)】2.數(shù)據(jù)匯聚【經(jīng)過清洗合并的可用數(shù)據(jù)】3.數(shù)據(jù)轉(zhuǎn)換和映射【經(jīng)過分類,提取的專項主題數(shù)據(jù)】4.數(shù)據(jù)應(yīng)用【提供api智能系統(tǒng)應(yīng)用系統(tǒng)等】數(shù)據(jù)采集
數(shù)據(jù)采集有線上和線下兩種方式,線上一般通過爬蟲、通過抓取,或者通過已有應(yīng)用系統(tǒng)的采集,在這個階段,我們可以做一個大數(shù)據(jù)采集平臺,依托自動爬蟲(使用python或者nodejs制作爬蟲軟件),ETL工具、或者自定義的抽取轉(zhuǎn)換引擎,從文件中、數(shù)據(jù)庫中、網(wǎng)頁中專項爬取數(shù)據(jù),如果這一步通過自動化系統(tǒng)來做的話,可以很方便的管理所有的原始數(shù)據(jù),并且從數(shù)據(jù)的開始對數(shù)據(jù)進行標簽采集,可以規(guī)范開發(fā)人員的工作。并且目標數(shù)據(jù)源可以更方便的管理。數(shù)據(jù)采集的難點在于多數(shù)據(jù)源,例如mysql、postgresql、sqlserver、mongodb、sqllite。還有本地文件、excel統(tǒng)計文檔、甚至是doc文件。如何將他們規(guī)整的、有方案的整理進我們的大數(shù)據(jù)流程中也是必不可缺的一環(huán)。數(shù)據(jù)匯聚
數(shù)據(jù)的匯聚是大數(shù)據(jù)流程最關(guān)鍵的一步,你可以在這里加上數(shù)據(jù)標準化,你也可以在這里做數(shù)據(jù)清洗,數(shù)據(jù)合并,還可以在這一步將數(shù)據(jù)存檔,將確認可用的數(shù)據(jù)經(jīng)過可監(jiān)控的流程進行整理歸類,這里產(chǎn)出的所有數(shù)據(jù)就是整個公司的數(shù)據(jù)資產(chǎn)了,到了一定的量就是一筆固定資產(chǎn)。數(shù)據(jù)匯聚的難點在于如何標準化數(shù)據(jù),例如表名標準化,表的標簽分類,表的用途,數(shù)據(jù)的量,是否有數(shù)據(jù)增量?數(shù)據(jù)是否可用?需要在業(yè)務(wù)上下很大的功夫,必要時還要引入智能化處理,例如根據(jù)內(nèi)容訓練結(jié)果自動打標簽,自動分配推薦表名、表字段名等。還有如何從原始數(shù)據(jù)中導(dǎo)入數(shù)據(jù)等。數(shù)據(jù)轉(zhuǎn)換和映射
經(jīng)過數(shù)據(jù)匯聚的數(shù)據(jù)資產(chǎn)如何提供給具體的使用方使用?在這一步,主要就是考慮數(shù)據(jù)如何應(yīng)用,如何將兩個?三個?數(shù)據(jù)表轉(zhuǎn)換成一張能夠提供服務(wù)的數(shù)據(jù)。然后定期更新增量。經(jīng)過前面的那幾步,在這一步難點并不太多了,如何轉(zhuǎn)換數(shù)據(jù)與如何清洗數(shù)據(jù)、標準數(shù)據(jù)無二,將兩個字段的值轉(zhuǎn)換成一個字段,或者根據(jù)多個可用表統(tǒng)計出一張圖表數(shù)據(jù)等等。數(shù)據(jù)應(yīng)用
數(shù)據(jù)的應(yīng)用方式很多,有對外的、有對內(nèi)的,如果擁有了前期的大量數(shù)據(jù)資產(chǎn),通過restfulAPI提供給用戶?或者提供流式引擎KAFKA給應(yīng)用消費?或者直接組成專題數(shù)據(jù),供自己的應(yīng)用查詢?這里對數(shù)據(jù)資產(chǎn)的要求比較高,所以前期的工作做好了,這里的自由度很高??偨Y(jié):大數(shù)據(jù)開發(fā)的難點
大數(shù)據(jù)開發(fā)的難點主要是監(jiān)控,怎么樣規(guī)劃開發(fā)人員的工作?開發(fā)人員隨隨便便采集了一堆垃圾數(shù)據(jù),并且直連數(shù)據(jù)庫。短期來看,這些問題比較小,可以矯正。但是在資產(chǎn)的量不斷增加的時候,這就是一顆定時炸彈,隨時會引爆,然后引發(fā)一系列對數(shù)據(jù)資產(chǎn)的影響,例如數(shù)據(jù)混亂帶來的就是數(shù)據(jù)資產(chǎn)的價值下降,客戶信任度變低。如何監(jiān)控開發(fā)人員的開發(fā)流程?答案只能是自動化平臺,只有自動化平臺能夠做到讓開發(fā)人員感到舒心的同時,接受新的事務(wù),拋棄手動時代。這就是前端開發(fā)工程師在大數(shù)據(jù)行業(yè)中所占有的優(yōu)勢點,如何制作交互良好的可視化操作界面?如何將現(xiàn)有的工作流程、工作需求變成一個個的可視化操作界面?可不可以使用智能化取代一些無腦的操作?從一定意義上來說,大數(shù)據(jù)開發(fā)中,我個人認為前端開發(fā)工程師占據(jù)著更重要的位置,僅次于大數(shù)據(jù)開發(fā)工程師。至于后臺開發(fā),系統(tǒng)開發(fā)是第三位的。好的交互至關(guān)重要,如何轉(zhuǎn)換數(shù)據(jù),如何抽取數(shù)據(jù),一定程度上,都是有先人踩過的坑,例如kettle,再例如kafka,pipeline,解決方案眾多。關(guān)鍵是如何交互?怎么樣變現(xiàn)為可視化界面?這是一個重要的課題?,F(xiàn)有的各位朋友的側(cè)重點不同,認為前端的角色都是可有可無,我覺得是錯誤的,后臺的確很重要,但是后臺的解決方案多。前端實際的地位更重要,但是基本無開源的解決方案,如果不夠重視前端開發(fā),面臨的問題就是交互很爛,界面爛,體驗差,導(dǎo)致開發(fā)人員的排斥,而可視化這塊的知識點眾多,對開發(fā)人員的素質(zhì)要求更高。大數(shù)據(jù)治理大數(shù)據(jù)治理應(yīng)該貫穿整個大數(shù)據(jù)開發(fā)流程,它有扮演著重要的角色,淺略的介紹幾點:數(shù)據(jù)血緣數(shù)據(jù)質(zhì)量審查全平臺監(jiān)控?數(shù)據(jù)血緣
從數(shù)據(jù)血緣說起,數(shù)據(jù)血緣應(yīng)該是大數(shù)據(jù)治理的入口,通過一張表,能夠清晰看見它的來龍去脈,字段的拆分,清洗過程,表的流轉(zhuǎn),數(shù)據(jù)的量的變化,都應(yīng)該從數(shù)據(jù)血緣出發(fā),我個人認為,大數(shù)據(jù)治理整個的目標就是這個數(shù)據(jù)血緣,從數(shù)據(jù)血緣能夠有監(jiān)控全局的能力。數(shù)據(jù)血緣是依托于大數(shù)據(jù)開發(fā)過程的,它包圍著整個大數(shù)據(jù)開發(fā)過程,每一步開發(fā)的歷史,數(shù)據(jù)導(dǎo)入的歷史,都應(yīng)該有相應(yīng)的記錄,數(shù)據(jù)血緣在數(shù)據(jù)資產(chǎn)有一定規(guī)模時,基本必不可少。?數(shù)據(jù)質(zhì)量審查
數(shù)據(jù)開發(fā)中,每一個模型(表)創(chuàng)建的結(jié)束,都應(yīng)該有一個數(shù)據(jù)質(zhì)量審查的過程,在體系大的環(huán)境中,還應(yīng)該在關(guān)鍵步驟添加審批,例如在數(shù)據(jù)轉(zhuǎn)換和映射這一步,涉及到客戶的數(shù)據(jù)提供,應(yīng)該建立一個完善的數(shù)據(jù)質(zhì)量審查制度,幫助企業(yè)第一時間發(fā)現(xiàn)數(shù)據(jù)存在的問題,在數(shù)據(jù)發(fā)生問題時也能第一時間看到問題的所在,并從根源解決問題,而不是盲目的通過連接數(shù)據(jù)庫一遍一遍的查詢sql。?全平臺監(jiān)控
監(jiān)控呢,其實包含了很多的點,例如應(yīng)用監(jiān)控,數(shù)據(jù)監(jiān)控,預(yù)警系統(tǒng),工單系統(tǒng)等,對我們接管的每個數(shù)據(jù)源、數(shù)據(jù)表都需要做到實時監(jiān)控,一旦發(fā)生待機,或者發(fā)生停電,能夠第一時間電話或者短信通知到具體負責人,這里可以借鑒一些自動化運維平臺的經(jīng)驗的,監(jiān)控約等于運維,好的監(jiān)控提供的數(shù)據(jù)資產(chǎn)的保護也是很重要的。大數(shù)據(jù)可視化
大數(shù)據(jù)可視化不僅僅是圖表的展現(xiàn),大數(shù)據(jù)可視化不僅僅是圖表的展現(xiàn),大數(shù)據(jù)可視化不僅僅是圖表的展現(xiàn),重要的事說三遍,大數(shù)據(jù)可視化歸類的數(shù)據(jù)開發(fā)中,有一部分屬于應(yīng)用類,有一部分屬于開發(fā)類。在開發(fā)中,大數(shù)據(jù)可視化扮演的是可視化操作的角色,如何通過可視化的模式建立模型?如何通過拖拉拽,或者立體操作來實現(xiàn)數(shù)據(jù)質(zhì)量的可操作性?畫兩個表格加幾個按鈕實現(xiàn)復(fù)雜的操作流程是不現(xiàn)實的。在可視化應(yīng)用中,更多的也有如何轉(zhuǎn)換數(shù)據(jù),如何展示數(shù)據(jù),圖表是其中的一部分,平時更多的工作還是對數(shù)據(jù)的分析,怎么樣更直觀的表達數(shù)據(jù)?這需要對數(shù)據(jù)有深刻的理解,對業(yè)務(wù)有深刻的理解,才能做出合適的可視化應(yīng)用。智能的可視化平臺
可視化是可以被再可視化的,例如superset,通過操作sql實現(xiàn)圖表,有一些產(chǎn)品甚至能做到根據(jù)數(shù)據(jù)的內(nèi)容智能分類,推薦圖表類型,實時的進行可視化開發(fā),這樣的功能才是可視化現(xiàn)有的發(fā)展方向,我們需要大量的可
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 刷投資建設(shè)項目可行性分析報告
- 2025用工合同協(xié)議書范文
- 2024年度鐵藝圍墻安全檢測與評估合同3篇
- 文本操控中的語義理解技術(shù)-洞察分析
- 2024年水泥行業(yè)綠色供應(yīng)鏈金融服務(wù)合同3篇
- 2024年度科技企業(yè)抵押借款合同正本規(guī)范2篇
- 現(xiàn)代工藝拓展課程設(shè)計
- 醫(yī)療設(shè)備維修與維護技術(shù)-洞察分析
- 網(wǎng)絡(luò)虛擬化-洞察分析
- 2024年度房產(chǎn)交易中第三方擔保人責任明確合同3篇
- 2024年醫(yī)院消毒隔離制度范文(六篇)
- 2024年資格考試-機動車檢測維修工程師考試近5年真題附答案
- 大學生法律基礎(chǔ)學習通超星期末考試答案章節(jié)答案2024年
- 2024年大學試題(文學)-外國文學考試近5年真題集錦(頻考類試題)帶答案
- 2024-2025學年三年級上冊數(shù)學蘇教版學考名師卷期末數(shù)學試卷
- 三級人工智能訓練師(高級)職業(yè)技能等級認定考試題及答案
- 2024年新教材七年級語文上冊古詩文默寫(共100題含答案)
- 2024-2030年中國工業(yè)母機行業(yè)市場發(fā)展分析及發(fā)展前景與投資研究報告
- 城市燃氣供應(yīng)和儲備站項目可行性研究報告模板-立項備案
- 浙江省杭州市學軍中學2025屆高三最后一模物理試題含解析
- 四川省成都市錦江區(qū)嘉祥外國語學校2024-2025學年九年級上學期入試考試數(shù)學試題
評論
0/150
提交評論