版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
攜程大數(shù)據(jù)平臺(tái)實(shí)踐Pus張翼我介紹6龍OPS/IT/CC超過10年的互聯(lián)網(wǎng)從業(yè)經(jīng)驗(yàn),超過7年的數(shù)據(jù)系統(tǒng)相關(guān)的經(jīng)驗(yàn)浙江大學(xué):本科&研究生Ebay:軟件開發(fā)工程師大眾點(diǎn)評(píng):資深軟件開發(fā)工程師-〉技術(shù)經(jīng)理攜程:大數(shù)據(jù)平臺(tái)技術(shù)總監(jiān)提綱6龍OPS/IT/CC挑戰(zhàn)和未來、大數(shù)據(jù)平臺(tái)現(xiàn)狀Pus平臺(tái)規(guī)模6龍OPS/IT/CC主集群規(guī)模180->1100+臺(tái)X6數(shù)據(jù)增量(每天)250T數(shù)據(jù)表數(shù)量正式表60000+調(diào)度任務(wù)數(shù)(每天)50000+運(yùn)行實(shí)例120000+底層任務(wù)數(shù)(每天)310000+2017z\實(shí)時(shí)集群規(guī)模100+實(shí)時(shí)作業(yè)數(shù)290+Jstorm~40+Spark-streaming2015平臺(tái)架構(gòu)6龍OPS/IT/CC開發(fā)平臺(tái)Zeus調(diào)度主數(shù)據(jù)傳輸數(shù)據(jù)質(zhì)量查詢平臺(tái)ART報(bào)表■/OLAP命析即時(shí)查詢機(jī)器學(xué)習(xí)算法平臺(tái)基于Spark圖形化AI平臺(tái)GPU云平臺(tái)實(shí)]吋數(shù)據(jù)平臺(tái)分布式存儲(chǔ)和計(jì)算框架HiveSparkPrestoHadoop實(shí)時(shí)框架______BBMHSpark.-StrearningHermes(Kafka)資源部鄙運(yùn)雜監(jiān)控自動(dòng)運(yùn)維系統(tǒng)大數(shù)據(jù)監(jiān)控系統(tǒng)團(tuán)隊(duì)規(guī)模6龍OPS/IT/CCRENSHAOSHIDUO小底層數(shù)據(jù)架構(gòu):9+1開發(fā)和查詢平臺(tái):6+1運(yùn)維數(shù)據(jù)分析:4+1*而精干日常維護(hù)支持.調(diào)研落成長的煩惱〃成長的煩惱"有什么?6龍OPS/IT/CC運(yùn)維:?系統(tǒng)規(guī)模不斷擴(kuò)大-系統(tǒng)繁多,復(fù)雜性高開源系統(tǒng)-開源是把“雙刃劍”?快速構(gòu)建起相應(yīng)的系統(tǒng)-隨著系統(tǒng)規(guī)模的增大,開源系統(tǒng)的問題不斷地暴露出來服務(wù)和支持-用戶不斷增長的“物質(zhì)文化需求”與“短小精悍”團(tuán)隊(duì)之間的矛盾?臨時(shí)的支持,問題排查工作變多運(yùn)維-應(yīng)對策略6龍OPS/IT/CC總體策略:-“自動(dòng)化”:節(jié)省運(yùn)維成本,保證環(huán)境和配置一致?運(yùn)維自動(dòng)化?初始安裝/變更-覆蓋范圍盡可能全(特別是客戶端)?監(jiān)控+失敗的自動(dòng)回復(fù)?確定的,風(fēng)險(xiǎn)不大的失敗點(diǎn)(進(jìn)程監(jiān)控/ThriftServer的可用性監(jiān)控)-多次自動(dòng)回復(fù)失敗需要升級(jí)?我們的慘痛教訓(xùn):2015-09Kerberos升級(jí)開源系統(tǒng)-應(yīng)對策略6龍OPS/IT/CC思想上做好長期斗爭的準(zhǔn)備“深挖洞(加深對現(xiàn)有系統(tǒng)的理解)",“廣積糧(基礎(chǔ)知識(shí)/新系統(tǒng)調(diào)研)"總體策略:-建立“代碼級(jí)”維護(hù)能力-招聘時(shí)就要選擇對技術(shù)有濃厚興趣,能夠沉的下心來的同學(xué)-在底層團(tuán)隊(duì)通過各種層次的分享建立學(xué)習(xí),研究的氛圍-代碼學(xué)習(xí)小組?全員學(xué)習(xí),模糊職位的邊界-培養(yǎng)方向:一專多能?模糊開發(fā)和運(yùn)維的邊界NodesNOW543DMin5430Avg543DMax543.CPUSNOW15BkMin15BkAvg15BkMax15.FrocsNOW24kMin1IkAvg116kMax20.6龍OPS/IT/CCHadoop調(diào)優(yōu)是一項(xiàng)長期工程從2016年10月開始(CDH4.6->CDH5.7.1升級(jí)完成,79個(gè)commits)我們幾乎每1-2個(gè)月會(huì)遇至U1個(gè)影響集群的穩(wěn)定性/效率的問題,而且每次問題的RootCause往往并不相同實(shí)例一:RM調(diào)優(yōu)在業(yè)務(wù)高峰的4點(diǎn)-10點(diǎn),集群的使用率偏低通過YARN的主頁面我們發(fā)現(xiàn),集群的Used的Vcores只占VcoresTotal的70%-80%通過一段時(shí)間的分析,我們發(fā)現(xiàn)瓶頸在YARN的FairScheduler的效率上httDS:〃issues.aD/iira/browse/YARN-5188實(shí)例:Hodoop調(diào)優(yōu)DOOM』'npas實(shí)例:Hodoop調(diào)優(yōu)6龍OPS/IT/CC實(shí)例二:NN優(yōu)化2017-01底到2017-02初,我們發(fā)現(xiàn)在早上6-10點(diǎn),集群的利用效率有多次較大的下跌我們分析發(fā)現(xiàn),NN的RPC平均處理時(shí)間(RpcProcessingTimeAvgTime)較高解決方法:給NN減負(fù),增效HDFS-9198HDFS-7964HADOOP-12483主節(jié)點(diǎn)優(yōu)化的總結(jié)1.發(fā)現(xiàn)問題:關(guān)注集群總體的利用率;關(guān)注NN和RM的關(guān)鍵指標(biāo)(RPCProcessTime/CallQueueLength)和GC指標(biāo)2.分轎問題:分析NN和RM更加細(xì)致的指標(biāo)(GC問題的話分析GCLog);通過線索在去搜索相應(yīng)的Jira,篩選Jira,通過Jira查看和分析相關(guān)的Code3.在保證穩(wěn)定性的前提下進(jìn)行嘗試服務(wù)和支持-應(yīng)對策略6龍OPS/IT/CC總體策略:-從使用者的角度去設(shè)計(jì)產(chǎn)品,關(guān)注用戶的易用性?控制推廣的節(jié)奏?EarlyAdopter->1個(gè)BU->全面鋪開?完善文檔,常見問題FAQ-“授人以漁”:增強(qiáng)BU數(shù)據(jù)開發(fā)的工程技術(shù)能力-全員客服-短期再談穩(wěn)定性Pus平臺(tái)的穩(wěn)定性是項(xiàng)系統(tǒng)工程6龍OPS/IT/CC流程-合理的流程能夠降低人為事故發(fā)生的概率,及時(shí)發(fā)現(xiàn)問題-流程無法一簇而就,從失敗中學(xué)習(xí),舉一反三很重要?能做“灰度”的一定要做“灰度”?提升團(tuán)隊(duì)成員的責(zé)任心技術(shù)-設(shè)計(jì)盡量簡單,復(fù)雜的設(shè)計(jì)修改容易出錯(cuò)-合適的重試機(jī)制幫助很大-木桶效應(yīng):關(guān)注所有有影響的系統(tǒng)的短板實(shí)例:數(shù)據(jù)開發(fā)平臺(tái)的穩(wěn)定性提升6龍OPS/IT/CC2015年下半年,數(shù)據(jù)開發(fā)平臺(tái)幾乎每個(gè)月都會(huì)發(fā)生1次全局性延遲的大故障第1階段:-快速止損:通過發(fā)布后輪流值班的方式避免發(fā)布后的重大事故第2階段:?解決核心問題:重構(gòu)調(diào)度系統(tǒng)的核心…簡化模型第3階段:?降低維護(hù)成本:監(jiān)控+自動(dòng)化恢復(fù)策略-確定目標(biāo),不斷迭代?區(qū)分系統(tǒng)錯(cuò)誤,用戶錯(cuò)誤;確定系統(tǒng)錯(cuò)誤率0.02%的目標(biāo)(目前是0.01%)?強(qiáng)化各層的重試機(jī)制(調(diào)度系統(tǒng)/YARNAPPMaster...)-持續(xù)的監(jiān)控和優(yōu)化系統(tǒng)"走馬觀花"Pus數(shù)據(jù)開發(fā)平臺(tái)"走馬觀花〃6龍OPS/IT/CC調(diào)度和開發(fā)6龍OPS/IT/CC調(diào)度和開發(fā)6龍OPS/IT/CC調(diào)度和開發(fā)6龍OPS/IT/CC調(diào)度和開發(fā)6龍OPS/IT/CC攔我的任務(wù):=防有跡id幅稱可匹配打=替眾福之神①,M叩sapp(6813)l>MDatax2.0(6918),Mapp_analysis(8294),■dw_data_ETL(B295]國l>.報(bào)表任務(wù)文件實(shí)(12356)dw_dIm_ons_app(80628)調(diào)度和開發(fā)6龍OPS/IT/CC團(tuán)任務(wù)信息。運(yùn)行日志?小依賴關(guān)系乞上瞅賴#jobidcmrwir今日最近運(yùn)行版本t協(xié)開始時(shí)間運(yùn)行肘長1』Rligthotelpagesppageid_d(1.41783)141783igtbi1.1■0|h_etl_srcjgthotelpage_d(127423)127423igtbi201711010300127423]success[04:47:311分鐘55秒國詳倩1.1.1■?igtmvwfactpageview(127222)127222igtbi201711010300127222jsuccess[04:40:21■7分鐘9秒國詳情■區(qū)factmbpageview(205)205bimob201711010300000205]jsuccess[03:54:4345分鐘1秒國詳情.1@factrriibpvlog_hybrid(151)151bimob201711010300000151】jsuccess[03:00:0019分鐘29秒咬詳情.2@factmbpvlog_sdk(l54)154bimob201711010300000154]jsuccess[03:00:0054分鐘39秒國詳情土下游依賴#job豆)只查詢當(dāng)前owner(opsapp)idowner今日最近運(yùn)行版本狀態(tài)開始時(shí)間運(yùn)行時(shí)長務(wù)1直igthotelpagesppageid_d(141783)141783igtbi做詳情數(shù)據(jù)傳輸6龍OPS/IT/CC羔Slffi傳輸?您建dataxffi^-datax1^?管理-擴(kuò)展功能-幫助信息蚤主數(shù)據(jù)嫌數(shù)據(jù)質(zhì)量app_monitor_alert_b-沒有DataChange_LastTime索引申請?zhí)砑铀饕齛pp_monitor_alert_b-任務(wù)歹?。荼?齡名W5蝗目標(biāo)類型所有者操作JoblD存主鍵:目取敬類型:slave目庫:自動(dòng)驗(yàn)證}是醒:發(fā)現(xiàn)源表字段名和目標(biāo)表不一致,請確認(rèn)-query選項(xiàng)中select全段的順序和hive目標(biāo)表學(xué)段順序是否一致數(shù)據(jù)傳輸6龍OPS/IT/CC數(shù)據(jù)開發(fā)平臺(tái)datax2.0就爲(wèi)調(diào)度彘數(shù)梔傳輸!■■削建datax吟?datax^g?■-擴(kuò)展功能■-幫助信息皇通據(jù)-?數(shù)據(jù)質(zhì)量#建表工具%HiveR^E定任務(wù)列表(說明:從zeus系統(tǒng)創(chuàng)建的datax任務(wù),取數(shù)類型為:未知)每頁10▼^15錄JoblD:用戶:海類型i源數(shù)據(jù)庫:源表t取數(shù)類型-目標(biāo)類型$目標(biāo)庫-目標(biāo)表i創(chuàng)建日期s操作126059bidimysqlzeuszeusjobslavernysqldataqualitydbzeusjobs_priority_high2017-09-15E1DSI3Q124566bidimysqlzeuszeusjob_run_e1apsed_timeslavehivedefaultnr「iTiT「iT「nT」「i~2017-09-11E1DSI3Q124565bidimysqlzeuszeusJob_run_elapsed_timeslavehivedefaultzzzzzz2017-09-11E1DSI3Q124564bidimysqlzeuszeusjob_run_elapsedjimeslavehivedefaultaaaaa2017-09-11ElDSEll123057bidimysqldiportalplusdbhive_accountJnfoslavemysqlzeushive_account_info2017-08-31ran^isin122838bidimysqladvreviewDBbuconfigslavehivedefaultaaaa2017-08-30BQSQQ122692bidimysqlzeus_odsods_etltablogslavehivedefault1112017-08-30ran^ign118885bidimysqlzeusdatax_adminslavehivedefault1112017-08-020QB0Q117739bidimysqldiportalplusdbhive_accountJnfoslavesqlserverARThive_account_info2017-07-240DQ0Q113791bidihbase9:2181,...hive_object_privilegehivehadoopdbhive_object_privilege2017-06-220QQ0Q第1-1。條數(shù)據(jù)供122條數(shù)據(jù))前一頁||侶|后」數(shù)據(jù)傳輸6龍OPS/IT/CC連接串管理支持標(biāo)準(zhǔn)titan串的登記、支梏用戶自定義連凌串設(shè)置以保護(hù)數(shù)據(jù)庫訪問的用戶名和密碼Enter批量取數(shù)支持同一個(gè)關(guān)系數(shù)據(jù)庠多張表向hive數(shù)據(jù)庠批量生或datax取數(shù)jobEnter全文搜索支持基于任務(wù)腳本內(nèi)容的全文關(guān)謔字搜素Enter多表聯(lián)合取數(shù)支持同一個(gè)關(guān)系數(shù)據(jù)庠多張相同結(jié)構(gòu)的子表聯(lián)合取數(shù)到同一個(gè)目標(biāo)hive表中Enter多數(shù)據(jù)庠sharding取數(shù)支持多個(gè)關(guān)系數(shù)據(jù)庫sharding的相同結(jié)構(gòu)子表向hiv最據(jù)喜批量生或datax取數(shù)jobEnter主數(shù)據(jù)6龍OPS/IT/CC魏曲調(diào)度言球據(jù)?表的齢嫌數(shù)據(jù)質(zhì)量&用戶組管理%Hive帳號(hào)綁走搜索》B^-下游.HIVE▼app_analysis▼dw_a叩HIVE:app_analysisResultsfor'dw_app'歹io<嶼果鰻:I下裁IServerDB名稱i表名-生命周表的類wg函
亠期(分區(qū)型=表的描述(comment)-保留時(shí)間[天]冷表的大小安全等重段級(jí)*級(jí)U創(chuàng)建時(shí)間i操作HIVEapp_analysisdw_app_relations_內(nèi)SPRdCAT中AP咦用兩兩關(guān)系的明緬數(shù)據(jù)-165.0M-opsapp2016-12-1517:29:21QHIVEapp_analysisdw_app_relations_last_7_d內(nèi)部表CAT中AP咦用兩兩關(guān)系的明細(xì)數(shù)據(jù)最近7天的數(shù)據(jù)-1102.6M-opsapp2016-12-1611:03:02QHIVEapp_analysisdw_app_relations_l內(nèi)部表ast_monthCAT中APP相關(guān)性分忻各瓣數(shù)據(jù)表以月為單位-181.9M-opsapp2016-12-2017:46:47Q顯示第1至3確果,共3項(xiàng)首頁卜貞|秘|主數(shù)據(jù)6龍OPS/IT/CC主數(shù)據(jù)6龍OPS/IT/CCm字段信息U紋數(shù)據(jù)預(yù)覽m分區(qū)信息817圏操作歷史山使用熱度,表大小趨勢個(gè)上游血綜■下游血緣朝7天讀取次數(shù)人屋近7天寫入次數(shù)最近1個(gè)月讀取次數(shù)最近1個(gè)月寫入次數(shù)最近3個(gè)月讀取次數(shù)最近3個(gè)月寫入次數(shù)最近6個(gè)月讀取次數(shù)鼬6個(gè)月寫入次數(shù)757307301220832197171朝7天朝1個(gè)月朝3個(gè)月個(gè)月每日使用次數(shù)分析12.5107.52.502017-10-222017-10-232017-10-242017-10-252017-10-262017-10-272017-10-28時(shí)冋2017-10-28讀耽趨:10?寫入次數(shù):丨-?後取次數(shù)+寫入次數(shù)過濾器hive用戶ods_zeus.Zeus
JoeId:1925zeusJobld:1925username:you5historyld:50253483action:20171028021000192509odszeusdwvoudbods.ibutionpiechart主數(shù)據(jù)olap_6龍OPS/IT/CCods_zeusolap_zeus^Qperationolap_zeusiobdis£ributionpiechart■§dw_sbu_vadndbrtion_historyflttempdbodszeushistoryptmp_€ardrisk_readtmp_zhx_二b_runtimet?p_htlppdbt?p_hnyin_j^umonitoringoods_zeusOn^historyI__zeusolap_zeus_joto_distributiorm勉數(shù)據(jù)預(yù)覽m分區(qū)信息8i7冒捏作歷史>11使用熱度匪表大小趨勢t上游血緣■下游心數(shù)據(jù)質(zhì)量6龍OPS/IT/CCI-編融則規(guī)則名稱記錄數(shù)比對規(guī)則對象表▼ffl指標(biāo)配置指標(biāo)序號(hào)類型名稱計(jì)聳SQL描述操作1全局記誕count(l)記誕2m前3天的平均數(shù)selectround(count(*)/3,0)fromdw_ubtdl前3天的平均數(shù)3selectcount(l)from^ablenanmewhere:ptdt>:date-2and:pthour=:hour-2A気討咽分區(qū)做d咽分區(qū)。増加0?<|Page1of11>'>20▼View1-3of3曲計(jì)尊規(guī)則表達(dá)式#{A1}?=T表達(dá)式#{Tl}*0.8關(guān)閉數(shù)據(jù)質(zhì)量6龍OPS/IT/CC報(bào)表平臺(tái)"走馬觀花"6龍OPS/IT/CC報(bào)表展示首頁,,查看報(bào)表與仗表盤區(qū)儀表盤和報(bào)表::aammsf*婀和分享&用戶指南s意見反饋Q璧…I-B盹資源]I-&20170925演示II
e聲分布“C臥蠲吩布“c分布…”■有超下毋布I**不同融分布\]L
&AAA定建造年份與價(jià)幟關(guān)柔fiKingCounty房屋銷售報(bào)告一”卷TestI:£001*-?DemoiSifffde:-??&報(bào)表2。17I,…VDemo2…”HtestOIi-testO3丄.&共享妙丄=網(wǎng)站運(yùn)營中心#■?&^^bappJSSj1-0Top20國家請求鹹計(jì)!-日TopM國家醐用戶統(tǒng)計(jì)Ie匪Top20國家SSLTIM疇針(滿1-&±S3^¥^KPl\I-LM2一ART莖統(tǒng)指標(biāo)19001906191219181924193019361942194819541960196619721978198419901996200220082014?出雪平均價(jià)掐報(bào)表平臺(tái)"走馬觀花"6龍OPS/IT/CC選擇數(shù)據(jù)集并設(shè)畳報(bào)表名4數(shù)搖集名稱JDBCKingCounty房屋出售數(shù)據(jù)集▼,QQQ13目就參123地面以上房屋面積1123客廳面積。0層數(shù)123旣年份T23整體情況評(píng)分123皇否有Review123是否能看到濱水區(qū)域0.01浴室數(shù)0.01緯度舞123裝修年份123評(píng)分12S郵編醵字段:123出售價(jià)格堪度數(shù)值笄選COUNT(出售價(jià)格)■]M=[MAX(出售價(jià)格),H___________________________________________________出售價(jià)格(COUNT)。出售價(jià)枇MAX)報(bào)表平臺(tái)"走馬觀花"6龍OPS/IT/CC儀表盤組件IU1L我的報(bào)表丄420170925演示y布■布…e浴^^布y有極下m布IV不同阿對應(yīng)虞萱年份的分布L哽建造年份湖做1關(guān)羣―■Demo#4共i-&網(wǎng)站運(yùn)營中心-L-&海外app質(zhì)星|-0Top20國家請求聞?dòng)?jì)-0Top20國家漫游用戶統(tǒng)計(jì)'圈Top20國家SSLTIME統(tǒng)計(jì)(漫游_非漫游),9林s據(jù)平臼KFI-IM2ART^gQSfe…區(qū)3.Zeus系統(tǒng)指標(biāo)…y4.Hadoop4@^JW^…心6.Jobme5gB?fcSmt(壘周I…叱7.Job執(zhí)行時(shí)長統(tǒng)計(jì)(最近一周平均耗時(shí)-?1.穩(wěn)走性相關(guān)指標(biāo)A
5.Hadoop15務(wù)運(yùn)行情況…fli5.Hadgp4I^?運(yùn)行情況_2--■zhouhao_folder014*宮XHedQQP監(jiān)控Dashboard▼5HadoopftS-iEfjtg%*#Q*-Q-ap|M_running-Q-sppt_p?nding機(jī)器學(xué)習(xí)平臺(tái)-基TSpark的圖形化Al平臺(tái)6龍OPS/IT/CC/ICtripML訓(xùn)練名:電影推薦-zyHive賬號(hào)“?/<&0?AllChangesSavedOCtttfi所有模塊|TypetosearchALSBinarizerConvertTo<#>Bina^ClassifiN-Gramsv+CountCustom—VectorizerReadDF電影推薦歡DbscanDCT基本信息參教配置DFSplit-2Spark:
|/edit||Crestart運(yùn)行歷史Tip:FilterDecisionTree執(zhí)行引擎相關(guān)參數(shù)參教包括:apark資,源申請,程序名稱,數(shù)據(jù)預(yù)覽最:大的數(shù)據(jù)條麴以及其他等等.機(jī)器學(xué)習(xí)平臺(tái)-基TSpark的圖形化Al平臺(tái)6龍OPS/IT/CC機(jī)器學(xué)習(xí)平臺(tái)-基TSpark的圖形化Al平臺(tái)/II)CtripML6龍OPS/IT/CC?/AA0訓(xùn)練名:電影推薦?zy訓(xùn)練測試分流7:
3-參數(shù)信息基本信息參數(shù)配置ill練數(shù)抿比例測離據(jù)比例0.3隨機(jī)/蝦1l>單點(diǎn)也行A綴聯(lián)拠行[皿取消換行。數(shù)據(jù)探索▼執(zhí)行信息開始時(shí)間:2016-11-2115:35:23結(jié)束時(shí)間:2016-11-2115:35:24執(zhí)行用時(shí)1seconds執(zhí)行輸出:customTransformedDF_01:org.apache.spark.sql.DataFrame=[userid:int,movield:int,rating:double,timestamp:int]splits:Arrayforgapache.spark.sql.DataFrame]=Array([userid:int,movield:int,rating:double,timestamp:int],[userid:int,movield:int,rating:double,timestamp:int])trainData_01:org.apache.spark.sql.DataFrame=[userid:int,movield:int,rating:double,timestamp:int]testData_D1:org.apache.spark.sql.DataFrame=[userid:int,movield:int,rating:double,timestamp:intj機(jī)器學(xué)習(xí)平臺(tái)-基TSpark的圖形化Al平臺(tái)/|CtripML訓(xùn)練名:電影推薦-zy6龍OPS/IT/CC星本信息參數(shù)配置參數(shù)信息執(zhí)行信息1▼defcustom_transform(inputDF:DataFrame):DataFrame={2//customcode...5valpDF=inputDF.repartition(陽)6pDF.cache()7pDFuu血"I數(shù)據(jù)探索,I開始時(shí)間2016-11-2115:34:06結(jié)束時(shí)間:2016-11-2115:35:23執(zhí)行用時(shí):77seconds扱行輸出:importorg.apache.sparK.sql.DataFramecustomjransform:(inputDF:org.apache.spark.sql.DataFrame)org.apache.spark.sql.DataFrameinput_csv_data_01:org.apache.spark.sql.DataFrame=[userid:int,movield:int,rating:double,timestamp:int]customTransformedDF_01:org.apache.spark.sql.DataFrame=[userid:int,movteld:int,rating:double,timestamp:int]機(jī)器學(xué)習(xí)平臺(tái)-基TSpark的圖形化Al平臺(tái)6龍OPS/IT/CC25000020000015000010000050000014000012000010000080000600004000020000o極Ogin§匸>g0userid執(zhí)行/取消丨AI間II*Stpyspark#python數(shù)據(jù)探索主要是將spmrkDataFrame的數(shù)據(jù)collect到Driver持#然后進(jìn)行計(jì)貫,工具可以使用python的pandas,API可以點(diǎn)擊頁頭的鏈接importmatplotlibimportpandasaspdmatplotlib.use(1Agg')numpyasnpmatplotlib.mlabasmlabmatplotlib.pyplotaspitStringlOimportimportimportimport-Frompandas.tools,plottingimportscatter_matrix#這是必須的,否則囹表不顯示de-Fshow(p):img=StringlO.StringIO()p.savefig(imgjforinat=1
svg')img.seek(0)print"SShtml<div>"+img.bu-F+,'</div>,,pit.close()#從臨時(shí)表中荻取DataFrame#d-FName=sq1Context.table("'dfName")custom!rans-FormedDF_01=sqIContext.table("customTrans-FormedDF_?1'■),select("userid",'■movieId"j"rating")#printcustomTrans-formedDF_01.countsampleData=custoinTrans-FormedDF_01.sample(FalseQ.&Q&&31
7)#sparkDataFrame轉(zhuǎn)換成PandasDataFramej然后通過pandasapi進(jìn)行科學(xué)統(tǒng)計(jì)或可視化pdDF=sampleDa"ta.toPandas()#printpdDF#python計(jì)算與畫囹code#pdDF[11
rating'"].plot.area(pit.-Figure()#pdDF.dijffC).hi.5t(col<jr=alpha=。.6,t>ins=50)catter_matrix(pdDFjalpha=0.2j-Figsize=(7j7)_,diagonal=1kde1
)show(plt);爺-3+圖形聞執(zhí)行優(yōu)化的甥韓預(yù)第^161-0^ifiI-2p_」a)snp_Q)>oluooogr0000s00000100昌oooo?oooo寸0000?機(jī)器學(xué)習(xí)平臺(tái)-基TSpark的圖形化Al平臺(tái)6龍OPS/IT/CC信息模塊名稱ALS述推E歸屬推薦日共禎《|葬瘡
§--代碼鞭1importorg.apache.spark.ml.recommendation.ALS2
valfinputDF$=sqlContext.table("$inputDF$")3valals=newALS()4.setAlpha(falphaS)5.setCheckpointInterval(JcheckpointInterval$)6.setImplicitPrefs($implicitPref$)7.setMaxIter(JmaxIterl)8.setNonnegative($nonnegative$}9.setNumItemBlocks($numIteinBlock:sJ)16.setNuiMJserBlocks(SnumUserBlock£)11.setRank(SrankS)12.setRegParamfJregParaml)13.setSeed($seed$)14.setRatingCol("SratingColS")15.setltemCol)16.setUserCol(,'$userCol$,')17.setPredictionCol("$predictionColS")18valSoutputMDS=als.fit(SinputDF$)配置信息拳數(shù)歸屆Key0Key顯示名0描述信息?參數(shù)類型默認(rèn)參數(shù)值可選選項(xiàng)alphaAlpha|NUMBER▼1格式:V1,V2—丨球HcheckpointintervalCheckpointInterva|NUMBER▼J°格式:V1,V2—丨岐HImplicitPrefImplicitPref|BOOLEAN』1似臨格式:V1,V2—,機(jī)器學(xué)習(xí)平臺(tái)-GPU的云平臺(tái)(開發(fā)中)6龍OPS/IT/CC,CtripDiSe
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度新能源行業(yè)銷售人員2025年度勞動(dòng)合同2篇
- 2025年住房公積金租房提取政策執(zhí)行效果評(píng)估合同3篇
- 二零二五年度農(nóng)村土地互換及農(nóng)業(yè)科技創(chuàng)新協(xié)議書
- 二零二五年度農(nóng)村房屋贈(zèng)與合同附農(nóng)業(yè)科技研發(fā)合作協(xié)議
- 二零二五年度醫(yī)療影像設(shè)備加工承攬合同3篇
- 二零二五年度公司租賃車輛駕駛?cè)藛T考核及培訓(xùn)協(xié)議2篇
- 二零二五年度公司與自然人環(huán)保項(xiàng)目合作協(xié)議3篇
- 二零二五年度智能家電產(chǎn)品開發(fā)合作協(xié)議書2篇
- 2025年度網(wǎng)約貨車司機(jī)兼職服務(wù)協(xié)議3篇
- 2025年度環(huán)保型機(jī)械研發(fā)與生產(chǎn)合作協(xié)議3篇
- DL-T 1071-2023 電力大件運(yùn)輸規(guī)范
- 2023年IEC17025檢測和校準(zhǔn)實(shí)驗(yàn)室管理手冊
- 環(huán)境管理與可持續(xù)發(fā)展管理制度
- 全流程醫(yī)院管理制度
- 2024年西安電力高等??茖W(xué)校單招職業(yè)技能測試題庫附答案
- 中華財(cái)險(xiǎn)新疆維吾爾自治區(qū)克孜勒蘇柯爾克孜自治州商業(yè)性防返貧收入保險(xiǎn)
- DZ/T 0462.1-2023 礦產(chǎn)資源“三率”指標(biāo)要求 第1部分:煤(正式版)
- 手術(shù)室護(hù)理年終總結(jié)
- 職業(yè)生涯規(guī)劃班會(huì)課教案設(shè)計(jì)
- 微觀經(jīng)濟(jì)學(xué)(對外經(jīng)濟(jì)貿(mào)易大學(xué))智慧樹知到期末考試答案2024年
- (正式版)HGT 6277-2024 甲醇制烯烴(MTO)級(jí)甲醇
評(píng)論
0/150
提交評(píng)論