




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、SaCa DataViz 最佳實(shí)踐R 腳本的算能實(shí)現(xiàn)基礎(chǔ)事業(yè)部東軟集團(tuán)(大連)2第1章 背景SaCa DataViz 支持結(jié)合 R 腳本進(jìn)行數(shù)據(jù)計(jì)算的功能。DataViz 進(jìn)行R 腳本算法計(jì)算來進(jìn)行解決。一些業(yè)務(wù)場景問題,可使用第2章 概述在 SaCa DataViz 中提供了部分 R 腳本算法數(shù)據(jù)計(jì)算的示例,:數(shù)值計(jì)算、字符串計(jì)算、時(shí)序、聚類分析和回歸分析。第3章 R 腳本的算法對接與實(shí)現(xiàn)3.1數(shù)值計(jì)算圖 1-1 數(shù)值計(jì)算后的折線圖3圖 1-2 數(shù)值計(jì)算的R 腳本如圖 1-1 所示,是數(shù)值計(jì)算后的折線圖,其中紅色折線中的數(shù)值數(shù)據(jù)是在編輯字段“計(jì)算訂單金額”中進(jìn)行R 腳本計(jì)算得到的,R 腳如圖
2、 1-2 所示。圖 1-2 中的具體 R 腳如下所示,是對訂單金額乘以 2 倍,然后使用線性回歸進(jìn)行簡單擬合,并返回?cái)M合結(jié)果。該腳中,使用 SCRIPT_NUMBER 函數(shù)作為 R 腳本關(guān)鍵字(紅色內(nèi)容); R 語言腳本的輸入數(shù)據(jù)要定義成變量,賦值內(nèi)容要符合 SQL 腳本語法,賦值使用”=”,該變量可在后續(xù)計(jì)算使用(藍(lán)色內(nèi)容); 不同語句之間使用回車換行分隔; 計(jì)算結(jié)果要返回單個(gè)向量數(shù)組的數(shù)值變量(綠色內(nèi)容);其余部分可使用 R 語言進(jìn)行程序設(shè)計(jì)(黑色內(nèi)容)。4SCRIPT_NUMBER<-function() arg1=SUM(訂單金額) * 2; arg2=SUM(訂單數(shù)量); lm
3、Solve<-lm(arg1 1+arg2);xData<-data.frame(arg2); return(predict(lmSolve,xData);3.2 字符串計(jì)算圖 2-1 字符串計(jì)算后的折線圖圖 2-2 字符串計(jì)算的R 腳本5如圖 2-1 所示,是字符串計(jì)算后的柱狀圖,其中維度(軸)中的字符串?dāng)?shù)據(jù)是在編輯字段“地區(qū)(字符串計(jì)算)”中進(jìn)行 R 腳本計(jì)算得到的,R 腳如圖 2-2 所示。圖 2-2 中的具體 R 腳如下所示,是對維度字段的地區(qū)和省份進(jìn)行字符串拼接的功能,并返回拼接后的字符串結(jié)果。該腳中,使用SCRIPT_STR 函數(shù)作為 R 腳本關(guān)鍵字(紅色內(nèi)容); R
4、語言腳本的輸入數(shù)據(jù)要定義成變量,且賦值內(nèi)容要符合SQL 腳本語法,賦值使用”=”,該變量可在后續(xù)計(jì)算使用(藍(lán)色內(nèi)容); 不同語句之間使用回車換行分隔; 計(jì)算結(jié)果要返回單個(gè)向量數(shù)組變量(綠色內(nèi)容);其余部分可使用R 語言進(jìn)行程序設(shè)計(jì)。3.3 時(shí)序時(shí)序是數(shù)值計(jì)算的一種,因此時(shí)序腳本的內(nèi)容符合數(shù)值計(jì)算 R 腳本的定義。另行時(shí)序時(shí),需要拖拽入時(shí)間字段到維度中。3.3.1 業(yè)務(wù)場景在財(cái)務(wù)領(lǐng)域,根據(jù)往年的成本支出情況,時(shí)序可以被用來未來幾年(一段時(shí)間)的成本支出是多少。在銷售領(lǐng)域,已知各年銷售額,時(shí)序年(一段時(shí)間)的銷售額是多少??梢员挥脕砦磥韼?SCRIPT_STR<-function()arg1
5、=地區(qū); arg2=省份;return(paste(arg1, arg2);3.3.2 銷售額的 ARIMA 模型分析圖 3-1 銷售額的年時(shí)序圖 3-2 年時(shí)序的腳本如圖 3-1 所示,是銷售額年時(shí)序的折線圖,紅色框內(nèi)是的未來五年銷售額趨7勢。操作的過程是:(1)選中折線圖;(2)向“數(shù)據(jù)值”區(qū)域拖入“銷售額”字段,向“軸”區(qū)域拖入“銷售日期”字段,從而繪制出折線圖;(3)對“銷售額”字段進(jìn)行編輯字段的操作,在編輯字段頁面中編寫 ARIMA 模型分析的腳后,點(diǎn)擊確定,進(jìn)行計(jì)算,得到結(jié)果的折線圖。(4)再拖入“銷售額”的數(shù)據(jù)字段,可區(qū)分的顯示出數(shù)據(jù)。如圖 3-2 所示,是編輯字段中 ARIMA
6、 模型的腳,具體內(nèi)容如下所示。該腳中,除紅色內(nèi)容外的其他內(nèi)容,都遵循著數(shù)值計(jì)算中的腳本定義規(guī)則;但其中的藍(lán)色內(nèi)容$5$表示未來的時(shí)間段長度;在紅色內(nèi)容中了:構(gòu)建時(shí)序數(shù)據(jù)、引以及返回原始數(shù)據(jù)與入包、訓(xùn)練 ARIMA 模型、使用 ARIMA 模型進(jìn)行未來 5 年的新數(shù)據(jù)的數(shù)值向量。8SCRIPT_NUMBER<-function() arg1=SUM(銷售額); arg2=$5$;tsales <- ts(arg1, start=c(1871, 1), frequency=1); library(forecast);fit <- arima(tsales, order=c(0,1
7、,1); predict <- forecast(fit, 5); return(c(arg1, predict$mean);3.3.3 財(cái)務(wù)成本的時(shí)間序列平滑圖 3-3財(cái)務(wù)成本的月時(shí)序圖 3-4 月時(shí)序的腳本9如圖 3-3 所示,是財(cái)務(wù)成本月時(shí)序的折線圖,紅色框內(nèi)是的未來五財(cái)務(wù)成本趨勢。操作的過程是:(1)選中折線圖;(2)向“數(shù)據(jù)值”區(qū)域拖入“財(cái)務(wù)成本”字段,向“軸”區(qū)域拖入“日期”字段,從而繪制出折線圖;(3)對“財(cái)務(wù)成本”字段進(jìn)行編輯字段的操作,在編輯字段頁面中編寫平滑的腳后,點(diǎn)擊確定,進(jìn)行顯示出計(jì)算,得到數(shù)據(jù)。結(jié)果的折線圖。(4)再拖入“財(cái)務(wù)成本”的數(shù)據(jù)字段,可區(qū)分的如圖 3-
8、4 所示,是編輯字段中平滑的腳,具體內(nèi)容如下所示。該腳中,除紅色內(nèi)容外的其他內(nèi)容,都遵循著數(shù)值計(jì)算中的腳本定義規(guī)則;但其中的藍(lán)色內(nèi)容$5$表示引入包、訓(xùn)練平滑未來的時(shí)間段長度;在紅色內(nèi)容中了:構(gòu)建時(shí)序數(shù)據(jù)、模型、使用平滑模型進(jìn)行未來 5的以及返回原始數(shù)據(jù)與新數(shù)據(jù)的數(shù)值向量。1SCRIPT_NUMBER<-function() arg1=SUM(財(cái)務(wù)成本); arg2=$5$;dates<-as.Date(arg2,"%Y-%m-%d"); tsales <- data.frame(dates, arg1); tsalesNew <- tsalesor
9、der(tsales$dates),;tsalesTS <- ts(tsalesNew$arg1, start=c(2000, 1), frequency=12); library(forecast);fit <- ets(log(tsalesTS), m="AAA"); predict <- forecast(fit, 5); return(c(arg1, exp(predict$mean);3.3.4 訂單數(shù)量的季節(jié)變動(dòng)圖 3-5訂單數(shù)量的季節(jié)變動(dòng)圖 3-6 季節(jié)變動(dòng)的腳本1如圖 3-5 和圖 3-6 所示,是訂單數(shù)量季節(jié)變動(dòng)實(shí)現(xiàn)。操作過程與前兩個(gè)相同
10、。的折線圖展示和季節(jié)變動(dòng)腳本的同時(shí),為了更使用 DataViz 中時(shí)間維度層次的上卷下鉆的功能或者對輸入數(shù)據(jù)需要做其他的處理,可以在 R 腳本中對時(shí)間數(shù)據(jù)進(jìn)行預(yù)處理(紅色內(nèi)容),從而更靈活地使用時(shí)序數(shù)據(jù)。1SCRIPT_NUMBER<-function() arg1=SUM(訂單數(shù)量); arg2=$5$;argValueSplit <- strsplit(arg21, '-');if(!grepl('-',arg21)&&!grepl('',arg21)&& length(argValueSplit1
11、) = 1) arg2New <- paste(arg2, '-01-01', sep='');if (grepl('-', arg21) && length(argValueSplit1) = 2) arg2New <- paste(arg2, '-01', sep='');if (grepl('-', arg21) && length(argValueSplit1) = 3) arg2New <-arg2;if (grepl(' '
12、;, arg21) arg2New <- arg2; dates<-as.Date(arg2New,"%Y-%m-%d"); tsales <- data.frame(dates, arg1); library(zoo);tsalesZOO <- zoo(tsales$arg1, order.by=tsales$dates); library(forecast);fit <- auto.arima(ts(tsalesZOO); predict <- forecast(fit, 5); return(c(arg1, predict$mean
13、);3.4 聚類分析3.4.1 業(yè)務(wù)場景在商業(yè)領(lǐng)域,聚類分析可以被用來發(fā)現(xiàn)不同的客戶群,并分組聚類出相似客戶,分析刻畫不同的客戶群的特征,來更了解客戶。在人力資源方面,可根據(jù)簡歷中包含的字段,如學(xué)歷、公司規(guī)模、薪水、職位名稱等,通過聚類分組,挖掘出簡歷與職位的規(guī)律, 從而快速有效的找到匹配的員工。為了幫助用戶在 DataViz 中更好理解和使用聚類分析功能,這里使用聚類分析常用的經(jīng)典鳶尾花數(shù)據(jù)集。3.4.2 鳶尾花數(shù)據(jù)集如下表所示,包含 4 個(gè)的屬性,這些屬性變量(花萼長度、花萼寬度、花瓣長度、花瓣寬度)描繪出了鳶尾花的種類。1花萼長度花萼寬度花瓣長度花瓣寬度5.13.51.40.24.931
14、.40.24.73.21.30.23.4.3 聚類分析的實(shí)現(xiàn)圖 4-1 鳶尾花類別的聚類分析圖 4-2 聚類分析的腳本1如圖 4-1 所示,是鳶尾花類別聚類分析的散點(diǎn)圖,其中顯示的數(shù)據(jù)根據(jù)圖例計(jì)算結(jié)果分成了三種顏色類別。操作的過程是:(1)選中散點(diǎn)圖;(2)向“X 軸”區(qū)域拖入“花瓣長度”字段,向“Y 軸”區(qū)域拖入“花瓣寬度”字段,從而繪制出散點(diǎn)圖;(3)向“圖例”區(qū)域拖“類別”字段(其他字段也可以),對“類別”字段進(jìn)行編輯字段的操作,在編輯字段頁面中編寫聚類分析的腳果的散點(diǎn)圖。后,點(diǎn)擊確定,進(jìn)行聚類結(jié)果計(jì)算,得到聚類結(jié)如圖 4-2 所示,是編輯字段中聚類分析的腳,具體內(nèi)容如下所示。該腳中,藍(lán)
15、色內(nèi)容是輸入的鳶尾花數(shù)據(jù),紅色內(nèi)容是聚類分析的實(shí)現(xiàn),最后返回了聚類結(jié)果的字符串?dāng)?shù)據(jù)。3.5 回歸分析3.5.1 業(yè)務(wù)場景在商業(yè)領(lǐng)域,以買家和賣家的數(shù)據(jù)為依據(jù),希望知道某商品銷售需求量的趨勢情況??梢杂没貧w描述商品需求的變動(dòng)規(guī)律,對未來的銷售需求量進(jìn)行趨勢分析。1SCRIPT_STR<-function()arg1=花萼長度; arg2=花萼寬度; arg3=花瓣長度; arg4=花瓣寬度;argData<-data.frame(arg1, arg2, arg4, arg3); dataCluster <- data.frame(lapply(argData, scale);i
16、risData_clusters <- kmeans(dataCluster, 3); return(paste('種類', irisData_clusters$cluster);3.5.2 回歸分析的實(shí)現(xiàn)圖 5-1 散點(diǎn)圖的回歸分析圖 5-2 回歸分析的腳本1如圖 5-1 所示,是散點(diǎn)圖上的回歸分析,其中紅色的曲線是整個(gè)散點(diǎn)的趨勢情況。操作的過程是:(1)選中散點(diǎn)圖;(2)向“X 軸”區(qū)域拖入“花瓣長度”字段,向“Y 軸” 區(qū)域拖入“花瓣寬度”字段,從而繪制出散點(diǎn)圖;(3)向“回歸線”區(qū)域拖“花瓣寬度”字段(其他字段也可以),對“花瓣寬度”字段進(jìn)行編輯字段的操作,在編輯字段頁面中編寫回歸曲線的腳后,點(diǎn)擊確定,進(jìn)行結(jié)果計(jì)算,得到回歸曲線的散點(diǎn)圖。如圖 5-2 所示,是編輯字段中回歸曲線的腳,具體內(nèi)容如下所示。該腳中,藍(lán)色內(nèi)容是輸入的花瓣數(shù)據(jù),紅色內(nèi)容是回歸曲線的實(shí)現(xiàn),最后返回了結(jié)果的數(shù)值數(shù)據(jù)。1SCRIPT_NUMBER<-function() arg1=花瓣長度; arg2=花瓣寬度;data <- data.fra
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- YY 1105-2024電動(dòng)洗胃機(jī)
- 私人教練與學(xué)員健身成果合同
- 租賃住宅合同范本簡版
- 南京勞動(dòng)合同模板合同范本(勞務(wù)派遣律師定制)
- 資產(chǎn)收購合同
- 歷史文化名城拍攝許可合同
- 廣告宣傳合同范文
- 商品供應(yīng)合同范本
- 批發(fā)業(yè)渠道管理與拓展考核試卷
- D打印技術(shù)在汽車輕量化設(shè)計(jì)的應(yīng)用考核試卷
- 2025年湖南環(huán)境生物職業(yè)技術(shù)學(xué)院單招職業(yè)技能測試題庫及答案一套
- 14 文言文二則 學(xué)弈 教學(xué)設(shè)計(jì)-2024-2025學(xué)年語文六年級下冊統(tǒng)編版
- Unit 4 Eat Well(大單元教學(xué)設(shè)計(jì))2024-2025學(xué)年七年級英語下冊同步備課系列(人教版2024)
- 2024-2030年中國游戲直播行業(yè)市場深度分析及投資策略研究報(bào)告
- 統(tǒng)編版小學(xué)語文六年級下冊第四單元《理想和信念》作業(yè)設(shè)計(jì)
- 2025年春季學(xué)期學(xué)校工作計(jì)劃及安排表
- 化驗(yàn)班組安全培訓(xùn)
- 英語-廣東省大灣區(qū)2025屆高三第一次模擬試卷和答案
- 第一課+追求向上向善的道德【中職專用】中職思想政治《職業(yè)道德與法治》高效課堂(高教版2023·基礎(chǔ)模塊)
- 生豬屠宰獸醫(yī)衛(wèi)生檢驗(yàn)人員理論考試題庫及答案
- 教師的五重境界公開課教案教學(xué)設(shè)計(jì)課件案例試卷
評論
0/150
提交評論