DS常用組件使用_第1頁(yè)
DS常用組件使用_第2頁(yè)
DS常用組件使用_第3頁(yè)
DS常用組件使用_第4頁(yè)
DS常用組件使用_第5頁(yè)
已閱讀5頁(yè),還剩42頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 Datastage產(chǎn)品開發(fā)使用指南 MACROBUTTON AcceptChangesSelected 北京先進(jìn)數(shù)通信息技術(shù)有限公司商業(yè)智能應(yīng)用部 Datastage產(chǎn)品開發(fā)使用指南 - PAGE 44 -文檔信息標(biāo)題Datastage產(chǎn)品開發(fā)使用指南創(chuàng)建日期2005-12-22打印日期文件名PMA-003-Datastage產(chǎn)品開發(fā)使用指南-V1.0.doc存放目錄DIPMA所有者北京先進(jìn)數(shù)通信息技術(shù)有限公司作者何應(yīng)龍修訂記錄日期作者描述文檔審核/審批姓名職務(wù)/職稱審核批準(zhǔn)文檔分發(fā)此文檔將分發(fā)至如下各人姓名職務(wù)/職稱目 錄 TOC o 1-3 h z u HYPERLINK l _Toc1

2、23361103 目 錄 PAGEREF _Toc123361103 h ii HYPERLINK l _Toc123361104 1. 引言 PAGEREF _Toc123361104 h 1 HYPERLINK l _Toc123361105 2. 常用Stage使用說(shuō)明 PAGEREF _Toc123361105 h 1 HYPERLINK l _Toc123361106 2.1. Sequential File Stage PAGEREF _Toc123361106 h 1 HYPERLINK l _Toc123361107 2.2. Annotation PAGEREF _Toc12

3、3361107 h 4 HYPERLINK l _Toc123361108 2.3. Change Capture Stage PAGEREF _Toc123361108 h 5 HYPERLINK l _Toc123361109 2.4. Copy Stage PAGEREF _Toc123361109 h 7 HYPERLINK l _Toc123361110 2.5. Filter Stage PAGEREF _Toc123361110 h 8 HYPERLINK l _Toc123361111 2.6. Funnel Stage PAGEREF _Toc123361111 h 9 HY

4、PERLINK l _Toc123361112 2.7. Tansformer Stage PAGEREF _Toc123361112 h 10 HYPERLINK l _Toc123361113 2.8. Sort Stage PAGEREF _Toc123361113 h 11 HYPERLINK l _Toc123361114 2.9. LookUp Stage PAGEREF _Toc123361114 h 12 HYPERLINK l _Toc123361115 2.10. Join Stage PAGEREF _Toc123361115 h 12 HYPERLINK l _Toc1

5、23361116 2.11. Merge Stage PAGEREF _Toc123361116 h 14 HYPERLINK l _Toc123361117 2.12. Modify Stage PAGEREF _Toc123361117 h 15 HYPERLINK l _Toc123361118 2.13. Data Set Stage PAGEREF _Toc123361118 h 16 HYPERLINK l _Toc123361119 2.14. File Set Stage PAGEREF _Toc123361119 h 17 HYPERLINK l _Toc123361120

6、2.15. Lookup File Set Stage PAGEREF _Toc123361120 h 19 HYPERLINK l _Toc123361121 2.16. Oracle Enterprise Stage PAGEREF _Toc123361121 h 21 HYPERLINK l _Toc123361122 2.17. Aggregator Stage PAGEREF _Toc123361122 h 22 HYPERLINK l _Toc123361123 2.18. Remove Duplicates Stage PAGEREF _Toc123361123 h 24 HYP

7、ERLINK l _Toc123361124 2.19. Compress Stage PAGEREF _Toc123361124 h 25 HYPERLINK l _Toc123361125 2.20. Expand Stage PAGEREF _Toc123361125 h 26 HYPERLINK l _Toc123361126 2.21. Difference Stage PAGEREF _Toc123361126 h 27 HYPERLINK l _Toc123361127 2.22. Compare Stage PAGEREF _Toc123361127 h 29 HYPERLIN

8、K l _Toc123361128 2.23. Switch Stage PAGEREF _Toc123361128 h 30 HYPERLINK l _Toc123361129 2.24. Column Import Stage PAGEREF _Toc123361129 h 31 HYPERLINK l _Toc123361130 2.25. Column Export Stage PAGEREF _Toc123361130 h 33 HYPERLINK l _Toc123361131 3. DataStage Administrator常用配置 PAGEREF _Toc123361131

9、 h 35 HYPERLINK l _Toc123361132 3.1. 設(shè)置TimeOut時(shí)間 PAGEREF _Toc123361132 h 35 HYPERLINK l _Toc123361133 3.2. 設(shè)置Project的屬性 PAGEREF _Toc123361133 h 36 HYPERLINK l _Toc123361134 3.3. 更新DataStage Server的License和本地Client的License PAGEREF _Toc123361134 h 37 HYPERLINK l _Toc123361135 4. DataStage Manager使用 PA

10、GEREF _Toc123361135 h 37 HYPERLINK l _Toc123361136 4.1. 導(dǎo)入導(dǎo)出Job及其它組件 PAGEREF _Toc123361136 h 37 HYPERLINK l _Toc123361137 4.2. 管理配置文件 PAGEREF _Toc123361137 h 39 HYPERLINK l _Toc123361138 5. DataStage Director使用 PAGEREF _Toc123361138 h 41 HYPERLINK l _Toc123361139 5.1. 察看Job的狀態(tài),運(yùn)行已經(jīng)編譯好的Job PAGEREF _T

11、oc123361139 h 41 HYPERLINK l _Toc123361140 5.2. 將編譯好的Job加入計(jì)劃任務(wù) PAGEREF _Toc123361140 h 42 HYPERLINK l _Toc123361141 5.3. 監(jiān)控Job的運(yùn)行情況 PAGEREF _Toc123361141 h 43引言DataStage EE的開發(fā)主要由DataStage Designer完成?,F(xiàn)對(duì)常用部分加以說(shuō)明,詳細(xì)使用方法請(qǐng)查閱在線幫助文檔。常用Stage使用說(shuō)明DataStage的基本邏輯處理單位是Job,每個(gè)Job由許多Stage組成;由Stage來(lái)完成對(duì)數(shù)據(jù)的抽取,轉(zhuǎn)換,加載等,現(xiàn)

12、對(duì)常用的Stage做說(shuō)明Sequential File Stage功能特點(diǎn):適用于一般順序文件(定長(zhǎng)或不定長(zhǎng)),可識(shí)別文本文件或IBM大機(jī)ebcdic文件。使用要點(diǎn):按照命名規(guī)范命名點(diǎn)住文件,雙擊鼠標(biāo),在general說(shuō)明此文件內(nèi)容,格式,存儲(chǔ)目錄等 修改文件屬性,文件名稱,reject方式等到 修改文件格式,比如記錄結(jié)束符是什么,字段分隔符,字符串是用什么區(qū)別等 輸入此文件字段內(nèi)容 Annotation功能特點(diǎn):一般用于注釋,可利用其背景顏色在job中分顏色區(qū)別不同功能塊使用要點(diǎn): Change Capture Stage功能特點(diǎn):Change Capture Stage有兩個(gè)輸入,分別標(biāo)記

13、為before link 及 after link。輸出的數(shù)據(jù)表示before link和after link的區(qū)別,我們稱作change set。Change Capture Stage可以和Change Apply Stage配合使用來(lái)計(jì)算after set。key及value的說(shuō)明key值是比較的關(guān)鍵值,value是當(dāng)key值相同是作進(jìn)一步比較用的。change mode選項(xiàng)說(shuō)明:All keys,Explicit Values 需要指定value,其余字段為keyExplicit Keys&Values key及value都需要指定Explicit Keys,All Values 需要

14、指定key,其余的字段為value輸出策略說(shuō)明Drop Output For Copy False:保留before及after link中key值相同的行 True:刪除before及after link中key值相同的行Drop Output For Delete False:保留before link中有但是after link中沒有的key值所在的行 True:刪除before link中有但是after link中沒有的key值所在的行Drop Output For Edit False:保留key值相同,value不同的行 True:刪除key值相同,value不同的行Drop O

15、utput For Insert False:保留before link中沒有但after link中有的key值所在的行 True:刪除before link中沒有但after link中有的key值所在的行Copy Stage功能說(shuō)明:Copy Stage可以有一個(gè)輸入,多個(gè)輸出。它可以在輸出時(shí)改變字段的順序,但是不能改變字段類型。注意:當(dāng)只有一個(gè)輸入及一個(gè)輸出時(shí)最好將Force設(shè)置為True,這樣可以在Designer里看到運(yùn)行結(jié)束,否則將無(wú)法標(biāo)識(shí)運(yùn)行結(jié)束,但不會(huì)影響運(yùn)行結(jié)果數(shù)據(jù)。Filter Stage功能說(shuō)明:Filter Stage只有一個(gè)輸入,可以有多個(gè)輸出。根據(jù)不同的篩選條件,

16、可以將數(shù)據(jù)輸出到不同的output link。 Funnel Stage功能說(shuō)明:將多個(gè)字段相同的數(shù)據(jù)文件合并為一個(gè)單獨(dú)的文件輸出合并策略說(shuō)明Continuous Funnel:從每一個(gè)input link中循環(huán)取一條記錄Sort Funnel:按照Key值排序合并輸出Sequence:先輸出第一個(gè)input link的數(shù)據(jù),輸出完畢后再輸出第二個(gè)input link的數(shù)據(jù),依此類推,直到結(jié)束。(此時(shí)可以通過調(diào)整link Ordering調(diào)整輸出順序)Tansformer Stage功能說(shuō)明:一個(gè)功能極為強(qiáng)大的Stage。有一個(gè)input link,多個(gè)output link,可以將字段進(jìn)行轉(zhuǎn)

17、換,也可以通過條件來(lái)指定數(shù)據(jù)輸出到那個(gè)output link。在開發(fā)過程中可以使用拖拽。Constraint及Derivation的區(qū)別Constraint通過限定條件使符合條件的數(shù)據(jù)輸出到這個(gè)output link。Derivation通過定義表達(dá)式來(lái)轉(zhuǎn)換字段值。在Constraint及Derivation中可以使用Job parameters及Stage Variables。注意:Transformer Stage功能強(qiáng)大,但在運(yùn)行過程中是以犧牲速度為代價(jià)的。在只有簡(jiǎn)單的變換,拷貝等操作時(shí),最好用Modify Stage,Copy Stage,F(xiàn)ilter Stage等來(lái)替換Transfo

18、rmer Stage。Sort Stage功能說(shuō)明:只能有一個(gè)輸入及一個(gè)輸出,按照指定的Key值進(jìn)行排列。可以選擇升序還是降序,是否去除重復(fù)的數(shù)據(jù)等等。Option具體說(shuō)明 Allow Duplicates: 是否去除重復(fù)數(shù)據(jù)。為False時(shí),只選取一條數(shù)據(jù),當(dāng)Stable Sort為True時(shí),選取第一條數(shù)據(jù)。當(dāng)Sort Unility為UNIX時(shí)此選項(xiàng)無(wú)效。 Sort Utility: 選擇排序時(shí)執(zhí)行應(yīng)用程序,可以選擇DataStage內(nèi)建的命令或者Unix的Sort命令 Output Statistics: 是否輸出排序統(tǒng)計(jì)信息到j(luò)ob日志 Stable Sort: 是否對(duì)數(shù)據(jù)進(jìn)行二次整

19、理 Create Cluster Key Change Column:是否為每條記錄創(chuàng)建一個(gè)新的字段:clusterKeyChange。當(dāng)Sort Key Mode為Dont Sort(Previously Sorted) 或 Dont Sort (Previously Grouped)時(shí),對(duì)于第一條記錄該字段被設(shè)置為1,其余的記錄設(shè)置為0。Create Key Change Column:是否為每一條記錄創(chuàng)建一個(gè)新的字段KeyChange。LookUp Stage功能說(shuō)明:LookUp Stage把數(shù)據(jù)讀入內(nèi)存執(zhí)行查詢操作,將匹配的字段輸出,或者在在符 合條件的記錄中修改或加入新的字段。Jo

20、in Stage功能說(shuō)明:將多個(gè)表連接后輸出 LookUp Stage 和 Join Stage的區(qū)別LookUp Stage將數(shù)據(jù)讀入到內(nèi)存中,所以效率很高,但是占用了較多的物理內(nèi)存。所以當(dāng)reference data比較小的時(shí)候,我們推薦用LookUp Stage;當(dāng)reference data比較大的時(shí)候,我們推薦用Join Stage。Merge Stage功能說(shuō)明:將Merge Key值相同的記錄合并。將其中的一個(gè)輸入設(shè)定為Master,其余的為Update。把Update中Merge Key相同的記錄合并入Master。Modify Stage功能說(shuō)明:Modify stage 只

21、能有一個(gè)輸入及一個(gè)輸出,它可以修改表結(jié)構(gòu):刪除,保留一個(gè)字段;給字段改名;修改字段的數(shù)據(jù)類型。Specification的具體用法:刪除一個(gè)字段: DROP columnname , columnname保留一個(gè)字段: KEEP columnname , columnname改變字段: new_columnname :new_type = explicit_conversion_functionold_columnname可用的explicit_conversion_function請(qǐng)參看Parallel Job Developers Guide7Data Set StageStage類型:F

22、ile stage功能說(shuō)明:從data set文件中讀取數(shù)據(jù)或者寫數(shù)據(jù)到data set文件中,一個(gè)Data Set Stage只能有一個(gè)輸入連接(input link)或者一個(gè)輸出連接(output link)。具體用法:包括Stage Page,Inputs Page,Outputs PageStage Page通常描述了stage的一般信息,諸如名稱等;Inputs Page描述了即要寫入信息的data set文件的詳細(xì)信息;主要是Properties和Column的定義Properties中配置了文件的存放路徑和更新策略Column詳細(xì)定義文件中的各個(gè)字段Outputs Page描述了

23、讀取信息的data set文件的詳細(xì)信息;操作過程與Inputs Page類似。File Set StageStage類型:File stage功能說(shuō)明:從file set文件中讀取數(shù)據(jù)或者寫數(shù)據(jù)到file set文件中,一個(gè)File Set Stage只能有一個(gè)輸入連接(input link)、一個(gè)輸出連接(output link)和一個(gè)拒絕連接(rejects link)。并且只能在并行模式下執(zhí)行。具體用法:Stage Page:對(duì)Stage的基本定義Inputs Page:主要是Properties和Format的配置Properties的配置:定義文件的存取路徑及其他讀寫的相關(guān)的參數(shù)。

24、特別要說(shuō)明的是Options下的Reject Mode的選擇,當(dāng)stage有reject link的時(shí)候,必須選擇Output;沒有reject link時(shí),可選擇其他兩個(gè)選項(xiàng)。Format的配置:定義了數(shù)據(jù)寫到文件中的格式Outputs Page:對(duì)stage輸出的數(shù)據(jù)字段的描述,另外,reject link的輸出系統(tǒng)將默認(rèn),不需要用戶自己定義字段。Lookup File Set StageStage類型:File stage功能說(shuō)明: 為執(zhí)行查找操作而創(chuàng)建的參照文件。作為查找的參照數(shù)據(jù),通常在參照數(shù)據(jù)比較大量或者重復(fù)使用率較高的情況下,將參照數(shù)據(jù)生成專門的Lookup File Set文件

25、,以便提高查找的效率具體用法:Stage PageInputs Page:主要定義了查找關(guān)鍵字和存放路徑等主要信息創(chuàng)建一個(gè)Lookup File Set文件:Outputs Page:當(dāng)作為參照數(shù)據(jù)進(jìn)行查找操作時(shí),因?yàn)槲募且呀?jīng)生成好的,所以在這里不需要再做詳細(xì)的定義,只要引入即可。Oracle Enterprise StageStage類型:Database Stage功能說(shuō)明:從Oracle數(shù)據(jù)庫(kù)中讀取數(shù)據(jù)或者寫數(shù)據(jù)到Oracle數(shù)據(jù)庫(kù)中。通常完成的操作:使用INSERT或UPDATWE命令更新數(shù)據(jù)庫(kù)表裝入數(shù)據(jù)庫(kù)表讀取數(shù)據(jù)庫(kù)表從數(shù)據(jù)庫(kù)表中刪除行在庫(kù)表中直接執(zhí)行查詢操作將庫(kù)表裝入內(nèi)存,然后執(zhí)

26、行查詢操作具體用法:Inputs Page向數(shù)據(jù)庫(kù)中寫數(shù)據(jù),關(guān)鍵是對(duì)Properties的配置Outputs Page:與Inputs Page類似,只是完成的是從數(shù)據(jù)庫(kù)中讀取數(shù)據(jù)。Aggregator StageStage類型:Processing Stage功能說(shuō)明: 將輸入的數(shù)據(jù)分組,計(jì)算各組數(shù)據(jù)的總和或者按組進(jìn)行其他的操作,最后將結(jié)果數(shù)據(jù)輸出到其他的stage。具體用法:Stage Page:描述stage的一般信息以及字段的分組信息和選擇分組計(jì)算函數(shù)Inputs Page:詳細(xì)描述輸入數(shù)據(jù)信息,一般直接反映輸入數(shù)據(jù)字段信息Oupputs Page:詳細(xì)描述輸出數(shù)據(jù)信息,即經(jīng)過分組計(jì)算

27、后的數(shù)據(jù)字段信息Remove Duplicates StageStage類型:Processing Stage功能說(shuō)明: 輸入根據(jù)關(guān)鍵字分好類的有序數(shù)據(jù),去除所有記錄中關(guān)鍵字重復(fù)的記錄,通常與sort stage配合使用具體用法:Stage Page:Properties中的key值與之前sort stage的分類key值相同Inputs Page:對(duì)輸入數(shù)據(jù)字段的描述Oupputs Page:對(duì)輸出數(shù)據(jù)字段的描述Compress StageStage類型:Processing Stage功能說(shuō)明: 將data set文件壓縮成二進(jìn)制文件(與expend datastage相對(duì)應(yīng))具體用法:S

28、tage Page運(yùn)行結(jié)果Inputs Page:對(duì)輸入數(shù)據(jù)字段的描述Outputs Page:對(duì)輸出數(shù)據(jù)字段的描述Expand StageStage類型:Processing Stage功能說(shuō)明:將壓縮的二進(jìn)制文件解壓縮(解壓縮compress stage生成的壓縮文件)具體用法:Stage Page運(yùn)行結(jié)果:Inputs Page:對(duì)輸入數(shù)據(jù)字段的描述Outputs Page:對(duì)輸出數(shù)據(jù)字段的描述Difference StageStage類型:Processing Stage功能說(shuō)明: 按字段比較兩個(gè)文件,找出不同的記錄。(兩個(gè)文件before和after,以before為準(zhǔn),與after

29、文件中的記錄進(jìn)行比較,找出before在after文件中沒有或者有的記錄)具體用法:Stage Page比較策略說(shuō)明Drop Output For Copy False:保留before及after link中key值相同的行 True:刪除before及after link中key值相同的行Drop Output For Delete False:保留before link中有但是after link中沒有的key值所在的行 True:刪除before link中有但是after link中沒有的key值所在的行Drop Output For Edit False:保留key值相同,valu

30、e不同的行 True:刪除key值相同,value不同的行Drop Output For Insert False:保留before link中沒有但after link中有的key值所在的行 True:刪除before link中沒有但after link中有的key值所在的行調(diào)整before和after的順序:Inputs Page:對(duì)輸入數(shù)據(jù)字段的描述Outputs Page:對(duì)輸出數(shù)據(jù)字段的描述Compare StageStage類型:Processing Stage功能說(shuō)明:按字段對(duì)比兩個(gè)已經(jīng)分類的有序的文件 具體用法:Stage PageInputs Page:對(duì)輸入數(shù)據(jù)字段的描述

31、Outputs Page:對(duì)輸出數(shù)據(jù)字段的描述Switch StageStage類型:Processing Stage功能說(shuō)明:將文件按照一定的條件(一般為字段的值)分割成多個(gè)子文件。具體是將輸入的每一條記錄按照各自符合的條件(關(guān)鍵字的值)分配到不同的輸出(Switch Stage 有一個(gè)input link 和多個(gè)output link,一個(gè) reject link,output link最多可達(dá)128個(gè);此功能很類似與C函數(shù)中的switch函數(shù))。具體用法:Stage Page定義分配記錄的關(guān)鍵字及其值Inputs Page:對(duì)輸入數(shù)據(jù)字段的描述Outputs Page:對(duì)輸出數(shù)據(jù)字段的描述,通過Mapping自定義各個(gè)輸出文件中的字段Column Import StageStage類型:Restructure Stage功能說(shuō)明: 將一個(gè)字段中的數(shù)據(jù)輸出到多個(gè)字段中。(也可以用這個(gè)stage完成分割單個(gè)字段數(shù)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論