Kettle產(chǎn)品詳細(xì)介紹_第1頁
Kettle產(chǎn)品詳細(xì)介紹_第2頁
Kettle產(chǎn)品詳細(xì)介紹_第3頁
Kettle產(chǎn)品詳細(xì)介紹_第4頁
Kettle產(chǎn)品詳細(xì)介紹_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、本文格式為Word版,下載可任意編輯Kettle產(chǎn)品詳細(xì)介紹 2021-12-9 Kettle 產(chǎn)品 具體 介紹 名目 Kettle 產(chǎn)品 具體 介紹 簡介 簡潔地說,Kettle 就是國外一個開源的 ETL 工具。其主要功能就是對源數(shù)據(jù)進行抽取、轉(zhuǎn)換、裝入和加載數(shù)據(jù)。也就是將源數(shù)據(jù)整合為目標(biāo)數(shù)據(jù)。Kettle 中有兩種腳本文件,transformation 和 job,transformation 完成針對數(shù)據(jù)的基礎(chǔ)轉(zhuǎn)換,job 則完成整個工作流的掌握。 Spoon 是一個圖形用戶界面,它允許運行轉(zhuǎn)換或者任務(wù),其中轉(zhuǎn)換是用 pan 工具來運行,任務(wù)是用 Kitchen 來運行。Pan 是一個

2、數(shù)據(jù)轉(zhuǎn)換引擎,它可以執(zhí)行許多功能。例如從不同的數(shù)據(jù)源讀取、操作和寫入數(shù)據(jù)。Kitchen 是一個可以運行利用 xml 或數(shù)據(jù)資源庫描述的任務(wù),通常任務(wù)是在規(guī)定的時間間隔內(nèi)用批處理的模式自動運行。 Kettle 主要包括以下三大塊: 一、Spoon轉(zhuǎn)換/工作(transform/job)設(shè)計工具 (GUI 方式); 二、Kitchen工作(job)執(zhí)行器 (命令行方式) ; 三、Span轉(zhuǎn)換(trasform)執(zhí)行器 (命令行方式)。 的安裝 首先,必需先安裝 Sun 公司的 JAVA 運行環(huán)境以上的版本(包括),并配置好環(huán)境變量; 然后,將下載的 Kettle 軟件解壓到目標(biāo)名目,就可以看到

3、Kettle 的啟動文件或; 最終,運行啟動文件。 Windows 平臺的啟動:雙擊。 Linux 平臺的啟動:雙擊。 的 具體介紹 資源庫管理 登陸時可以選擇'沒有資源庫'即可進入 Kettle,此時所定義的轉(zhuǎn)換和工作將只能存儲在本地磁盤上,以.ktr文件和.kjb文件的方式。若使用資源庫登錄,則全部定義的轉(zhuǎn)換和工作將會存儲到資源庫里。實際上,資源庫就是一個數(shù)據(jù)庫,比如 SQL SERVER 數(shù)據(jù)庫,里面存儲了 Kettle 定義的元素的相關(guān)元數(shù)據(jù),簡潔而言,就是元數(shù)據(jù)庫。假如資源庫創(chuàng)建完畢,則資源庫的相關(guān)信息將存儲在文件 "'中,它位于你的缺省 home

4、名目的隱蔽名目".kettle'中。假如是 windows 系統(tǒng),這個路徑就是 c:Documents andSettingslt;usernamegt;.kettle。 新建資源庫 第一步:點擊登錄時彈出界面的中的"新建'按鈕,即會彈出以下界面: 新建資源庫 第一步:點擊登錄時彈出界面的中的"新建'按鈕,即會彈出以下界面: 其次步:再連續(xù)點擊第一步中界面的"新建'按鈕,即可彈出一下界面: 其次步:再連續(xù)點擊第一步中界面的"新建'按鈕,即可彈出一下界面: 第三步:填寫完以上對話框后,點擊"Tes

5、t'按鈕,假如消失下圖中的提示的"正確連接到數(shù)據(jù)庫',及創(chuàng)建勝利,然后點擊"OK'即可進入下一步。 第四步:完善資源庫信息后,點擊"確定'即可完成資源庫信息創(chuàng)建。 更新資源庫 創(chuàng)建了資源庫后我們可以更新資源庫,點擊首頁的"編輯' 、 "新建'按鈕均可以進入到創(chuàng)建資源庫界面。 當(dāng)數(shù)據(jù)庫連接選擇后,就可以開頭創(chuàng)建資源庫了,單擊"創(chuàng)建或更新'按鈕可以創(chuàng)建新資源庫或者更新原來已有的資源庫,彈出: 選擇"是',彈出: 輸入 Admin 用戶 的密碼(資源庫登陸和用戶管理中

6、描述) , 確定,更新資源庫的步驟類似創(chuàng)建資源庫,不同的是它是創(chuàng)建索引。 資源庫登陸和用戶管理 R_User 和 R_Profile 兩個表存儲了資源庫的用戶信息,包括登錄名、密碼和用戶權(quán)限。綻開兩個表分別做以下說明: R_Profile 表 它說明有 3 種權(quán)限的用戶: 1)Administrator 權(quán)限超級管理員,可以管理其它用戶 ; 2)User 權(quán)限一般用戶,可以使用全部工具; 3)Read-only 只讀用戶,理解為只可讀不行寫,即可以使用工具,但是不能保存信息。 后面再進一步討論 R_User 表: LOGIN 是登錄名,PASSWORD 是密碼(留意密碼是經(jīng)過加密的,所以在此才

7、會以 16 進制顯示,在這里我們不討論加密算法),ENABLED 表示用戶是否可用,Y 是可用,N 是不行用,在工具里體現(xiàn)為: 我們從表中可以看出密碼是經(jīng)過加密的, 由于我們不知道他的加密算法, 我們不知道原密碼。但是我們想通過資源庫登錄 Kettle,假如用 admin(具有超級管理員權(quán)限)能登陸,則可以創(chuàng)建其它權(quán)限 的用戶,從而不再需要這些初始化的用戶信息。 資源庫登錄和沒有資源庫登錄的區(qū)分 使用資源庫登錄后在 Kettle 中定義的轉(zhuǎn)換和 Job 均存儲到資源庫的相關(guān)表中, 若沒有資源庫登錄,則會以.ktr 和.kjb 格式存儲在硬盤上。此外兩者登錄后菜單欄顯示的將不同,并且有些選項功能

8、也不一樣。 1)菜單欄顯示不同 沒有資源庫: 有資源庫: 2)文件菜單欄相關(guān)選項功能不同 l 沒有資源庫: "打開'、 "從 url 文件打開'均是打開硬盤名目下的 .kjb 和 .ktr 文件。 "保存'和"另存為'是把轉(zhuǎn)換和工作以 .ktr 和 .kjb 文件存儲到硬盤上。 l 資源庫登錄: "打開'是打開存儲在資源庫里的轉(zhuǎn)換和工作 。 "從 url 文件打開'是打開硬盤名目下的 .kjb 和 .ktr 文件。 "保存'是把相關(guān)轉(zhuǎn)換存儲到資源庫。 "另存為

9、'是把轉(zhuǎn)換和工作以 .kjb 和 .ktr 文件存儲到硬盤上。 把本地的轉(zhuǎn)換和工作存儲到資源庫只用先打開本地的轉(zhuǎn)換和工作, 點擊保存即可以保存到資源庫中。 第五步:填寫登錄密碼后點擊"確定',即可進入主界面: 菜單欄介紹 文件 新建:新建包括新建轉(zhuǎn)換和新建作業(yè),如下圖所示: 點擊上圖中的轉(zhuǎn)換或作業(yè),都可以彈出新建轉(zhuǎn)換或新建作業(yè)的窗 口。 打開:打開已經(jīng)存在的轉(zhuǎn)換或作業(yè)。 l 在連接資源后點擊打開,是選擇打開資源庫中已經(jīng)存在的對象。 例如: l 在不連接資源庫的狀況下點擊打開時,是選擇存放在硬盤上的轉(zhuǎn)換或作業(yè)打開。 例如: 從 從 URL 打開文件:從 URL 地址打開

10、已經(jīng)存在硬盤上的轉(zhuǎn)換或作業(yè)。 例如: 導(dǎo)出到 XML 文件:將定義的轉(zhuǎn)換和 Job 導(dǎo)出到 xml 文件: 從 XML 文件導(dǎo)入:從導(dǎo)出的 xml 文件中導(dǎo)入定義的轉(zhuǎn)換或 Jobs。 Export all linked resources to XML:導(dǎo)出全部相關(guān)的資源保存為.Zip文件。目前解壓后再次導(dǎo)入時報錯。 保存:保存當(dāng)前的轉(zhuǎn)換或作業(yè)(Jobs)。 另存為(VFS ) :VFS 的作用就是采納標(biāo)準(zhǔn)的 Unix 系統(tǒng)調(diào)用讀寫位于不同物理介質(zhì)上的不同文件系統(tǒng)。 關(guān)閉:關(guān)閉當(dāng)前轉(zhuǎn)換或當(dāng)前作業(yè)。 打?。捍蛴‘?dāng)前轉(zhuǎn)換或當(dāng)前作業(yè)。 退出:退出應(yīng)用程序,即閉 Kettle 的運行程序。 編輯 l

11、撤銷:撤銷前一步操作 。 l 搜尋元數(shù)據(jù):搜尋當(dāng)前轉(zhuǎn)換或 Jobs 的相關(guān)元數(shù)據(jù),可以過濾,可以查看全部,資源庫實際上就是元數(shù)據(jù)庫。 這個選項將在可用的字段、連接器、解釋以及全部加載的任務(wù)和轉(zhuǎn)換中搜尋,并展現(xiàn)搜尋的結(jié)果。 l 設(shè)置環(huán)境變量: 添加設(shè)置環(huán)境變量的功能,使動態(tài)的測試轉(zhuǎn)換變?yōu)榭赡?。通常變量被一個任務(wù)中不同的轉(zhuǎn)換設(shè)置。不管怎么樣,在開發(fā)或者測試期間,你可能需要手動的設(shè)置變量。 可以通過"編輯/Set Environment variables'或者 CTRL+J 來使 用這個特性。當(dāng)運行一個未定義的變量時將消失這個窗口,可以在執(zhí)行的時候去定義它。 變量最先的使用是設(shè)置

12、環(huán)境變量。例如很簡單指定臨時文件的位置,可以使用變量: $,這個變量在/Unix/Linux/OSX 機器上的位置是:directory/tmp,在 Windows 機器上的名目是: c: Documents and Settingslt;usernamegt;Local Settings Temp。 l 顯示環(huán)境變量:見變量敘述 。 l 顯示參數(shù): l 清除選擇: 清除所選的轉(zhuǎn)換或作業(yè)等的步驟,即取消選擇 的步驟。 l 選擇全部的步驟:全選定義的轉(zhuǎn)換或 jobs 的全部步驟。 l 復(fù)制所選的步驟到剪貼板:復(fù)制當(dāng)前所選擇的轉(zhuǎn)換步驟到剪切板。 l 從剪貼板復(fù)制步驟:相當(dāng)于粘貼步驟。 l 掃瞄數(shù)據(jù)

13、庫:單擊掃瞄數(shù)據(jù)庫,彈出選擇對話框 選中一個連接,確定,查看數(shù)據(jù)庫表和視圖等。 數(shù)據(jù)庫掃瞄器允許你掃瞄你連接的數(shù)據(jù)庫。在這個時候,它僅僅顯示可用的表、名目或者表模式。 可以利用右邊的按鈕最低限度的展現(xiàn)表或者視圖。你可以選擇下面的選項: Ø Preview first 100 rows of the table(顯示表最開頭的 100 行) Ø Preview first rows of the table(依據(jù)你輸入的行數(shù)展現(xiàn)表) Ø Number of rows of the table(顯示表的行數(shù)) Ø Show layout out of the

14、 table(顯示表結(jié)構(gòu)) Ø Generate the DDL(生成該表的 DDL 語句) Ø Generate the DDL for another connection(在其它的數(shù)據(jù)庫連接中生成該表的 DDL 語句) Ø Open for SQLthe table(in SQL Editor)(在 SQL 編輯器中生成讀取該表的 SQL 語法) Ø Truncate table (生成"Truncate table'的語句) l 一般項: Kettle 的一般屬性配置選擇,可以轉(zhuǎn)變許多選項來增加圖形用戶界面的共性化。 l 觀感:

15、 Kettle 界面外觀的設(shè)置,例如設(shè)置窗體字體大小、顏色以及背景顏色等等。此選項在 編輯gt;選項gt;觀感中設(shè)置。 視圖 工作區(qū)大小設(shè)定,如下圖所示: 放大(I):放大工作區(qū)。 縮小(O) :縮小工作區(qū)。 等比例(P) :回到最開頭的工作區(qū)。 資源庫 l 連接資源庫:進入登錄首頁連接資源庫。 輸入資源庫名稱、登錄的用戶、密碼等信息后,點擊"確定'按鈕進行登錄,假如點擊"取消',則退出連接資源庫界面;假如點擊"沒有資源庫',則自動進入沒有連接資源庫的界面。 l 斷開資源庫連接: 斷開當(dāng)前已經(jīng)連接上的資源庫。 l 探究資源庫:管理轉(zhuǎn)換、工作

16、、用戶、檔案等。詳情見資源庫中 Administrator 權(quán)限。 l 編輯當(dāng)前用戶:編輯密碼和權(quán)限 轉(zhuǎn)換 l 運行:執(zhí)行當(dāng)前轉(zhuǎn)換。 l 預(yù)覽:預(yù)覽本次轉(zhuǎn)換的結(jié)果。 l 調(diào)試:和預(yù)覽類似。 l 重放:重新運行轉(zhuǎn)換 l 校驗:檢驗轉(zhuǎn)換的輸出 l 影響分析:分析轉(zhuǎn)換的影響 l 獵取 SQL: l 顯示最近一次影響分析: 例如: l 顯示最近一次影響結(jié)果: 例如: l 復(fù)制轉(zhuǎn)換到剪貼板: 將當(dāng)前的轉(zhuǎn)換復(fù)制到剪切板。 l 從剪貼板粘貼轉(zhuǎn)換: 將復(fù)制到剪切板的轉(zhuǎn)換粘貼到新的轉(zhuǎn)換中。假如在同一個開發(fā)界面,則需要關(guān)閉復(fù)制的那個轉(zhuǎn)換,才能對其復(fù)制操作。 l 復(fù)制轉(zhuǎn)換圖片到剪貼板: 類似于將當(dāng)前轉(zhuǎn)換截圖,可將其

17、圖保存到需要的地方。 l 設(shè)置:設(shè)置轉(zhuǎn)換的屬性 作業(yè) l 運行:運行本作業(yè) 。 l 復(fù)制 job 到剪切板: 將當(dāng)前 job 復(fù)制到剪切板。 l 從剪切板粘貼 Paste job: :將復(fù)制到剪切板的 job 粘貼到新的 job中。 l 設(shè)置:設(shè)置 JOB 的屬性, "日志'可以存儲日志信息到數(shù)據(jù)庫表中。 向?qū)?l 創(chuàng)建數(shù)據(jù)庫連接向?qū)В?l 復(fù)制表向?qū)В?l 拷貝表向?qū)В?關(guān)心 l 每天提示: l 顯示歡迎屏幕: l 顯示步驟的插件信息: l 顯示作業(yè)項插件: l 關(guān)于: 工具欄介紹 transformation 的工具欄 Transformation 的工具欄如下圖所示:

18、功能對應(yīng)菜單欄里的轉(zhuǎn)換、文件、視圖等。 l 新建:新建轉(zhuǎn)換、工作等。 l 打開:打開轉(zhuǎn)換或作業(yè)。 l 保存當(dāng)前轉(zhuǎn)換或工作。 l 以不同名字保存當(dāng)前轉(zhuǎn)換或工作,即另存為。 l 運行當(dāng)前工作或轉(zhuǎn)換。 l 暫停當(dāng)前運行的工作或者轉(zhuǎn)換。 l 停止當(dāng)前運行的工作或轉(zhuǎn)換。 l 預(yù)覽這個轉(zhuǎn)換。 l debug 這個轉(zhuǎn)換。 l 重放這個轉(zhuǎn)換。 l 校驗這個轉(zhuǎn)換。 l 分析這個轉(zhuǎn)換在數(shù)據(jù)庫中的影響。 l 獵取 SQL:產(chǎn)生需要運行這個轉(zhuǎn)換的 SQL。 l 相當(dāng)于編輯下的掃瞄數(shù)據(jù)庫。 l 隱蔽、顯示執(zhí)行結(jié)果面板。 l 相當(dāng)與菜單欄里的視圖,放大、縮小工作區(qū)。 Jobs 工具欄 l 新建:新建轉(zhuǎn)換、工作等。 l 打

19、開:打開轉(zhuǎn)換或作業(yè)。 l 保存當(dāng)前轉(zhuǎn)換或工作。 l 以不同名字保存當(dāng)前轉(zhuǎn)換或工作,即另存為。 l 運行當(dāng)前工作或轉(zhuǎn)換。 l 停止當(dāng)前運行的工作或轉(zhuǎn)換。 l 獵取 SQL:產(chǎn)生需要運行這個轉(zhuǎn)換的 SQL。 l 相當(dāng)于編輯下的掃瞄數(shù)據(jù)庫。 l 隱蔽、顯示執(zhí)行結(jié)果面板。 l 相當(dāng)與菜單欄里的視圖,放大、縮小工作區(qū)。 主對象樹 介紹 主對像樹包括轉(zhuǎn)換 transformation 和作業(yè) Jobs,如下圖所示: 的主對象樹 建 新建 transformation 雙擊"轉(zhuǎn)換'或右擊"轉(zhuǎn)換'再選擇"新建',都可以創(chuàng)建一個transformation。

20、創(chuàng)建后的轉(zhuǎn)換 transformation 界面如下所示: transformation 設(shè)置 右鍵單擊"設(shè)置'屬性: 單擊"設(shè)置'轉(zhuǎn)換屬性后界面如下圖所示: 轉(zhuǎn)換 transformation 的屬性設(shè)置界面分別如下所示: l 轉(zhuǎn)換: l paramenters: l 日志: l 日期: l 依靠: l 雜項: l 分區(qū): l 監(jiān)控: 設(shè)置中各選項說明如下: 選項 描述 轉(zhuǎn)換名稱 轉(zhuǎn)換的名稱,假如你想保存到資源庫中,就需要指定一個名稱。 描述 轉(zhuǎn)換的簡短描述,將在資源庫掃瞄器中展現(xiàn)。 擴展描述 轉(zhuǎn)換的具體描述。 狀態(tài) 草稿或者產(chǎn)品狀態(tài) 版本 描述版本 名目

21、 你想保存轉(zhuǎn)換到資源庫的名目 創(chuàng)建者(Created by) 創(chuàng)建轉(zhuǎn)換的用戶名稱 轉(zhuǎn)換創(chuàng)建的時間(Last modified at) 轉(zhuǎn)換創(chuàng)建的時間 轉(zhuǎn) 換最 后 修改 者 的姓 名 (Last modified by) 轉(zhuǎn)換最終修改的用戶 轉(zhuǎn) 換 最 后 修 改 的 時 間 (Last modified at) 轉(zhuǎn)換最終修改的時間 READ 日志步驟 將當(dāng)前步驟讀取行的編號寫入日志表。READ 含義:從源步驟讀取 INPUT 日志步驟 將當(dāng)前步驟輸入行的編號寫入日志表。INPUT 含義:從文件或者數(shù)據(jù)庫輸入 WRITE 日志步驟 將當(dāng)前步驟寫入行的編號寫入日志表。WRITE 含義:寫入到目標(biāo)

22、步驟 OUTPUT 日志步驟 將當(dāng)前步驟輸出行的編號寫入日志表。OUTPUT 含義:輸出到文 件或者數(shù)據(jù)庫 UPDATE 日志步驟 將當(dāng)前步驟更新行的編號寫入日志表。UPDATE 含義:在數(shù)據(jù)庫更新 日志數(shù)據(jù)庫連接 使用這個連接寫到日志表 日志表 指定日志表的名稱 使用批處理-ID 假如想使用批處理-ID,選中此選項 使用日志表來記錄登錄 用CLOB字段在日志表中存儲登錄文本 最大日期數(shù)據(jù)庫連接 通過這個連接獵取日期范圍 最大日期表 通過這個表獵取日期范圍 最大日期字段 通過這個字段獵取日期范圍 最大日期偏移 用這個數(shù)量來增長日期 最大日期區(qū)分 依據(jù)日期圍范獵取最大日期差異 依靠 這個表允許你

23、輸入全部的依靠 記錄集合里面的記錄數(shù) 這個選項允許你轉(zhuǎn)變一個轉(zhuǎn)換中兩個步驟緩沖區(qū)的尺寸 打開日志視圖: 打開歷史視圖: DB 連接 右鍵 "DB 連接'屬性 選擇"新建',或雙擊"DB 連接',都能彈出創(chuàng)建窗口: Kettle支持多種Connection Type,現(xiàn)以oracle為例,創(chuàng)建DB連接,詳細(xì)如下圖所示: Steps( 步驟) 顯示當(dāng)前轉(zhuǎn)換或者工作的全部步驟: l Edit:編輯該步驟的屬性 。 l Duplicate:副本,復(fù)制步驟 。 l 刪除:刪除步驟 。 l Share:共享步驟。 Hops( 節(jié)點連接) 顯示當(dāng)前轉(zhuǎn)換或

24、工作的全部節(jié)點連接(即各步驟之間的數(shù)據(jù)連接,表示數(shù)據(jù)流向) 。 一個連接連接兩個步驟。數(shù)據(jù)流的方向使用箭頭來指定。連接可以使它可用或者禁用。 l Edit:可以對改節(jié)點進行編輯操作。 l 刪除:即刪除該節(jié)點。 數(shù)據(jù)庫分區(qū) schems 右鍵數(shù)據(jù)庫分區(qū): 選擇"新建'菜單: 子服務(wù)器 右鍵單擊"子服務(wù)器 ',如下圖所示: 選擇"新建'菜單,進入子服務(wù)器新建界面: 服務(wù): 代理: Kettle 集群 schems 右鍵"Kettle 集群 schems': 雙擊"Kettle 集群 schems'或右鍵&qu

25、ot;Kettle 集群 schems'后,再選擇"新建',都會彈出新建"Kettle 集群 schems'的新建界面: 主對象樹 Jobs 主對象樹包括 DB 連接、作業(yè)項目、子服務(wù)器,詳細(xì)如下圖所示: 新建 Job 右鍵"Jobs'后選擇"新建'菜單或直接雙擊"Jobs'菜單,都可以實現(xiàn) Job 的新增: 設(shè)置 Job 屬性 右鍵"Jod',可選擇"設(shè)置'菜單: 單擊"設(shè)置'菜單,即會彈出 job 設(shè)置界面,可以對其屬性進行修改: 打開日志

26、視圖: 打開歷史視圖: DB 連接 一個連接描述了 Kettle 連接數(shù)據(jù)庫的方法,在左邊樹菜單的頂部展現(xiàn)了全部可用的連接。 右鍵 DB 連接屬性: 新建、編輯數(shù)據(jù)庫連接: l Connection name:定義轉(zhuǎn)換或者任務(wù)訪問的連接的唯一名稱。 l Connection type:連接的數(shù)據(jù)類型。 l Method of access:可以是 Native(JDBC),ODBC,或者 OCI。 l Server host name:指定數(shù)據(jù)庫部署的主機或者服務(wù)器的名稱,也可以指定 IP 地址。 l Database name:指定連接的數(shù)據(jù)庫的名稱,假如是 ODBC 方式就指定 DSN 名

27、稱。 l Port number:設(shè)定數(shù)據(jù)庫監(jiān)聽的 TCP/IP 端口號。 l User name/password:指定連接數(shù)據(jù)庫的用戶名和密碼。 數(shù)據(jù)庫的用法如下: 數(shù)據(jù)庫 訪 問 方 服務(wù)器名 數(shù)據(jù)庫名稱 端 口 ( 缺 用戶名/ 法 稱/地址 省) 密碼 Oracle Native 需要 Oracle database SID 需 要(1521) 需要 ODBC ODBC DSN name 需要 OCI Database TNS name 需要 MySQL Native 需要 MySQL database name 可 選(3306) 密 碼 可選 ODBC ODBC DSN name

28、 密 碼 可選 MS Access ODBC ODBC DSN name 可選 MS SQL Server Native 需要 Database name 需 要(1433) 需要 ODBC ODBC DSN name 需要 IBM DB2 Native 需要 Database name 需 要(50000) 需要 ODBC ODBC DSN name 需要 AS/400 Native 需要 AS/400 Library name 可選 需要 ODBC ODBC DSN name 需要 Sybase Native 需要 Database name 需 要(5001) 需要 ODBC ODBC

29、DSN name 需要 作業(yè)項目 顯示該作業(yè)中的全部項目: 子服務(wù)器 右鍵單擊"子服務(wù)器'選擇"新建'或雙擊"子服務(wù)器'都可新建子服務(wù)器: 新建"子服務(wù)器'的界面如下所示: 核心對象 介紹 核心對象包括轉(zhuǎn)換 transformation 和作業(yè) Jobs 的核心對象。即轉(zhuǎn)換和作業(yè)中用到的各種組件。 核心對象 Transformation 核心對象是 Kettle 中轉(zhuǎn)換的全部組件。詳細(xì)如下圖所示: Transform Transform:轉(zhuǎn)換。 Dummy Plugin:空操作,即是一個空的測試步驟。 Input Inpu

30、t:導(dǎo)入數(shù)據(jù)。 ESRI Shapefile Reader ESRI Shapefile Reader:讀取矢量數(shù)據(jù),即從 SHP 文件中讀取圖形數(shù)據(jù)和屬性數(shù)據(jù)。 Shapefile 是 ESRI 以表達和儲存地圖要素的數(shù)據(jù)文件格式; 1)shp 文件:它是 shapefiles 的主體文件,用來儲存地圖要素坐標(biāo)數(shù)據(jù)及幾何數(shù)據(jù)。 2)shx 文件:它是用來儲存地圖要素之間隸屬關(guān)系的 。 3)dbf 文件它是以 DBase 關(guān)系數(shù)據(jù)文件的方式儲存各地圖要素的屬性。 S3 CSV Input S3 CSV Input:CSV 文件輸入,即將讀取的 CSV 文件數(shù)據(jù)并行存儲到 Amazon 中。 輸

31、入 Kettle 支持以下各種數(shù)據(jù)輸入選項: Access Input Access Input:導(dǎo)入數(shù)據(jù)庫文件,即從微軟數(shù)據(jù)庫文件中讀取數(shù)據(jù)。 右鍵單擊或者直接雙擊圖標(biāo),選擇"編輯步驟'開頭配置: (1)先選擇源 ACCESS 文件 文件中先點擊掃瞄,定位到已存在的 ACCESS 數(shù)據(jù)庫文件: 當(dāng)點擊"增加'按鈕后,即可將文件路徑添加到選中的文件筐中: (2)內(nèi)容中選擇表 (3)字段選擇 選擇輸入數(shù)據(jù)的字段 CSV file input CSV file input:導(dǎo)入 CSV 文件,即導(dǎo)入簡潔的 CSV 文件。 CSV 逗號分隔值文件(Comma Se

32、parated value) ,是一種用來存儲數(shù)據(jù)的純文本文件格式,通常用于電子表格或數(shù)據(jù)庫軟件。 l Step name:步驟名稱。 l File name:文件名稱。 l Delimiter:分隔符。 l Endosure: l NIO buffer size:NIO 緩存大小。 l Lazy conversion: l Header row present: l Add filename to result: l The row number field name(optional): l Running in parallel:并行運行。 l File encoding: 字符集選擇。

33、 Cube 輸入 Cube 輸入:導(dǎo)入 Cube 文件,即從一個 cube 文件中讀取數(shù)據(jù)。 在 BI 領(lǐng)域,CUBE 是多維立方體的簡稱,主要用于支持聯(lián)機分析應(yīng)用(OLAP) ,為企業(yè)決策供應(yīng)支持。Cube 文件擴展名是.cube。 Excel 輸入 Excel 輸入:導(dǎo)入 Excel 文件,即從微軟的 Excel 文件中讀取數(shù)據(jù),兼容 Excel 95,97,2021。 (1)文件 掃瞄并選擇 Excel 文件,然后點擊增加按鈕增加選中的文件到列 表中。 (2)工作表 選擇 EXCEL 文件中的工作表: (3)內(nèi)容 以下設(shè)置會在輸出表中顯示: (4)錯誤處理 假如選擇忽視錯誤選項后,上圖中

34、的灰色部分變?yōu)榭捎?,如下圖 所示: (5)字段 輸入數(shù)據(jù)的相關(guān)字段,例如: 選項內(nèi)容說明如下: l 頭部:檢查是否工作表指定了一個頭部行。 l 非空記錄:檢查是否不需要空行輸出。 l 停在空記錄:當(dāng)步驟在讀取工作表遇到一個空行的時候停止讀取。 l 文件名稱字段:步驟輸出指定一個包含文件名的字段。 l 工作表名稱字段:步驟輸出指定一個包含工作表名稱的字段。 l Sheet row nr field:步驟輸出指定一個包含工作表行數(shù)的字段。工作表行數(shù)是實際的 EXCEL 工作表的行數(shù)。 l Row nr written field: 步驟輸出指定一個包含行數(shù)的字段。 l 限制:限制輸出的行數(shù),0 代

35、表輸出全部行。 Fixed file input Fixed file input:導(dǎo)入文本文件,即導(dǎo)入文本文件。 固定長度的數(shù)據(jù)輸入,編輯步驟: Generate random value Generate random value:生成隨機數(shù),即隨機數(shù)生成器。 產(chǎn)生一個某類型的隨機值,編輯步驟: Get file Names Get file Names:獲得文件名稱,即從系統(tǒng)中獲得文件并將其發(fā)送到下一步。 得到硬盤上文件的具體信息: 文件: 過濾: Get Files Rows Count Get files Rows Count:獵取文件行數(shù),即獵取文件行數(shù)。 文件: 內(nèi)容: Get

36、SubFolder names Get SubFolder names:獵取子文件夾名稱,即讀取一個主文件夾獵取全部的子文件。 文件: 設(shè)置: Get data from XML Get data from XML:從 xml 文件中獵取數(shù)據(jù),即使用 XPath 路徑讀取 xml 文件,這個步驟也允許你解析以前字段定義的 xml 文件。 選擇.xml 文件后點擊"Add'按鈕后如下圖所示: 文件: 內(nèi)容: 字段: LDAP Input 使用 LDAP 協(xié)議讀取遠(yuǎn)程數(shù)據(jù),即利用 LDAP 協(xié)議連接遠(yuǎn)程主機讀取數(shù)據(jù)。 一般: 內(nèi)容: 字段: LDIF Input LDIF Inp

37、ut:導(dǎo)入 LDIF 文件,即從 LDIF 文件中讀取數(shù)據(jù)。 文件: 內(nèi)容: 字段: Mondrian Input Mondrian Input:導(dǎo)入 MDX 文件,即用 MDX 查詢語句執(zhí)行和審核數(shù)據(jù),分析 LDAP 服務(wù)器。 Property Input Property Input:導(dǎo)入屬性文件,即從屬性文件中讀入鍵值對。 從 properties 文件中輸入數(shù)據(jù): 文件: 內(nèi)容: 字段: RSS Input RSS Input:導(dǎo)入 RSS 訂閱,即讀取 RSS 訂閱信息。 一般: 內(nèi)容: 字段: SalesForce Input SalesForce Input:導(dǎo)入 salesfo

38、rce 服務(wù),即讀取slaseforce 模塊服務(wù),并將其轉(zhuǎn)換成數(shù)據(jù),并把這些數(shù)據(jù)寫入多個輸出流。 設(shè)置: 內(nèi)容: 字段: XBase 輸入 XBase 輸入:導(dǎo)入 DBF 文件,即從一個 XBase 類型的 DBF 文件中讀取記錄。 使用這一步可以讀取大多數(shù)被稱為 XBase family 派生的 DBF 文件: l 步驟名稱:步驟的名稱,在單個轉(zhuǎn)換中必需唯一。 l 文件名:用變量支持。 l Limit size :讀取行的數(shù)量,0 表示不限制。 l : 增加記錄行數(shù):用包含行號的指定名稱,添加一個字段到輸出中。 文本文件輸入 從文本文件中讀取數(shù)據(jù)出來,編輯步驟 (1) 文件 增加文件,包括

39、路徑: (2)內(nèi)容: 根據(jù)文本內(nèi)容的分隔樣式來輸入數(shù)據(jù) (3)錯誤處理 做些什么。 選項 描述 忽視錯誤 假如在解析的時候忽視錯誤,就指定這個選項 跳過錯誤行 使用這個選項來跳過那些消失錯誤的行。你可以生成另外的文件來包含發(fā)生錯誤的行號。假如不跳過錯誤行,解析錯誤字段將是空的 錯誤計數(shù)字段 在輸出流行中增加一個字段,這個字段將包含錯誤發(fā)生的行數(shù) 錯誤字段字段名 在輸出流行中增加一個字段,這個字段將包含錯誤發(fā)生的字段名稱 錯誤文本字段名 在輸出流行中增加一個字段,這個字段將包含解析錯誤發(fā)生字段的描述 警告文件名目 當(dāng)警告發(fā)生的時候,它們將被放進這個名目。文件名將是lt;警告名目gt;/文件名.l

40、t;日期時間gt;.lt;警告文件擴 展gt; 錯誤文件名目 當(dāng)錯誤發(fā)生的時候,它們將被放進這個名目。文件名將是lt;錯誤文件名目gt;/文件名.lt;日期時間gt;.lt;錯誤文件擴展gt; 失敗行數(shù)文件名目 當(dāng)解析行的時候發(fā)生錯誤,行號將被放到這個名目。文件名將是lt;錯誤行名目gt;/文件名.lt;日期時間gt;.lt;錯誤行擴展gt; (4)過濾 在"過濾'標(biāo)簽中,你可以指定文本文件中要過濾的: 選項 描述 過濾字符 搜尋字符串 過濾位置 在行中過濾字符串必需存在的位置。0 是起始位置,假如你指定一個小于 0 的值,過濾器將搜尋整個字符 停 止 在 過濾器 假如你想在

41、文本文件遇到過濾字符的時候,停止處理,就指定 Y (5)字段 選項 描述 名稱 字段名稱 類型 字段類型(String、Date、Number 等) 格式 長度 對于 Number:有效數(shù)的數(shù)量 對于 String:字符的長度 對于 Date:打印輸出字符的長度(例如 4 代表返回年份) 精度 對于 Number:浮點數(shù)的數(shù)量 對于 String,Date,Boolean:未使用 貨幣類型 用來解釋如$10,的數(shù)字 小數(shù) 小數(shù)點可以是'.'(10;或者',',00) 分組 分組可以是'.'(10;或者',',00) 假如為空 空值

42、處理為 默認(rèn) 字段為空的時候的默認(rèn)值 去空字符串 處理之前先去空 重復(fù) Y/N:假如在當(dāng)前行中對應(yīng)的值為空,則重復(fù)最終一次不為空的值 生成記錄 生成一些空記錄或相等的行,編輯步驟,例如: 點擊"預(yù)覽'后,則消失以下界面 獵取系統(tǒng)信息 獵取系統(tǒng)的相關(guān)信息,編輯步驟: 輸入名稱,點擊類型,選擇信息的類型,有以下類型的數(shù)據(jù): 表輸入 從數(shù)據(jù)庫表中讀取信息: 這一步經(jīng)常用來利用連接和 SQL,從數(shù)據(jù)庫中讀取信息。自動生成基本的 SQL 語句。 選項 描述 步驟名稱 步驟的名稱,在單一的步驟中,名稱必需唯一 連接 讀取數(shù)據(jù)的數(shù)據(jù)庫連接 SQL SQL 語句用來從數(shù)據(jù)庫連接中讀取數(shù)據(jù) 從

43、 步 驟 插 入數(shù)據(jù) 指定我們期盼讀取數(shù)據(jù)的步驟名稱。這些信息能被插入到 SQL 語句 限制 設(shè)置從數(shù)據(jù)庫中讀取的行數(shù)。0 全部行 (1) 若選中 ,會發(fā)覺中文內(nèi)容會顯示為亂碼 。 (2) 記錄數(shù)限制為 0 時即無限制 。 (3) 意為從前面步驟插入數(shù)據(jù)到此 (4)點擊 按鈕,彈出數(shù)據(jù)庫內(nèi)容對話框: 點擊左邊的表,右邊呈現(xiàn)可用狀態(tài) 選擇輸入表后,點擊"確認(rèn)'按鈕,會提示: 再點擊"是'按鈕,機會消失以下界面: 再點擊上圖中的"確定'按鈕后,即完成輸入表的配置。 輸出 Kettle 支持以下各種形式的數(shù)據(jù)輸出,詳細(xì)如下圖所示: Access

44、Output Access Output:導(dǎo)出數(shù)據(jù),即記錄存儲到微軟的數(shù)據(jù)庫表中。 Database filename 直接輸入名字即可,不需要首先創(chuàng)建,最好不要用中文 Target table 直接輸入名字即可,不要用中文,轉(zhuǎn)換運行過程中自動創(chuàng)建 ACCESS 數(shù)據(jù)庫文件和表。Access 輸出是輸出從前面來的全部字段信息,若要選擇相關(guān)字段,則在之前用到以下控件: Cube 輸出 Cube 輸出:導(dǎo)出 Cube 文件,即數(shù)據(jù)寫入 Cube 文件中。 在 BI 領(lǐng)域,CUBE 是多維立方體的簡稱,主要用于支持聯(lián)機分析應(yīng)用(OLAP) ,為企業(yè)決策供應(yīng)支持。輸出數(shù)據(jù)到 Cube 文件中: Exc

45、el Output Excel Output:導(dǎo)出 Excel 文件,即儲記錄到 Excel 格式化文檔中。 (1) 文件 Excel 輸出中文件選項設(shè)置界面如下圖所示: (2) 內(nèi)容 (3) 字段 Properties Output Properties Output:導(dǎo)出屬性信息,即數(shù)據(jù)寫入屬性文件。 Properties 格式文件是 Java 中的文件,類似 XML 文件,都是用來按肯定結(jié)構(gòu)保存數(shù)據(jù)的,一般用于資源文件、配置文件,xml 也多用于數(shù)據(jù)傳輸。詳細(xì)干什么用要看業(yè)務(wù)需求。使用 MyEclipse Text Editor 可以編輯、打開此格式文件: 編輯步驟: 選擇字段名稱和字段

46、值: 一般: Content(內(nèi)容) :選擇輸出文件路徑 RSS Output RSS Output:導(dǎo)出 RSS 訂閱信息,即讀 RSS 訂閱信息流。 Chanel: Item:項。 custom output:自定義輸出。 Custom Namespace:自定義命名空間。 Output File:出文件。 SQL File Output SQL File Output:導(dǎo)出 SQL 文件,即 QL INSERT 語句輸出到文件。 把"數(shù)據(jù)輸入到相關(guān)數(shù)據(jù)庫表'這個過程的 SQL 插入語句輸出到 Sql 腳本文件,但是并不完成數(shù)據(jù)到數(shù)據(jù)庫表的插入,只是生成 Sql 操作腳本

47、。 編輯步驟: General(通用) :一般。 內(nèi)容: Synchronize after merge Synchronize after merge:并后同步信息,即依據(jù)某個字段值的條件插入,刪除,更新數(shù)據(jù)庫表。 一般: Advanced: XML 輸出 輸出數(shù)據(jù)到 XML 文件中選擇文件路徑: 文件: 選擇 XML 文件存儲路徑 內(nèi)容: 設(shè)置輸出 xml 文件的相關(guān)屬性,詳細(xì)如何體現(xiàn)可以在 xml 文件中看出, 分割每一個記錄: 意思為每一個 xml 文件中的記錄數(shù), 比如共有 50 行記錄, 則會產(chǎn)生 50/5=10 個 xml 文件,若為 0 表示無限制,只產(chǎn)生一個 xml 文件,存

48、儲全部輸入的數(shù)據(jù): 字段: 選擇相關(guān)字段,點擊可以獲得全部字段 XML 輸出各選項說明如下: 選項 描述 步驟名稱 步驟的名稱,在單一轉(zhuǎn)換中必需唯一。 文件名稱 指定輸出文件的名稱和位置。 擴展名 添加一個點和擴展到文件名的后面(.xml) 文件名中包含步驟號碼 假如你在多個拷貝中運行一個步驟,在文件擴展名的前面,將包含拷貝的號碼 文件名中包含日期 文件名中包含系統(tǒng)日期(_) 文件名中包含時間 文件名中包含系統(tǒng)時間(_235959) 分割每一個行 在其它的 XML 文件被創(chuàng)建之前,放入 XML 文件中的最大行數(shù) 已壓縮 是否想把 XML 文件存儲在一個歸檔文件中 正在編碼 正在使用的編碼。編碼

49、在 XML 文件的頭部指定 父 XML 元素 XML 文檔的根元素的名稱 記錄 XML 元素 XML 文檔的記錄元素的名稱 字段 l 字段名:字段的名稱 l 元素名稱:XML 文件使用的元素的名稱 l 類型:字段的類型 l 格式:請參照 l 長度:輸出字符串將填補為指定的長度 l 精度:使用的精度 l 貨幣:代表目前的貨幣符號如$10, l 十進制:小數(shù)點可以是".'或者",' l 分組:分組符可以是",'或者".' l NULL:假如字段值為空將被此值替換 刪除 基于關(guān)鍵字刪除目的表記錄: 表字段:目的表里的字段。 流里

50、的字段:前面輸入數(shù)據(jù)流中的字段,首先選擇目的表 stu,然后選擇關(guān)鍵字。刪除符合肯定條件的目的表里的數(shù)據(jù), 條件即為: 目的表中關(guān)鍵字段值與輸入數(shù)據(jù)中的關(guān)鍵字段值相等。 如以上就是刪除 stu 表中 BJDM 存在于輸入數(shù)據(jù)流中 bjdm 字段的同學(xué)記錄,相當(dāng)于 sql 語句: Delete from stu where bjdm in (select bjdm from 輸入表),若是多個條件則條件為 and 形式,如: Delete from stu where bjdm in (select bjdm from 輸入表) and bjmc in (select bj dm from 輸入

51、表)。 插入/ 更新 基于關(guān)鍵字更新或插入記錄到數(shù)據(jù)庫,編輯步驟: 這個步驟利用查詢關(guān)鍵字在表中搜尋行。假如行沒有找到,就插入行;假如能被找到,并且要被更新的字段沒有任何轉(zhuǎn)變,就什么也不做,假如有不同,行就會被更新。 解釋: l 步驟名稱:步驟的名稱,在單個轉(zhuǎn)換中必需唯一。 l 連接:目標(biāo)表所在的數(shù)據(jù)庫連接名稱。 l 目標(biāo)模式:要寫入數(shù)據(jù)的表的 Schema 名稱。允許表名中包含".'是很重要的。 l 目標(biāo)表:想插入或者更新的表的名稱。 l Commit size:提交之前要轉(zhuǎn)變(插入/更新)的行數(shù)。 l 不執(zhí)行任何更新:假如被選擇,數(shù)據(jù)庫的值永久不會被更新,僅僅可以插入。

52、l 用來查詢的關(guān)鍵字:可以指定字段值或者比較符??梢杂靡韵卤容^符:=,lt;gt;,lt;,lt;=,gt;,LIKE,BETWEEN,IS NULL,IS NOT NULL。 l 更新字段:指定你想要插入/更新的字段 l "獵取字段'按鈕:從輸入流中獵取字段,并且把他們填充到關(guān)鍵字網(wǎng)格中。 l "獵取更新字段'按鈕:從輸入流中獵取更新字段,并且把他們填充到更新網(wǎng)格中。 l "Check'按鈕:檢查目標(biāo)表中是否全部的字段都可用。 l "SQL'按鈕:為正確操作,生成創(chuàng)建表和索引的 SQL 腳本。 文本文件輸出 輸入數(shù)據(jù)到文本文件中: 文件中可以寫入文本名字,擴展名 txt,以及其它信息; 內(nèi)容中可以定義分隔符; 字段中可以選擇前面數(shù)據(jù)流來的字段。 更新 基于關(guān)鍵字更新記錄到數(shù)據(jù)庫,這個步驟類似于插入/更新步驟,除了對數(shù)據(jù)表不作插入操作之外。它僅僅執(zhí)行更新操作。 編輯步驟: 表輸出 輸出數(shù)據(jù)到數(shù)據(jù)庫表中,如 ACCESS、Oracle、sql server 等表中,一般表示的是 Oracle、sql 等表,由于有特地的 。 假如要選擇輸入到表中的數(shù)據(jù)的相關(guān)字段,可以做如下操作: (1) 先勾選 (2) 設(shè)置映射: (3)提交記錄數(shù) 沒什么作用,選擇 1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論