樣本數(shù)據(jù)處理 課件 第5、6章 數(shù)據(jù)標(biāo)注、Kettle 作業(yè)設(shè)計(jì)_第1頁(yè)
樣本數(shù)據(jù)處理 課件 第5、6章 數(shù)據(jù)標(biāo)注、Kettle 作業(yè)設(shè)計(jì)_第2頁(yè)
樣本數(shù)據(jù)處理 課件 第5、6章 數(shù)據(jù)標(biāo)注、Kettle 作業(yè)設(shè)計(jì)_第3頁(yè)
樣本數(shù)據(jù)處理 課件 第5、6章 數(shù)據(jù)標(biāo)注、Kettle 作業(yè)設(shè)計(jì)_第4頁(yè)
樣本數(shù)據(jù)處理 課件 第5、6章 數(shù)據(jù)標(biāo)注、Kettle 作業(yè)設(shè)計(jì)_第5頁(yè)
已閱讀5頁(yè),還剩64頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)標(biāo)注新工科建設(shè)之路·數(shù)據(jù)科學(xué)與大數(shù)據(jù)系列樣本數(shù)據(jù)處理第五章01數(shù)據(jù)標(biāo)注簡(jiǎn)介舉個(gè)簡(jiǎn)單的例子,當(dāng)我們給孩子介紹汽車時(shí),把對(duì)應(yīng)的圖片展示在孩子面前,讓他記住汽車是有4個(gè)輪子、有不同的顏色,能在路上行駛的一種交通工具,當(dāng)孩子下次在大街上遇到真正的汽車時(shí),也能認(rèn)識(shí)到這是“汽車”。數(shù)據(jù)標(biāo)注是什么簡(jiǎn)而言之,數(shù)據(jù)標(biāo)注工作就是通過分類、畫框、標(biāo)注、注釋等方法,對(duì)圖片、語(yǔ)音、文本等數(shù)據(jù)進(jìn)行處理,標(biāo)記對(duì)象的特征,以作為機(jī)器學(xué)習(xí)的基礎(chǔ)素材。由于機(jī)器學(xué)習(xí)需要大量的素材并反復(fù)學(xué)習(xí)來(lái)訓(xùn)練模型和提高精度,同時(shí)無(wú)人駕駛、智慧醫(yī)療、語(yǔ)音交互等各大應(yīng)用場(chǎng)景都需要標(biāo)注數(shù)據(jù)提供素材支持,因此標(biāo)注工程師的崗位應(yīng)運(yùn)而生。目前,在人工智能研究中,語(yǔ)音應(yīng)答交互系統(tǒng)是一個(gè)重要分支,其中聊天機(jī)器人最為熱門,蘋果的Siri、小米的小愛同學(xué)等應(yīng)用已經(jīng)深入人們的日常生活。語(yǔ)音標(biāo)注自然語(yǔ)言處理是人工智能的一門分支學(xué)科,為了滿足自然語(yǔ)言處理不同層次的需要,對(duì)文本數(shù)據(jù)進(jìn)行標(biāo)注是其中一個(gè)關(guān)鍵的環(huán)節(jié)。文本標(biāo)注數(shù)據(jù)標(biāo)注分類簡(jiǎn)介提到數(shù)據(jù)標(biāo)注,人們最直觀的印象就是圖像標(biāo)注。在人工智能與各行各業(yè)應(yīng)用相結(jié)合的研究過程中,圖像標(biāo)注扮演著重要的角色。圖像標(biāo)注該步驟提供了很多常規(guī)的字符操作,如大小寫轉(zhuǎn)換,字符填充、移除空白字符等。字段選擇剪切字符串。字符串剪切這3個(gè)步驟通過使用分隔符來(lái)拆分、合并字段。拆分字段、合并字段和拆分字段成多行Kettle常用的數(shù)據(jù)清洗步驟數(shù)據(jù)標(biāo)注流程簡(jiǎn)介數(shù)據(jù)標(biāo)注的質(zhì)量直接關(guān)系到模型訓(xùn)練的效果,因此數(shù)據(jù)標(biāo)注有一套標(biāo)準(zhǔn)的數(shù)據(jù)標(biāo)注流程,以對(duì)圖像、語(yǔ)音、文本等進(jìn)行有序而有效的標(biāo)注。數(shù)據(jù)標(biāo)注流程如圖5-4所示。數(shù)據(jù)采集數(shù)據(jù)采集是整個(gè)數(shù)據(jù)標(biāo)注流程的首要環(huán)節(jié)。目前對(duì)于數(shù)據(jù)標(biāo)注平臺(tái)而言,其數(shù)據(jù)主要來(lái)自提出標(biāo)注需求的人工智能相關(guān)企業(yè)。數(shù)據(jù)清洗獲取數(shù)據(jù)后,并不是所有數(shù)據(jù)都能夠直接使用,有些數(shù)據(jù)是不完整、不一致、有噪聲的臟數(shù)據(jù),經(jīng)過數(shù)據(jù)預(yù)處理之后,才能真正投入問題的分析研究中。數(shù)據(jù)標(biāo)注流程簡(jiǎn)介數(shù)據(jù)標(biāo)注數(shù)據(jù)經(jīng)過清洗后,就進(jìn)入數(shù)據(jù)標(biāo)注的核心環(huán)節(jié)。一般在正式標(biāo)注前,會(huì)進(jìn)行試標(biāo),即由需求方的工程師給出標(biāo)注樣板,并為具體標(biāo)注人員詳細(xì)闡述標(biāo)注需求與標(biāo)注規(guī)則,經(jīng)過充分討論與溝通,確保最終數(shù)據(jù)輸出的格式和質(zhì)量符合要求。數(shù)據(jù)質(zhì)檢由于數(shù)據(jù)標(biāo)注是人工處理的過程,所以它并不能保證完全準(zhǔn)確。為了提高輸出數(shù)據(jù)的準(zhǔn)確率,還需要數(shù)據(jù)質(zhì)檢,而最終通過質(zhì)檢環(huán)節(jié)的數(shù)據(jù)才可以真正投入使用。數(shù)據(jù)標(biāo)注流程簡(jiǎn)介02數(shù)據(jù)標(biāo)注分類圖像標(biāo)注是數(shù)據(jù)標(biāo)注的重要類型之一,也是最廣泛、最普遍的一種數(shù)據(jù)標(biāo)注類型。圖像標(biāo)注問題的本質(zhì)是把視覺轉(zhuǎn)換成語(yǔ)言的問題,通俗來(lái)說,就是“看圖說話”。同理,我們希望算法能夠根據(jù)圖像的特征,得出描述其內(nèi)容含義的自然語(yǔ)句和自然語(yǔ)言。這對(duì)于人類來(lái)說不算什么,但是對(duì)于計(jì)算機(jī)來(lái)說,卻是一個(gè)不小的挑戰(zhàn)。因?yàn)閳D像標(biāo)注問題需要在圖像信息和文本信息這兩種不同形式的類型之間進(jìn)行“翻譯”。圖像標(biāo)注圖像標(biāo)注的原理:理解圖像標(biāo)注,首先要理解機(jī)器學(xué)習(xí)。圖像標(biāo)注的應(yīng)用領(lǐng)域:如今,圖像標(biāo)注主流的應(yīng)用領(lǐng)域有車輛識(shí)別標(biāo)注、人像識(shí)別標(biāo)注、醫(yī)療影像標(biāo)注、機(jī)械影像標(biāo)注等領(lǐng)域。圖像標(biāo)注在客服行業(yè),文本標(biāo)注主要應(yīng)用于場(chǎng)景識(shí)別和應(yīng)答識(shí)別??头袠I(yè)線上平臺(tái)標(biāo)注和線下表格標(biāo)注是金融行業(yè)文本標(biāo)注主要的標(biāo)注形式。金融行業(yè)在醫(yī)療行業(yè),對(duì)自然語(yǔ)言進(jìn)行標(biāo)記處理,對(duì)專業(yè)度要求比較高,需要資深醫(yī)學(xué)研究者才能進(jìn)行標(biāo)注。醫(yī)療行業(yè)文本標(biāo)注語(yǔ)音標(biāo)注與我們生活的眾多方面都息息相關(guān)。例如,我們使用的聊天軟件可以將語(yǔ)音轉(zhuǎn)換成文字;地圖App上的語(yǔ)音問路功能,或者購(gòu)物網(wǎng)站的智能客服,直接對(duì)它說出問題,智能客服就會(huì)給出對(duì)應(yīng)的回答。這些場(chǎng)景前期都需要大量的標(biāo)注語(yǔ)料,去標(biāo)記這些“說出的話”所對(duì)應(yīng)的“文字”,再一點(diǎn)點(diǎn)去修正語(yǔ)音和文字間的誤差。這就是語(yǔ)音標(biāo)注。語(yǔ)音標(biāo)注03數(shù)據(jù)標(biāo)注質(zhì)量檢驗(yàn)數(shù)據(jù)標(biāo)注質(zhì)量的影響機(jī)器學(xué)習(xí)是一種從數(shù)據(jù)中自動(dòng)訓(xùn)練獲得規(guī)律,并利用得到的規(guī)律對(duì)未知數(shù)據(jù)進(jìn)行處理的過程。要讓機(jī)器學(xué)習(xí)從數(shù)據(jù)中更準(zhǔn)確有效地獲得規(guī)律,就需要數(shù)據(jù)標(biāo)注提供準(zhǔn)確、高質(zhì)量的學(xué)習(xí)素材。雖然機(jī)器學(xué)習(xí)領(lǐng)域在算法上取得了重大突破,由淺層學(xué)習(xí)轉(zhuǎn)變?yōu)樯疃葘W(xué)習(xí),但高質(zhì)量的標(biāo)注數(shù)據(jù)集依然是影響深度學(xué)習(xí)發(fā)展的一個(gè)重要因素。機(jī)器學(xué)習(xí)的訓(xùn)練效果的基礎(chǔ)是高質(zhì)量的數(shù)據(jù)集,如果訓(xùn)練中使用的標(biāo)注數(shù)據(jù)集存在大量噪聲,將會(huì)導(dǎo)致機(jī)器學(xué)習(xí)的訓(xùn)練效果較差,無(wú)法獲得規(guī)律,這樣在訓(xùn)練效果驗(yàn)證時(shí)會(huì)出現(xiàn)與目標(biāo)存在較大偏差,無(wú)法正確識(shí)別的情況。圖像標(biāo)注的質(zhì)量標(biāo)準(zhǔn)對(duì)比人眼所見的圖像而言,計(jì)算機(jī)所見的圖像是一堆數(shù)字。圖像標(biāo)注就是根據(jù)需求將這一堆數(shù)字劃分區(qū)域,讓計(jì)算機(jī)在劃分出來(lái)的區(qū)域中找尋數(shù)字的規(guī)律。語(yǔ)音標(biāo)注的質(zhì)量標(biāo)準(zhǔn)語(yǔ)音標(biāo)注在質(zhì)量檢驗(yàn)時(shí)需要在比較安靜的獨(dú)立環(huán)境中進(jìn)行,在語(yǔ)音標(biāo)注的質(zhì)量檢驗(yàn)中,質(zhì)檢員需要做到眼耳并用,時(shí)刻關(guān)注語(yǔ)音數(shù)據(jù)發(fā)音的時(shí)間軸與標(biāo)注區(qū)域的音標(biāo)是否相符,檢驗(yàn)每個(gè)字的標(biāo)注是否與語(yǔ)音數(shù)據(jù)發(fā)音的時(shí)間軸保持一致。數(shù)據(jù)標(biāo)注的質(zhì)量標(biāo)準(zhǔn)文本標(biāo)注的質(zhì)量標(biāo)準(zhǔn)文本標(biāo)注是一類較為特殊的標(biāo)注,不僅有基礎(chǔ)的標(biāo)框標(biāo)注,還需要根據(jù)不同需求進(jìn)行多音字標(biāo)注、語(yǔ)義標(biāo)注等。多音字標(biāo)注的質(zhì)量標(biāo)準(zhǔn)就是標(biāo)注一個(gè)字的全部讀音,這需要借助字典等專業(yè)性工具進(jìn)行檢驗(yàn)。數(shù)據(jù)標(biāo)注的質(zhì)量標(biāo)準(zhǔn)實(shí)時(shí)檢驗(yàn)是現(xiàn)場(chǎng)檢驗(yàn)和流動(dòng)檢驗(yàn)的一種方式,一般安排在數(shù)據(jù)標(biāo)注任務(wù)進(jìn)行過程中,從而能夠及時(shí)發(fā)現(xiàn)問題并解決問題。實(shí)時(shí)檢驗(yàn)全樣檢驗(yàn)是數(shù)據(jù)標(biāo)注任務(wù)完成交付前必不可少的過程,沒有經(jīng)過全樣檢驗(yàn)的數(shù)據(jù)標(biāo)注是無(wú)法交付的。全樣檢驗(yàn)抽樣檢驗(yàn)是產(chǎn)品生產(chǎn)中一種輔助性檢驗(yàn)方法。在數(shù)據(jù)標(biāo)注中,為了保證數(shù)據(jù)標(biāo)注的準(zhǔn)確性,將抽樣檢驗(yàn)方法進(jìn)行疊加,形成多重抽樣檢驗(yàn)方法。抽樣檢驗(yàn)數(shù)據(jù)標(biāo)注質(zhì)量檢驗(yàn)04圖像數(shù)據(jù)標(biāo)志實(shí)戰(zhàn)車輛車牌標(biāo)注1.準(zhǔn)備數(shù)據(jù)源和輸出目錄準(zhǔn)備數(shù)張待標(biāo)注的圖片,圖片中包含能看到車牌的汽車,將圖片放在同一個(gè)目錄下,這里我們將待標(biāo)注的圖片放在/home/ubuntu/dl_pic/plate/source目錄下,如圖5-23所示。車輛車牌標(biāo)注2.打開數(shù)據(jù)標(biāo)注平臺(tái)在已經(jīng)安裝Dlabel的Linux環(huán)境中打開命令行,輸入“dlabel”并按Enter鍵,打開數(shù)據(jù)標(biāo)注平臺(tái),Dlabel主界面如圖5-24所示。車輛車牌標(biāo)注3.在數(shù)據(jù)標(biāo)注平臺(tái)中創(chuàng)建資源鏈接打開數(shù)據(jù)標(biāo)注平臺(tái),進(jìn)入鏈接列表頁(yè)面,單擊鏈接列表右側(cè)的加號(hào)按鈕進(jìn)入鏈接設(shè)置,如圖5-25所示。車輛車牌標(biāo)注4.創(chuàng)建標(biāo)注項(xiàng)目在主頁(yè)(見圖5-26)單擊“新建項(xiàng)目”按鈕跳轉(zhuǎn)至項(xiàng)目設(shè)置頁(yè)面。車輛車牌標(biāo)注如圖5-27所示,在項(xiàng)目“名稱”文本框中填寫“車牌標(biāo)注”;設(shè)置“安全令牌”為“創(chuàng)建新的安全令牌”,生成新的安全令牌;設(shè)置“數(shù)據(jù)源鏈接”為先前創(chuàng)建的“車牌”,“輸出目錄鏈接”為先前創(chuàng)建的“輸出目錄(車牌)”。車輛車牌標(biāo)注5.創(chuàng)建標(biāo)簽并標(biāo)注單擊圖5-28右側(cè)標(biāo)簽工具欄中的加號(hào)按鈕,進(jìn)入標(biāo)簽創(chuàng)建模式。車輛車牌標(biāo)注6.配置導(dǎo)出格式并導(dǎo)出標(biāo)注結(jié)果如圖5-31所示,單擊導(dǎo)航欄中的“導(dǎo)出”標(biāo)簽進(jìn)入導(dǎo)出設(shè)置頁(yè)面。遙感影像標(biāo)注準(zhǔn)備待標(biāo)注的衛(wèi)星地形監(jiān)控圖片,這里我們將圖片放在/home/ubuntu/dl_pic/remote/source目錄下,如圖5-34所示。遙感影像標(biāo)注打開Dlabel,創(chuàng)建資源鏈接,步驟與上個(gè)例子相同。創(chuàng)建鏈接的配置示例如圖5-35所示。遙感影像標(biāo)注新建一個(gè)項(xiàng)目并進(jìn)行設(shè)置,如圖5-36所示。遙感影像標(biāo)注如圖5-37所示,單擊右側(cè)標(biāo)簽工具欄中的加號(hào)按鈕,進(jìn)入標(biāo)簽創(chuàng)建模式,在彈出的標(biāo)簽輸入框中輸入“農(nóng)作物”后,按Enter鍵確認(rèn)創(chuàng)建標(biāo)簽。完成標(biāo)簽創(chuàng)建后,按Esc鍵退出標(biāo)簽創(chuàng)建。遙感影像標(biāo)注選擇“繪制多邊形區(qū)域”工具,在土地區(qū)域的各個(gè)頂點(diǎn)單擊創(chuàng)建多邊形頂點(diǎn),在最后一個(gè)頂點(diǎn)雙擊生成多邊形標(biāo)注區(qū)域,如圖5-38所示。遙感影像標(biāo)注導(dǎo)出標(biāo)注結(jié)果,導(dǎo)出設(shè)置如圖5-39所示。遙感影像標(biāo)注單擊如圖5-40所示的“導(dǎo)出項(xiàng)目”按鈕,包含標(biāo)注結(jié)果的文件夾將以TensorflowRecords格式保存至/home/ubuntu/dl_pic/remote/target目錄下,如圖5-41所示。在醫(yī)療行業(yè)中,圖像識(shí)別算法可以在智能診療、醫(yī)療影像識(shí)別等方面提供輔助功能。在智能診療方面,可以通過醫(yī)療影像對(duì)病人的癥狀進(jìn)行初步診斷和分類,進(jìn)行自動(dòng)分診和初步診斷,提高醫(yī)院的運(yùn)行效率,減輕醫(yī)生的工作負(fù)擔(dān);在醫(yī)療影像識(shí)別方面,可以解決優(yōu)秀的醫(yī)療影像專業(yè)醫(yī)生培養(yǎng)周期長(zhǎng)、培養(yǎng)成本高,以及人工讀片時(shí)主觀性和工作狀態(tài)會(huì)一定程度上影響判斷結(jié)論的問題。為了在醫(yī)療場(chǎng)景中能準(zhǔn)確地對(duì)圖像信息進(jìn)行識(shí)別和判斷,就需要大量的精準(zhǔn)標(biāo)注數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)。醫(yī)療影像標(biāo)注在圖像和視頻中標(biāo)注行人,應(yīng)用于人工智能系統(tǒng)、車輛輔助駕駛系統(tǒng)、智能機(jī)器人、智能視頻監(jiān)控、人體行為分析、智能交通等領(lǐng)域。行人兼具剛性和柔性物體的特性,外觀易受穿著、尺度、遮擋、姿態(tài)和視角等影響,使得行人檢測(cè)成為計(jì)算機(jī)視覺領(lǐng)域中一個(gè)既具有研究?jī)r(jià)值同時(shí)又極具挑戰(zhàn)性的熱門課題。行人數(shù)據(jù)標(biāo)注基于行人標(biāo)注數(shù)據(jù)集的行人檢測(cè)1.SSD算法目標(biāo)檢測(cè)的主流算法主要分為兩種類型:two-stage算法和one-stage算法。SSD算法是一種經(jīng)典的one-stage算法,它先通過RPN網(wǎng)絡(luò)得到候選框,然后進(jìn)行分類與回歸。SSD算法相比其他算法有以下兩大重要改變。2.MobileNetv1MobileNet(這里稱為MobileNetv1,簡(jiǎn)稱v1)中使用的DepthwiseSeparableConvolution是模型壓縮的一個(gè)最為經(jīng)典的策略,它是通過將跨通道的33卷積換成單通道的33卷積+跨通道的1*1卷積來(lái)達(dá)到此目的的。05文本標(biāo)注實(shí)戰(zhàn)文本標(biāo)注是指將文字、符號(hào)在內(nèi)的文本進(jìn)行標(biāo)注,使其可以被計(jì)算機(jī)識(shí)別和運(yùn)算,從而應(yīng)用于人類的生產(chǎn)生活領(lǐng)域。文本標(biāo)注在我們的生活中有廣泛的應(yīng)用??头?、金融、醫(yī)療等行業(yè)都對(duì)標(biāo)注文本數(shù)據(jù)集有大量的需求。例如,在客服行業(yè),不少電商已經(jīng)將智能客服機(jī)器人實(shí)用化,當(dāng)用戶在購(gòu)物中遇到問題時(shí),人工智能可以將用戶的咨詢?cè)V求切分并判斷對(duì)應(yīng)場(chǎng)景,給出對(duì)應(yīng)的回答。文本標(biāo)注實(shí)戰(zhàn)分詞與詞性標(biāo)注(1)配置標(biāo)注項(xiàng)目(2)啟動(dòng)及訪問brat(3)標(biāo)注(4)導(dǎo)出標(biāo)注結(jié)果依存句法標(biāo)注依存句法標(biāo)注與分詞與詞性標(biāo)注的過程大致相似。文本標(biāo)注實(shí)戰(zhàn)Kettle作業(yè)設(shè)計(jì)新工科建設(shè)之路·數(shù)據(jù)科學(xué)與大數(shù)據(jù)系列樣本數(shù)據(jù)處理第六章01作業(yè)的概念及組成與轉(zhuǎn)換的步驟相比,作業(yè)項(xiàng)有如下3點(diǎn)不同。(1)有影子復(fù)制。轉(zhuǎn)換中步驟的名字都是唯一的,但作業(yè)項(xiàng)可以有影子復(fù)制。(2)作業(yè)項(xiàng)之間傳遞一個(gè)結(jié)果對(duì)象。這個(gè)結(jié)果對(duì)象里包含數(shù)據(jù)行,它們不是以流的方式傳遞的,而是等作業(yè)項(xiàng)完成了,再將結(jié)果對(duì)象傳遞給下一個(gè)作業(yè)項(xiàng)。(3)可以并行執(zhí)行。在默認(rèn)情況下,所有的作業(yè)項(xiàng)都是以串行方式執(zhí)行的,只是在特殊的情況下,以并行方式執(zhí)行。作業(yè)項(xiàng)作業(yè)項(xiàng)執(zhí)行后會(huì)返回一個(gè)結(jié)果。作業(yè)項(xiàng)執(zhí)行結(jié)果不僅決定了作業(yè)的執(zhí)行路徑,而且向下一個(gè)作業(yè)項(xiàng)傳遞了一個(gè)結(jié)果對(duì)象。結(jié)果對(duì)象包含以下一些信息。(1)一組數(shù)據(jù)行:在轉(zhuǎn)換里使用“復(fù)制行到結(jié)果”步驟可以設(shè)置這組數(shù)據(jù)行。與之對(duì)應(yīng)的“從結(jié)果獲取行”步驟可以獲取這組數(shù)據(jù)行。(2)一組文件名:在作業(yè)項(xiàng)的執(zhí)行過程中可以獲取一些文件名,這組文件名是所有與作業(yè)項(xiàng)發(fā)生過交互的文件的名稱;還能獲取文件類型,“一般”類型指所有的輸入/輸出文件,“日志”類型指Kettle日志文件。(3)讀、寫、輸入、輸出、更新、刪除、拒絕的行數(shù)和轉(zhuǎn)換里的錯(cuò)誤數(shù)。(4)腳本作業(yè)項(xiàng)的退出狀態(tài):根據(jù)腳本執(zhí)行后的狀態(tài)碼,判斷腳本的運(yùn)行狀態(tài),執(zhí)行不同的作業(yè)流程。作業(yè)項(xiàng)與轉(zhuǎn)換的步驟相比,作業(yè)項(xiàng)有如下3點(diǎn)不同。(1)有影子復(fù)制。轉(zhuǎn)換中步驟的名字都是唯一的,但作業(yè)項(xiàng)可以有影子復(fù)制。(2)作業(yè)項(xiàng)之間傳遞一個(gè)結(jié)果對(duì)象。這個(gè)結(jié)果對(duì)象里包含數(shù)據(jù)行,它們不是以流的方式傳遞的,而是等作業(yè)項(xiàng)完成了,再將結(jié)果對(duì)象傳遞給下一個(gè)作業(yè)項(xiàng)。(3)可以并行執(zhí)行。在默認(rèn)情況下,所有的作業(yè)項(xiàng)都是以串行方式執(zhí)行的,只是在特殊的情況下,以并行方式執(zhí)行。作業(yè)項(xiàng)當(dāng)上一個(gè)作業(yè)項(xiàng)的執(zhí)行結(jié)果為真時(shí),執(zhí)行下一個(gè)作業(yè)項(xiàng)。通常在需要無(wú)錯(cuò)誤執(zhí)行的情況下使用。這是一種綠色的連接線,上面有一個(gè)對(duì)鉤的圖標(biāo)。當(dāng)結(jié)果為真時(shí)繼續(xù)下一步當(dāng)上一個(gè)作業(yè)項(xiàng)的執(zhí)行結(jié)果為假時(shí),執(zhí)行下一個(gè)作業(yè)項(xiàng)。這是一種紅色的連接線,上面有一個(gè)紅色的叉圖標(biāo)。當(dāng)結(jié)果為假時(shí)繼續(xù)下一步跳不論上一個(gè)作業(yè)項(xiàng)執(zhí)行成功還是失敗,下一個(gè)作業(yè)項(xiàng)都會(huì)執(zhí)行。這是一種藍(lán)色的連接線,上面有一個(gè)鎖的圖標(biāo)。無(wú)條件的注釋是一個(gè)特殊的存在,不參與程序的處理,它以文本描述的方式呈現(xiàn)在作業(yè)中,只為增強(qiáng)流程的可讀性。當(dāng)然它的重要性也是毋庸置疑的,必要的注釋可大大減小維護(hù)成本。注釋02作業(yè)的執(zhí)行方式Kettle使用一種回溯算法來(lái)執(zhí)行作業(yè)里的所有作業(yè)項(xiàng),而且作業(yè)項(xiàng)運(yùn)行結(jié)果(真或假)也決定路徑?;厮菟惴ň褪羌僭O(shè)執(zhí)行到一條路徑的某個(gè)節(jié)點(diǎn),要依次執(zhí)行這個(gè)節(jié)點(diǎn)的所有子路徑,直到?jīng)]有可執(zhí)行的子路徑時(shí)返回上一個(gè)節(jié)點(diǎn),再反復(fù)這個(gè)過程?;厮菟惴ǖ膱?zhí)行流程如圖6-2所示?;厮荩?)作業(yè)運(yùn)行結(jié)果不是唯一的。作業(yè)項(xiàng)是可以嵌套的,除了作業(yè)項(xiàng)有運(yùn)行結(jié)果,作業(yè)也需要一個(gè)運(yùn)行結(jié)果,因?yàn)橐粋€(gè)作業(yè)可以是另一個(gè)作業(yè)的作業(yè)項(xiàng)。一個(gè)作業(yè)的運(yùn)行結(jié)果,來(lái)自它最后一個(gè)執(zhí)行的作業(yè)項(xiàng)。(2)運(yùn)行結(jié)果保存在內(nèi)存里。在作業(yè)里創(chuàng)建了一個(gè)循環(huán)(作業(yè)里允許循環(huán)),一個(gè)作業(yè)項(xiàng)就會(huì)被執(zhí)行多次,作業(yè)項(xiàng)的多次運(yùn)行結(jié)果會(huì)被保存在內(nèi)存里,便于以后使用。多路徑和回溯有時(shí)候需要將作業(yè)項(xiàng)并行執(zhí)行,這種執(zhí)行也是可以的。一個(gè)作業(yè)可以并發(fā)地執(zhí)行它后面的所有作業(yè)項(xiàng)。并行執(zhí)行03作業(yè)的創(chuàng)建及常用作業(yè)項(xiàng)以創(chuàng)建及保存“第一個(gè)作業(yè)”為例,介紹其具體的操作步驟。(1)單擊匾按鈕,在彈出的菜單中選擇“作業(yè)”命令;或者在主對(duì)象樹中的“作業(yè)”上單擊鼠標(biāo)右鍵,在彈出的快捷菜單中選擇“新建”命令。(2)創(chuàng)建作業(yè)后,單擊圊按鈕,命名并保存作業(yè)。在保存作業(yè)的文件夾下,可以看到“第一個(gè)作業(yè).kjb”文件。作業(yè)是*kjb文件類型的,而轉(zhuǎn)換是*.ktr文件類型的,請(qǐng)注意區(qū)分。創(chuàng)建作業(yè)“START”作業(yè)項(xiàng)組件路徑:“核心對(duì)象”一“通用”,如圖6-8所示。“START”作業(yè)項(xiàng)“START”作業(yè)項(xiàng)的屬性如圖6-9所示?!白鳂I(yè)”是一個(gè)在作業(yè)中經(jīng)常使用的作業(yè)項(xiàng)。功能:用來(lái)執(zhí)行已經(jīng)定義好的作業(yè)。目的:將一個(gè)功能復(fù)雜的作業(yè)進(jìn)行功能分割,使其成為多個(gè)功能單一、易于管理的單元,而且能重復(fù)使用。圖標(biāo):作業(yè)。組件路徑:“核心對(duì)象”一“通用”。“作業(yè)”作業(yè)項(xiàng)“轉(zhuǎn)換”作業(yè)項(xiàng)和“作業(yè)”作業(yè)項(xiàng)一樣,也是調(diào)用頻率較高的作業(yè)項(xiàng)之一。功能:用來(lái)執(zhí)行已經(jīng)定義好的轉(zhuǎn)換。圖標(biāo):轉(zhuǎn)換。組件路徑:“核心對(duì)象”一“通用”。“轉(zhuǎn)換”作業(yè)項(xiàng)04變量系統(tǒng)變量包括Java虛擬機(jī)(如${

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論