




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
Chapter7記錄操作節(jié)點7.1記錄操作慨述7.2選擇節(jié)點7.3抽樣節(jié)點7.4均衡節(jié)點7.5聚合節(jié)點7.6排序節(jié)點7.7合併節(jié)點7.8附加節(jié)點7.9區(qū)分節(jié)點Outline7.1記錄操作慨述記錄操作節(jié)點用於在記錄層次修改資料集。這些操作在資料採礦的資料理解和資料準備階段很重要。記錄操作選項板包括以下節(jié)點:選擇(select)樣本(sample)均衡(balance)聚合(aggregate)排序(sort)合併(merge)附加(append)區(qū)分(distinct)7.2選擇節(jié)點使用者可以使用選擇節(jié)點根據(jù)具體條件從資料流程中選擇或排除某一記錄子集,如符合“Class=“Drink””條件的記錄子集。選擇節(jié)點也用於選擇一定比例的記錄,使用者可以使用選擇節(jié)點來創(chuàng)建自己的條件。例如,使用者可以創(chuàng)建如下條件:
Class="Drink"andrandom(10)<=4這一條件將從Class爲“Drink”的記錄中,選擇大約40%,並向流程的下游下傳(downstream)這些記錄以用於進一步分析。
Mode(模式)
--include(包含):選擇以便在流程中包含符合選擇條件的記錄。
--discard(排除):選擇以便將符合選擇條件的記錄排除出流。
Condition(條件):用於檢驗每一條記錄的選擇條件,選使用者可以在視窗中輸入運算式,也可以點擊視窗右邊運算式構造(ExpressionBuilder)按鈕來構造條件。7.3抽樣節(jié)點使用者可以使用抽樣節(jié)點來明確限制通過流的記錄數(shù)或排除一定比例的記錄。由於各種原因,使用者需要對原資料進行抽樣,如:--提高資料採礦工具的性能。--大量削減(Paringdown)一個大型的資料集,比如擁有上百萬記錄的資料集。使用抽樣節(jié)點,使用者可以通過隨機抽樣來生成模型,該模型通常和從整個資料集中導出的模型一樣精確。--訓練類神經(jīng)網(wǎng)路。使用者應該爲訓練和測試各保留一個樣本。7.3.1抽樣節(jié)點選項Mode(模式):爲以下模式選擇是否通過(包含)或丟棄(排除)記錄。最大樣本容量:確定通過流程的最大樣本量。如果想在選擇1-in-n選項或Random%抽樣選項中不使用該選項,可將最大樣本量數(shù)目設置爲超出資料集容量。抽樣(Sample)通過以下選項選擇抽樣方法:--First:選擇使用連續(xù)資料抽樣法。例如,如果最大樣本量設爲10,000,則前10,000個記錄將通過流(如果模式爲passsample)或被丟棄(如果模式爲discardsample)。--1-in-n:選擇資料抽樣法爲每n個通過或丟棄一個記錄。例如,如果n設置爲5,則每五個記錄將有一個記錄根據(jù)上述模式通過或丟棄。--random%:選擇隨機抽取資料集一定百分比的樣本。例如,如果把百分比設置爲20,那麼資料集有20%的記錄將會根據(jù)上述模式設置通過流或丟棄。7.4
均衡節(jié)點使用者可以使用均衡節(jié)點來修正資料集中的不均勻性,以便能夠符合特定的測試原則。均衡是根據(jù)指定的條件複製記錄後丟棄記錄。不受任何條件限制的記錄會一直通過流程。由於這一過程通過複製並且/或者丟棄記錄,因而資料的原始順序將在資料下傳(downstream)過程中流失。一定要在將均衡節(jié)點加到流程之前導出一個和順序有關的值。注:均衡節(jié)點可以從資料分佈圖和直方圖中自動生成。
7.4.1均衡節(jié)點的設置選項記錄均衡指令(Recordbalancingdirectives):列出目前的均衡指令。每一指令都包括一個因數(shù)和一個條件,使軟體在條件爲真時,根據(jù)指定的因數(shù),提高記錄的比率。列出目前因數(shù)小於1.0意味著記錄的比率將會減少。生成條件(Createconditions)刪除指令(Deletedirectives):使用紅色的刪除按鈕。對指令排序(Sortdirectives):使用上下箭頭按鈕7.5聚合節(jié)點可以使用聚合節(jié)點,把一系列輸入記錄變換成總括性的、聚合的輸出記錄。7.5.1聚合節(jié)點的設置選項關鍵欄位相鄰(Keys
arecontiguous):若關鍵欄位值出現(xiàn)在相鄰記錄中,該選項按相同值處理。關鍵欄位(Keyfield):列出可用於聚合的關鍵欄位。如果所選關鍵欄位不止一個,則所有值將組合起來生成聚合記錄的關鍵欄位。聚合欄位(Aggregatefields):列出將按照所選聚合模式聚合的數(shù)值型欄位。預設模式(Defautmode):指定對新添加的欄位所使用的預設聚合模式、如果頻繁使用同樣的聚合方式,此處可選擇一個或以上的模式,使用右邊的ApplytoAll
按鈕將所選模式應用於以上列出的所有欄位。在Clementine中可以使用以下聚合模式:--總和Sum:選擇返回關鍵欄位的每一組合的值的和。--平均值Mean:選擇返回關鍵欄位的每一組合的值的平均。--最小值Min:選擇返回關鍵欄位的每一組合的最小值。--最大值Max:選擇返回關鍵欄位的每一組合的最大值。--標準差Sdev:選擇返回關鍵欄位的每一組合的標準方差。新欄位副檔名(Newfieldnameextension):選擇添加尾碼(suffix)或字首(prefix),以複製聚合欄位。比如,如果選擇了尾碼選項,並規(guī)定“1”爲副檔名,則對欄位Age的最小值聚合結果會產生成名為Age_Min_1的欄位名。Includerecordcountinfield(欄位中包括記錄數(shù)):選擇在每個輸出記錄中包括一個名爲record_count的額外預設欄位。這一欄位表明有多少輸入記錄被用於形成每一聚合欄位。
7.6排序節(jié)點可以使用排序節(jié)點根據(jù)一個或多個欄位值對記錄進行昇冪或降冪排列。排序節(jié)點經(jīng)常用於瀏覽和選擇帶有最常見資料值的記錄,有助於探索分析資料並作出決策,比如選擇前十名最好的顧客的記錄。按……排序(Sortby):所有被選爲排序關鍵欄位的欄位都顯示在一張表格中。用作排序的關鍵欄位最好是數(shù)值型欄位。添加欄位(Addfields):使用對話方塊右邊的FieldChooser按鈕把欄位添加到列表中。選擇順序(Selectanorder):通過順序(order)欄中點選Ascending(昇冪)或Descending(降冪)來選擇順序。刪除欄位(Deletefields):使用紅色的刪除按鈕。排列指令(Sortdirectives):使用上下箭頭按鈕。預設排列順序(Defaultsortorder):選擇Ascending(昇冪)或者Descending(降冪)作爲以上新添加的欄位的預設排序順序。7.7合併節(jié)點合併節(jié)點的功能是接受多重輸入記錄,並生成包含部分或全部輸入欄位元的單一輸出記錄,這一操作在合併來自不同資料來源的資料時很有用。--按照順序合併(mergebyorder):按照輸入順序連接來自所有資料庫的對應記錄,直至最小的資料源輸入完畢。在使用這一選項時有必要先使用排序節(jié)點對資料進行排序。--按照關鍵欄位合併(mergeusingakeyfield):使用諸如使用者ID號等作爲關鍵欄位,以指定來自某一資料庫的資料在合併時如何與來自其他資料庫的資料匹配。注:系統(tǒng)遺漏值null並不認爲相等,不參與合併。7.7.1指定合併方法和關鍵欄位可能的關鍵欄位(Possiblekeys):列出所有輸入資料來源中的所有欄位。從列表中選擇一個欄位,然後使用箭頭按鈕將其添加爲合併記錄的關鍵欄位。合併的關鍵欄位(Keysformerge):列出用於合併所有輸入資料源的記錄的關鍵欄位。合併重複關鍵欄位(Combineduplicatekeyfields):當選擇了不止一個關鍵欄位時,這一選項確保一個關鍵欄位名只有一個輸出欄位。只包括匹配記錄(內部合併)(Includingonlymatchingrecords(innerjoin)):選擇只合併完整的記錄。包括匹配和不匹配記錄(完全外部合併)(Includematchingandnonmatchingrecords(full
orderjoin)):選擇執(zhí)行“完全外部合併”。表示如果某一關鍵欄位存在於其中的一個資源,而在其他的資料來源中存在,則不完整的記錄仍然保留著。未定義值($null$)被添加到關鍵欄位中並包含在輸出記錄中。7.7.2從合併節(jié)點過濾欄位合併節(jié)點能夠方便的過濾或者重命名由於合併多重資料來源引起的重複欄位。點擊對話方塊中的Filter以進行過濾選擇。Field(欄位):顯示目前連接資料源的輸入欄位,重複的欄位用紅色顯示。Tag(標籤):列出與資料源連接相關的Tag名。點擊INPUTS
欄以改變合併節(jié)點的目前連接。Sourcenode(來源節(jié)點):顯示目前合併資料的來源節(jié)點。connectednode(連接節(jié)點):顯示與合併節(jié)點連接的節(jié)點名稱。使用合併節(jié)點和附加節(jié)點對話方塊的inputs,可以規(guī)定輸入資料來源的順序,並可任意修改每一資料來源的標籤。tag(標籤):列出每個輸入資料源的目前標籤名。可以在Tag單元鍵入新的標籤名以改變預設標籤名。
7.7.3設置輸入順序並加上標籤使用附加節(jié)點將記錄集串聯(lián)起來。與合併節(jié)點中將不同資料來源中的記錄連接起來不同,附加節(jié)點讀取並下傳(downstream)來自同一資料來源的所有記錄直至該資料來源不再有記錄爲止,然後使用與讀取首個輸入資料來源記錄相同的資料結構(記錄和欄位數(shù)目等)讀取下一個資料來源的記錄。如果最初的資料來源的欄位比另一個輸入資料來源多,系統(tǒng)將對任意不完整值使用字串($null$)補充。附加節(jié)點用於合併有相似結構而資料不同的資料集,假定它們具有同樣的資料結構(同樣的欄位,同樣的順序),附加節(jié)點將會它們合併成一個大的檔,隨後使用者可以對這個檔進行分析。7.8附加節(jié)點7.8.1設置附加選項通過……匹配欄位(Matchfieldsby):選擇附加匹配欄位的方法。--position(位置):選擇在主資料源中,按照欄位位置附加資料集。當使用這種方法附加欄位時,應當對資料進行排序以確保附加的正確性。--Name(名稱):選擇基於輸入資料集的欄位名附加欄位。--同樣選擇Matchcase以在匹配欄位名時使樣本保持敏銳性。OutputField(輸出欄位):列出連接到附加節(jié)點的資料來源節(jié)點。Includefieldsfrom(包括來自……的欄位):選擇Maindatasetonly
以生成基於主資料集欄位的輸出欄位。主資料集在Inputs欄規(guī)定爲第一個輸入資料集。選擇Alldatasets
以生成所有資料集中所有欄位的輸出欄位而不考慮是否有匹配所有輸入資料集的欄位。。Tagrecordsbyincludingsourcedatasetinfield(通過包含源資料集欄位給記錄加標籤):選擇在輸出檔中添加一個附加欄位,該欄位表明每個記錄的來源資料集。用文本規(guī)定一個欄位名。預設欄位名爲Input。7.9區(qū)分節(jié)點可以使用區(qū)分節(jié)點來清除重複性記錄,可以將首個區(qū)分記錄傳遞到資料流程中或者捨棄首個記錄,而將任意的副本傳遞到資料流程
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年上半年安徽淮北市水務投資發(fā)展集團限公司社會招聘20人易考易錯模擬試題(共500題)試卷后附參考答案
- 2025年上半年安徽六安裕安區(qū)事業(yè)單位招考易考易錯模擬試題(共500題)試卷后附參考答案
- 2025年上半年安慶望江縣國企業(yè)招聘工作人員23人易考易錯模擬試題(共500題)試卷后附參考答案
- 2025年上半年寧波市招投標中心招考編外人員易考易錯模擬試題(共500題)試卷后附參考答案
- 2025年米面機械休閑設備合作協(xié)議書
- 2025年上半年寧夏寧東科技創(chuàng)業(yè)投資限公司招聘15人易考易錯模擬試題(共500題)試卷后附參考答案
- 2025中國同輻股份有限公司北京分公司招聘3人筆試參考題庫附帶答案詳解
- 2024福建福州市兩江四岸客運有限公司招聘1人筆試參考題庫附帶答案詳解
- 四年級道德與法治下冊第一單元同伴與交往3當沖突發(fā)生第2課時教案新人教版
- 江西專版2024年中考生物復習中考模擬三
- 《產業(yè)結構調整指導目錄(2022年本)》修改版
- JJF (石化) 007-2018 鉛筆硬度計校準規(guī)范-(高清現(xiàn)行)
- 《中醫(yī)兒科學》課件生理病因病理特點
- 單招面試技巧簡介PPT幻燈片課件(PPT 59頁)
- 迪士尼樂園主題PPT模板
- C形根管的形態(tài)識別和治療實用教案
- 部編版《道德與法治》四年級下冊第5課《合理消費》優(yōu)質課件
- 京東入駐流程(課堂PPT)
- 鍋爐巡檢制度
- 中國國際航空公司VI形象識別規(guī)劃提案
- 三菱PLC模擬量模塊fx2n4da中文手冊
評論
0/150
提交評論