招商銀行數(shù)據(jù)倉(cāng)庫(kù)方案建議書_第1頁(yè)
招商銀行數(shù)據(jù)倉(cāng)庫(kù)方案建議書_第2頁(yè)
招商銀行數(shù)據(jù)倉(cāng)庫(kù)方案建議書_第3頁(yè)
招商銀行數(shù)據(jù)倉(cāng)庫(kù)方案建議書_第4頁(yè)
招商銀行數(shù)據(jù)倉(cāng)庫(kù)方案建議書_第5頁(yè)
已閱讀5頁(yè),還剩54頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 招商銀行數(shù)據(jù)倉(cāng)庫(kù)方案建議書I目 錄第一章 前言第二章 建議方案簡(jiǎn)介第三章 硬件產(chǎn)品介紹第四章 軟件產(chǎn)品介紹第五章 項(xiàng)目計(jì)劃附錄一 成功案例附錄二 IBM可以提供的服務(wù)附錄三 項(xiàng)目進(jìn)度計(jì)劃安排參考附錄四 產(chǎn)品報(bào)價(jià)第一章 前言作為一個(gè)發(fā)展中的銀行,總部位于我國(guó)南方著名經(jīng)濟(jì)特區(qū)深圳市的招商銀行的成長(zhǎng)令人矚目。為了在五年內(nèi)成為全國(guó)著名的銀行,進(jìn)入世界大銀行的排行榜,招商銀行的決策者們制訂了一整套行之有效的計(jì)劃,而作為現(xiàn)代化管理的一部分,與國(guó)際上先進(jìn)的模式接軌,計(jì)算機(jī)管理自然成為相當(dāng)重要的一部分。招商銀行與世界信息產(chǎn)業(yè)的領(lǐng)導(dǎo)者,美國(guó)國(guó)際商業(yè)機(jī)器公司,簡(jiǎn)稱 IBM 合作,將其業(yè)務(wù)系統(tǒng)成功運(yùn)行在AS/40

2、0 平臺(tái)之上,成功地邁出了計(jì)算機(jī)管理的第一步。但是他們并不滿足于目前的狀況,發(fā)揚(yáng)一向緊跟新科技的傳統(tǒng),決定對(duì)目前的業(yè)務(wù)數(shù)據(jù)作進(jìn)一步的處理,將靜態(tài)的數(shù)據(jù)轉(zhuǎn)化為決策支持的依據(jù)。所以,準(zhǔn)備采用目前信息產(chǎn)業(yè)界極為先進(jìn)的數(shù)據(jù)倉(cāng)庫(kù)技術(shù),完成招商銀行的決策支持系統(tǒng),以進(jìn)一步提高公司的實(shí)力和競(jìng)爭(zhēng)力。而世界上最大的軟件及咨詢服務(wù)公司 IBM,將以其在該行業(yè)雄厚的實(shí)力和數(shù)十年豐富的經(jīng)驗(yàn),為招商銀行提供一套完整的解決方案,使招商銀行的管理能力再上一個(gè)臺(tái)階。本方案以先進(jìn)性和可擴(kuò)展性為原則,使招商銀行的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)既可以保證在幾年內(nèi)技術(shù)和設(shè)備不落后,使之站在世界計(jì)算機(jī)發(fā)展潮流之上,又可以根據(jù)業(yè)務(wù)的高速發(fā)展,很方便地升級(jí)

3、,以達(dá)到業(yè)務(wù)發(fā)展需求的性能。先進(jìn)性方面,IBM 提供的硬件平臺(tái)是具有最強(qiáng)勁處理能力的RS6000 SP 系列并行機(jī),它綜合業(yè)界的最高端技術(shù),具備無(wú)與倫比的處理能力和可擴(kuò)展性、可靠性。例如戰(zhàn)勝世界冠軍、國(guó)際象棋特級(jí)大師卡斯帕羅夫的“深藍(lán)”就是這種機(jī)型,其每秒數(shù)億步的處理速度至今仍被人們稱道;軟件平臺(tái)是 IBM 提供最新推出的、業(yè)界好評(píng)如潮的通用數(shù)據(jù)庫(kù)產(chǎn)品 (Universal Database),這是 IBM 的又一大師級(jí)力作;還有榮獲本年度世界數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品大獎(jiǎng)的數(shù)據(jù)采掘工具:Intelligent Miner;在應(yīng)用上,IBM有成熟的整套數(shù)據(jù)倉(cāng)庫(kù)解決方案,和其他僅僅能提供某些方面產(chǎn)品的廠商有著

4、本質(zhì)的區(qū)別??蓴U(kuò)展性方面,因?yàn)閿?shù)據(jù)量越來(lái)越大,用戶越來(lái)越多,為保證合理的響應(yīng)速度,對(duì)機(jī)器的性能提高就會(huì)有一個(gè)幾乎線性增長(zhǎng)的要求。硬件和軟件的可擴(kuò)展性就成為一個(gè)重要的考慮因素。IBM 的 RS6000 SP 主機(jī)正是具備這種特性,從而成為硬件平臺(tái)的首選;通用數(shù)據(jù)庫(kù)在小到手提機(jī),大到并行主機(jī)的任何平臺(tái)上,都能充分發(fā)揮硬件的性能。這樣就確保了整個(gè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的正常運(yùn)作。也可以保證用戶在今后升級(jí)時(shí),既可以保護(hù)現(xiàn)有投資,也使應(yīng)用系統(tǒng)受到的影響降到最小,做到無(wú)縫升級(jí)。背景 中國(guó)的銀行業(yè)務(wù)正面臨深刻的改革,各種新生事物不斷涌現(xiàn),如新的業(yè)務(wù),由于分工模糊而出現(xiàn)的很多非銀行業(yè)的競(jìng)爭(zhēng)者,業(yè)務(wù)全球化的趨勢(shì),由新舊競(jìng)

5、爭(zhēng)者造成的越來(lái)越大的壓力,快速發(fā)展的信息技術(shù),客戶的需求和總體人口組成也在不斷變化。全球范圍內(nèi)的金融服務(wù)企業(yè)間的關(guān)系變得更加緊密,促使決策者重新研究金融市場(chǎng),資源分配,組織結(jié)構(gòu)和業(yè)務(wù)流程,從而采取更有創(chuàng)意的企業(yè)行為和策略,如企業(yè)兼并,市場(chǎng)定位,產(chǎn)品和服務(wù)推陳出新,保持營(yíng)銷渠道暢通。 在銀行業(yè)內(nèi),越來(lái)越多的企業(yè)正在采用數(shù)倉(cāng)庫(kù)工具來(lái)創(chuàng)造新的商業(yè)機(jī)會(huì):深入分析客戶群的組成、發(fā)現(xiàn)特殊需求、設(shè)計(jì)新的產(chǎn)品、在新業(yè)務(wù)推出前開展詳細(xì)的建模和分析。分析客戶減少的可能原因,采取預(yù)防措施,提高服務(wù)質(zhì)量和整體競(jìng)爭(zhēng)力。分析重要客戶的來(lái)源,保證整體效益。預(yù)防和制止信用卡詐騙活動(dòng)。 正如 IBM 一向在計(jì)算機(jī)業(yè)的發(fā)展中扮演

6、重要角色一樣,IBM 早在1988年,就發(fā)表了第一篇關(guān)于數(shù)據(jù)倉(cāng)庫(kù)的文章,成為這一領(lǐng)域的先驅(qū),從那時(shí)起,數(shù)據(jù)倉(cāng)庫(kù)的技術(shù),服務(wù)和解決方案就在來(lái)斷地完善,時(shí)至今日,IBM 公司的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)已經(jīng)安裝了數(shù)百個(gè),在各個(gè)行業(yè),各種平臺(tái)上運(yùn)行。 1995年,IBM 重新評(píng)定了所有數(shù)據(jù)倉(cāng)庫(kù)資源,成立一支核心隊(duì)伍,專門開發(fā)運(yùn)用于各行業(yè)的數(shù)據(jù)倉(cāng)庫(kù)解決方案,范圍涉及銀行及金融業(yè),電訊業(yè),零售業(yè),保險(xiǎn)及衛(wèi)生業(yè)等。這個(gè)小組的任務(wù)是分析各行業(yè)的業(yè)務(wù)需求,選擇最好的軟件和硬件產(chǎn)品,為客戶提供咨詢服務(wù)。 在數(shù)據(jù)倉(cāng)庫(kù)市場(chǎng)上,IBM 始終致力于提供全面解決方案,不但提供技術(shù)和咨詢服務(wù),還為客戶介紹專門的行業(yè)經(jīng)驗(yàn)。我們的數(shù)據(jù)倉(cāng)庫(kù)系

7、統(tǒng)運(yùn)行在多種平臺(tái)上,保證一個(gè)開放系統(tǒng)供應(yīng)商的地位,是目前最完整的全方位的集成式數(shù)據(jù)倉(cāng)庫(kù)解決方案。 IDC 最近在加拿大市場(chǎng)上作了一次數(shù)據(jù)倉(cāng)庫(kù)的調(diào)查,發(fā)現(xiàn)集成度是大家最關(guān)心的問(wèn)題,除了嚴(yán)格遵循開放標(biāo)準(zhǔn),IBM 還發(fā)展了一些有實(shí)力的策略聯(lián)盟伙伴,如 Vality、進(jìn)展技術(shù)公司 ETI、Cognos 以及Information Advantage 等。通過(guò)聯(lián)合開發(fā)和集成調(diào)試,達(dá)到聯(lián)盟的主要目標(biāo):更高級(jí)的集成度。 IBM 始終致力于確立在以網(wǎng)絡(luò)為中心的計(jì)算技術(shù)方面的領(lǐng)導(dǎo)地位,我們也堅(jiān)信目前我們站在潮流的尖端,公司內(nèi)部建立起遍布全球100多個(gè)國(guó)家,700多個(gè)城市的全球性的大型數(shù)據(jù)網(wǎng)絡(luò),在專門的互聯(lián)網(wǎng)部門

8、,在這一領(lǐng)域的技術(shù)成果不斷推出,都無(wú)可置疑地表明 IBM 是當(dāng)之無(wú)愧的領(lǐng)導(dǎo)者。今天 IBM 更是提出了一套完整的解決方案。以下就數(shù)據(jù)倉(cāng)庫(kù)的概念和作用做一些簡(jiǎn)要的介紹。數(shù)據(jù)倉(cāng)庫(kù)的概念及作用 所謂數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)之父 W.H.Inmon 曾對(duì)數(shù)據(jù)倉(cāng)庫(kù)作了這樣的描述:“數(shù)據(jù)倉(cāng)庫(kù)是九十年代信息技術(shù)構(gòu)架的新焦點(diǎn),它提供集成化的和歷史化的數(shù)據(jù);它集成種類不同的應(yīng)用系統(tǒng);數(shù)據(jù)倉(cāng)庫(kù)從發(fā)展和歷史的角度來(lái)組織和存儲(chǔ)數(shù)據(jù),以供信息化和分析化處理之用”。這里要強(qiáng)調(diào)的是必須將業(yè)務(wù)系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù)分開。兩者功能不同,要求迥異。雖然業(yè)務(wù)系統(tǒng)為數(shù)據(jù)倉(cāng)庫(kù)提供數(shù)據(jù)。但決不能將數(shù)據(jù)倉(cāng)庫(kù)建立在業(yè)務(wù)系統(tǒng)之上。一來(lái)兩者所存的數(shù)據(jù)不同。業(yè)

9、務(wù)系統(tǒng)是存儲(chǔ)實(shí)時(shí)數(shù)據(jù)的地方;數(shù)據(jù)倉(cāng)庫(kù)可能更關(guān)心的是整個(gè)歷史數(shù)據(jù)。兩者的數(shù)據(jù)傳遞不是簡(jiǎn)單的復(fù)制,而是一個(gè)可能是比較復(fù)雜的轉(zhuǎn)換和傳遞過(guò)程。二來(lái),這樣做對(duì)業(yè)務(wù)系統(tǒng)的影響太大。不僅會(huì)對(duì)數(shù)據(jù)的安全性造成一些不可預(yù)測(cè)的影響,還會(huì)影響業(yè)務(wù)系統(tǒng)的性能。查詢請(qǐng)求會(huì)使系統(tǒng)不堪重負(fù),響應(yīng)速度降低,嚴(yán)重時(shí)甚至導(dǎo)致系統(tǒng)的崩潰,使業(yè)務(wù)系統(tǒng)癱瘓。所以必須將兩者分開。 數(shù)據(jù)倉(cāng)庫(kù)的作用主要在于通過(guò)對(duì)大量數(shù)據(jù)的分析,得出需要的統(tǒng)計(jì)結(jié)果。還可以找出其潛在的關(guān)系,從而作出正確的判斷。例如,如果銀行要了解它的一個(gè)客戶的情況,以目前的情況來(lái)看,需要查詢儲(chǔ)蓄庫(kù),信用卡庫(kù),借貸信息等。這些信息存儲(chǔ)在不同的業(yè)務(wù)系統(tǒng)中,不同的主機(jī)上,顯然要獲得

10、完整的客戶資料需要作大量的工作,消耗大量的時(shí)間。但是,如果這個(gè)銀行擁有數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),要完成這個(gè)工作只需要一個(gè)最簡(jiǎn)單的查詢命令,可能只需要幾秒鐘。因?yàn)閿?shù)據(jù)倉(cāng)庫(kù)中已經(jīng)有了所有的數(shù)據(jù),而且都已經(jīng)重新組織。特別是如果你要查的是一些歷史數(shù)據(jù),那么目前的系統(tǒng)就根本無(wú)能為力了。所以,建立一個(gè)數(shù)據(jù)倉(cāng)庫(kù)對(duì)公司的許多正確決策的作出有著舉足輕重的影響。它可以以合理的代價(jià)取得有效的決策支持;促進(jìn)企業(yè)中業(yè)務(wù)處理過(guò)程的重組;改善并強(qiáng)化對(duì)客戶的服務(wù);強(qiáng)化企業(yè)的資產(chǎn)和負(fù)債管理;促進(jìn)市場(chǎng)分析;幫助實(shí)現(xiàn)企業(yè)的規(guī)模優(yōu)化。數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn) 由于差不多各個(gè)業(yè)務(wù)系統(tǒng)的各種數(shù)據(jù)都要放進(jìn)數(shù)據(jù)倉(cāng)庫(kù),所以,隨著時(shí)間的增長(zhǎng)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)量是特別大的

11、。例如,某單位一天有10G 數(shù)據(jù),例如移動(dòng)通訊局的計(jì)費(fèi)系統(tǒng)(如果有幾本流水帳,可能還會(huì)超過(guò)這個(gè)數(shù)字),那么,僅僅過(guò)了兩年,數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)量就有:10*365*2=7300G,相當(dāng)于七個(gè)多 TB 的數(shù)據(jù)。那么五年后,十年后呢?簡(jiǎn)直不能想象。由此可見,數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn):數(shù)據(jù)量大且有幾乎線性的增長(zhǎng)性。數(shù)據(jù)倉(cāng)庫(kù)對(duì)計(jì)算機(jī)系統(tǒng)的要求 根據(jù)上述特點(diǎn),我們認(rèn)為支持?jǐn)?shù)據(jù)倉(cāng)庫(kù)的計(jì)算機(jī)系統(tǒng)首先必須得有一臺(tái)不僅性能卓著,而且可擴(kuò)展性也很好的主機(jī)。談到可擴(kuò)展性,許多人會(huì)想到對(duì)稱多處理器系統(tǒng) (Symmetrical Multi-Processing) 系統(tǒng),其實(shí) SMP 系統(tǒng)的 CPU 數(shù)增加到一定數(shù)目后,對(duì)系統(tǒng)性能的

12、提高已十分有限,甚至?xí)鸱醋饔?。所以,主機(jī)的選用,一定要有非常好的線性增長(zhǎng)性。這里,我們建議選用目前已經(jīng)比較成熟的海量并行處理系統(tǒng)(Massive Parallel Processing),簡(jiǎn)稱為 MPP。另外,數(shù)據(jù)庫(kù)的選用也是十分關(guān)鍵的。一是要支持超大的數(shù)據(jù)量。可能在初始階段,數(shù)據(jù)量已經(jīng)到了 TB 級(jí)。二是要有很強(qiáng)的穩(wěn)定性。數(shù)據(jù)倉(cāng)庫(kù)是為決策支持系統(tǒng)提供準(zhǔn)確的數(shù)據(jù)分析,如果數(shù)據(jù)庫(kù)不十分穩(wěn)定,那么,后果不堪設(shè)想。另外,數(shù)據(jù)庫(kù)必須有可擴(kuò)展性,支持多平臺(tái),高性能等等。整個(gè)網(wǎng)絡(luò)環(huán)境的穩(wěn)定和高速也應(yīng)被列入計(jì)算機(jī)系統(tǒng)設(shè)計(jì)的考慮范疇。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的體系結(jié)構(gòu) 一個(gè)完整的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),應(yīng)當(dāng)由定義部分、數(shù)據(jù)獲取部

13、分、管理部分、數(shù)據(jù)分發(fā)部分、信息目錄、數(shù)據(jù)庫(kù)管理系統(tǒng)、數(shù)據(jù)存取與分析等部分組成。1.定義部分 數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的定義部分完成數(shù)據(jù)倉(cāng)庫(kù)環(huán)境的定義和設(shè)置。這里包括相應(yīng)的定義工具供數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)者和管理人員使用。他們使用這類工具進(jìn)行:a.設(shè)計(jì)和定義數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù);b.定義數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)源;c.指定一組規(guī)則用來(lái)約束當(dāng)數(shù)據(jù)從外部源點(diǎn)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)時(shí)的系統(tǒng)行為。定義部分的工作結(jié)果是一批元數(shù)據(jù),這批數(shù)據(jù)將存放在信息目錄中。2.數(shù)據(jù)獲取部分 數(shù)據(jù)獲取部分負(fù)責(zé)從外部數(shù)據(jù)源析取數(shù)據(jù),并在數(shù)據(jù)倉(cāng)庫(kù)內(nèi)對(duì)所析取的數(shù)據(jù)實(shí)施后處理。為了實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的主要目標(biāo)以最終用戶最容易理解和使用的方式組織和存儲(chǔ)數(shù)據(jù),進(jìn)行后處理是必須的一

14、步。后處理包括對(duì)所析取數(shù)據(jù)的提煉和變換。在定義部分所建立的規(guī)則用來(lái)約束實(shí)施后處理時(shí)的系統(tǒng)行為。數(shù)據(jù)提煉包括以下內(nèi)容:記錄或記錄內(nèi)欄目的重構(gòu),刪去不需要的運(yùn)行信息,字段值的解碼和翻譯,補(bǔ)充缺漏的值以及檢查數(shù)據(jù)的完整性和相容性。變換的內(nèi)容如上所述。需補(bǔ)充的兩點(diǎn)是變換還可以包括對(duì)原數(shù)據(jù)加上時(shí)間標(biāo)記及對(duì)導(dǎo)出數(shù)據(jù)的計(jì)算,在完成后處理后,即可將處理的結(jié)果加載到相應(yīng)的數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)中,這種加載可通過(guò)源數(shù)據(jù)庫(kù)的加載工具實(shí)現(xiàn),如果源庫(kù)是關(guān)系數(shù)據(jù)庫(kù),一般可用 SQL 類的工具實(shí)現(xiàn)對(duì)日常數(shù)據(jù)清理和歸整,來(lái)自外部數(shù)據(jù)源的數(shù)據(jù)不會(huì)原封不動(dòng)地進(jìn)入數(shù)據(jù)倉(cāng)庫(kù),而是必須進(jìn)行必要的變換以增強(qiáng)其可用性。最常見的數(shù)據(jù)變換有獲取瞬像數(shù)

15、據(jù)、實(shí)施集運(yùn)算(求和、求平均量等)、分組、填寫缺漏值、預(yù)報(bào)趨勢(shì)(填入預(yù)測(cè)量)、數(shù)據(jù)結(jié)構(gòu)與格式的轉(zhuǎn)換、提取樣本值、編碼值與可讀值間的轉(zhuǎn)化等等。3.管理部分 管理部分由一組系統(tǒng)服務(wù)工具構(gòu)成,這類工具及其所提供的服務(wù)可為數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中其他部分所利用,還可以用于管理數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)集,數(shù)據(jù)集是對(duì)特定的一個(gè)或一級(jí)用戶有用的一組數(shù)據(jù),這組數(shù)據(jù)是從數(shù)據(jù)獲取部分得到的基本數(shù)據(jù)導(dǎo)出的。 管理部分提供的服務(wù)包括數(shù)據(jù)的維護(hù)、數(shù)據(jù)的分發(fā)、數(shù)據(jù)倉(cāng)庫(kù)的例行維護(hù),其中,維護(hù)服務(wù)完成從基本倉(cāng)庫(kù)數(shù)據(jù)導(dǎo)出特定數(shù)據(jù)集的任務(wù);分發(fā)服務(wù)負(fù)責(zé)將集中的倉(cāng)庫(kù)數(shù)據(jù)分發(fā)到多個(gè)分設(shè)的數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)服務(wù)器和其他供最終用戶使用的決策支持系統(tǒng)上面;例行

16、維護(hù)服務(wù)包括了對(duì)數(shù)據(jù)倉(cāng)庫(kù)的常規(guī)安全性服務(wù)、歸檔服務(wù)、備份、恢復(fù)以及對(duì)基本倉(cāng)庫(kù)數(shù)據(jù)和數(shù)據(jù)集的監(jiān)督服務(wù)。在當(dāng)前,例行維護(hù)服務(wù)多由基本操作系統(tǒng)和數(shù)據(jù)庫(kù)系統(tǒng)軟件來(lái)完成。4.信息目錄 數(shù)據(jù)倉(cāng)庫(kù)所管理的數(shù)據(jù),不僅有供最終用戶(企業(yè)管理人員、各級(jí)決策者)使用的,還包括供數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的開發(fā)者和維護(hù)者使用的數(shù)據(jù)。后一類信息是用來(lái)描述倉(cāng)庫(kù)數(shù)據(jù)庫(kù)結(jié)構(gòu)的,稱之為元數(shù)據(jù)。元數(shù)據(jù)的管理是數(shù)據(jù)倉(cāng)庫(kù)成功應(yīng)用的關(guān)鍵。 數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中的信息目錄,用來(lái)反映本系統(tǒng)中元數(shù)據(jù)的組織情況。通過(guò)信息目錄,可幫助用戶了解在數(shù)據(jù)倉(cāng)庫(kù)中都存放著什么信息以及如何訪問(wèn)和使用這些信息。 一般來(lái)說(shuō),一個(gè)完整的信息目錄應(yīng)當(dāng)由幾部分組成,即技術(shù)目錄、業(yè)務(wù)目錄

17、和信息導(dǎo)航器。 數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)者和管理者所使用的數(shù)據(jù),其描述信息由技術(shù)目錄保持和管理。這類信息有關(guān)于數(shù)據(jù)源和目標(biāo)、數(shù)據(jù)的提煉規(guī)則、數(shù)據(jù)源與倉(cāng)庫(kù)數(shù)據(jù)庫(kù)之間的變換規(guī)則和映射等的描述信息。技術(shù)目錄中的信息,是在數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)者在定義數(shù)據(jù)源和數(shù)據(jù)目標(biāo)時(shí),以及向數(shù)據(jù)倉(cāng)庫(kù)拷貝數(shù)據(jù)而應(yīng)用某些規(guī)則時(shí)產(chǎn)生的。如果外部系統(tǒng)擁有庫(kù)管理工具、DBMS 系統(tǒng)目錄或者 CASE 工具,也可以借用相應(yīng)的工具從外部系統(tǒng)輸入這類信息。 為了使數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)者和管理者能有重構(gòu)、調(diào)整和優(yōu)化數(shù)據(jù)倉(cāng)庫(kù)的依據(jù),技術(shù)目錄還將保存和維護(hù)與上述目標(biāo)相對(duì)應(yīng)的信息,這類信息包括:數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的總量、數(shù)據(jù)倉(cāng)庫(kù)的創(chuàng)建的更新日期、倉(cāng)庫(kù)中數(shù)據(jù)的存取和使用

18、方法等。 業(yè)務(wù)目錄包含的信息,是將倉(cāng)庫(kù)中的數(shù)據(jù)以符合最終用戶業(yè)務(wù)習(xí)慣的方式表達(dá)出來(lái)。這類信息包括:同一倉(cāng)庫(kù)數(shù)據(jù)的業(yè)務(wù)習(xí)慣叫法與相應(yīng)的數(shù)據(jù)倉(cāng)庫(kù)命名及別名對(duì)照、倉(cāng)庫(kù)數(shù)據(jù)的來(lái)源、導(dǎo)出規(guī)則和數(shù)據(jù)的當(dāng)前值、與數(shù)據(jù)擁有者的聯(lián)絡(luò)信息、預(yù)定義的查詢與報(bào)告的內(nèi)容細(xì)節(jié)、授權(quán)要求等。這類信息通常是由數(shù)據(jù)倉(cāng)庫(kù)的管理員生成,有的也可以由外部系統(tǒng)(CASE 工具、查詢或報(bào)告生成工具等)引入到數(shù)據(jù)倉(cāng)庫(kù)中來(lái)。 業(yè)務(wù)目錄的使用和倉(cāng)庫(kù)數(shù)據(jù)的存取需要簡(jiǎn)單易用的工具來(lái)輔助,信息導(dǎo)航器就是這樣的工具,其基本功能是:對(duì)業(yè)務(wù)目錄中的信息實(shí)施查詢和搜索、經(jīng)查詢而生成臨時(shí)性的或永久性的倉(cāng)庫(kù)數(shù)據(jù)集、向倉(cāng)庫(kù)管理員發(fā)送新的數(shù)據(jù)獲取請(qǐng)求的通訊、向數(shù)據(jù)

19、倉(cāng)庫(kù)系統(tǒng)的數(shù)據(jù)分發(fā)部件發(fā)送分發(fā)請(qǐng)求、與系統(tǒng)的數(shù)據(jù)分發(fā)部件和數(shù)據(jù)存取與分析部件直接交互。5.數(shù)據(jù)庫(kù)管理系統(tǒng)數(shù)據(jù)庫(kù)管理系統(tǒng)是數(shù)據(jù)倉(cāng)庫(kù)的重要協(xié)同支持部分。整個(gè)系統(tǒng)都程度不同地依賴數(shù)據(jù)庫(kù)軟件的支持。其中最基本的支持是對(duì)倉(cāng)庫(kù)數(shù)據(jù)檢索和維護(hù)。能夠有效支持?jǐn)?shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的數(shù)據(jù)庫(kù)軟件,必須具備兩個(gè)能力:伸縮能力和運(yùn)行效率。由于數(shù)據(jù)倉(cāng)庫(kù)所維護(hù)的數(shù)據(jù)量一般都在 TB 之上,所以上述要求的道理是再明白不過(guò)的了。在當(dāng)前,支持?jǐn)?shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的主要是 RDBMS,所以效率問(wèn)題更顯得重要。 為了解決在加載、存取和分析大批量倉(cāng)庫(kù)數(shù)據(jù)時(shí)存在的效率問(wèn)題,IBM 推出了具有廣泛并行處理能力的產(chǎn)品,這類產(chǎn)品充分利用大規(guī)模并行處理機(jī)的能力

20、和開放系統(tǒng)的優(yōu)勢(shì),在伸縮性效率上均有實(shí)質(zhì)性的改觀。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)需要數(shù)據(jù)庫(kù)軟件提供的基本支持包括并行查詢、并行建索引和并行常規(guī)維護(hù)(加載、備份和恢復(fù)等)。6.數(shù)據(jù)存取與分析部分存取與分析部分屬于倉(cāng)庫(kù)系統(tǒng)的前端。這里主要由桌面信息系統(tǒng)的各種工具組成。在 C/S 計(jì)算環(huán)境下,這部分屬于客戶端。數(shù)據(jù)倉(cāng)庫(kù)的最終用戶在這里提取信息、分析數(shù)據(jù)集、實(shí)施決策,從而可望取得競(jìng)爭(zhēng)優(yōu)勢(shì)。能夠進(jìn)入這一部分的軟件工具,主要是查詢生成工具、多維分析工具和數(shù)據(jù)提取工具等。第二章 建議方案簡(jiǎn)介關(guān)于招商銀行如何實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)的建議 經(jīng)過(guò)前一段時(shí)間的調(diào)查研究,IBM 特向招商銀行提出這份建議,建議書的設(shè)計(jì)辦求體現(xiàn)以下要點(diǎn): 在招商銀

21、行現(xiàn)有的技術(shù)和經(jīng)驗(yàn)的基礎(chǔ)上開展建設(shè),保護(hù)貴行在這些方面的投資,充分考慮到貴行在數(shù)據(jù)庫(kù)技術(shù)如數(shù)據(jù)建模和數(shù)據(jù)庫(kù)管理等方面的經(jīng)驗(yàn),以及正在使用的 IBM 產(chǎn)品,建議的新產(chǎn)品都是易于接受和使用的如 UNIX,DB2 UDB 系列產(chǎn)品等。 建議書編寫的過(guò)程中,咨詢了多位有豐富銀行業(yè)經(jīng)驗(yàn)的專業(yè)顧問(wèn),他們對(duì)于如何在銀行業(yè)內(nèi)實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)有多年的實(shí)踐經(jīng)驗(yàn),可以保證盡量降低方案的風(fēng)險(xiǎn)。 為將來(lái)的發(fā)展打下良好的基礎(chǔ),由于銀行金融企業(yè)業(yè)務(wù)的不斷發(fā)展,以及企業(yè)信息系統(tǒng)可采用的新技術(shù)不斷涌現(xiàn),所以絕對(duì)有必要保證系統(tǒng)有充分的可擴(kuò)展性,能夠采納各種新技術(shù),如數(shù)據(jù)采掘工具,互聯(lián)網(wǎng)和多媒體等。采用開放的,可重用的技術(shù)成份,盡量增

22、加系統(tǒng)的靈活性,使投資得到最大程度的保護(hù)。通過(guò)采用成熟的技術(shù)使系統(tǒng)建設(shè)的風(fēng)險(xiǎn)降到最低。采用聯(lián)接集成技術(shù)來(lái)降低總體運(yùn)營(yíng)成本,在本建議書中最明顯的例子就是采用數(shù)據(jù)復(fù)制技術(shù),在 AS/400 主機(jī)系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù)間傳輸數(shù)據(jù)??傮w建議的要點(diǎn): 基于大規(guī)模并行技術(shù)的開放,可重用,緊密集成的組件,這個(gè)方案經(jīng)過(guò)國(guó)際范圍內(nèi)多個(gè)專業(yè)顧問(wèn)的審核,如 Richard Finkelstien, IDC 及ColinWhite 等,并得到他們的一致同意。為開發(fā)完整的業(yè)務(wù)系統(tǒng)而選定的一整套來(lái)自 IBM 及其伙伴廠商的軟件產(chǎn)品。與招商銀行在數(shù)據(jù)分析發(fā)現(xiàn)方面建立數(shù)據(jù)發(fā)掘的合作關(guān)系,使貴行成為中國(guó)銀行界的領(lǐng)先企業(yè),通過(guò)準(zhǔn)確的客戶

23、定位,需求顧測(cè)等手段獲得豐厚的利潤(rùn)。 IBM 將召集來(lái)自世界各地的數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)發(fā)掘方面的專家,他們有多年為銀行客戶服務(wù)的經(jīng)驗(yàn),將為貴行提供與業(yè)務(wù)相關(guān)的顧問(wèn)服務(wù)。 從技術(shù)及財(cái)務(wù)方面為客戶考慮,提供單一而靈活的價(jià)格條款,以分期實(shí)現(xiàn)的方式,使系統(tǒng)的建設(shè)對(duì)現(xiàn)行系統(tǒng)的影響減到最少,在整個(gè)建設(shè)過(guò)程與客戶共擔(dān)風(fēng)險(xiǎn)。 本建議書的核心技術(shù)是 SP 系統(tǒng),SP 系統(tǒng)的機(jī)器已在世界各地的大銀行內(nèi)普遍使用,如中國(guó)銀行和花旗銀行。方案內(nèi)的另一個(gè)核心技術(shù)DB2 UDB 的并行版本(EEE) Enterprise-Extended Edition,它是目前最快的并行數(shù)據(jù)庫(kù),也是目前唯一一個(gè)符合標(biāo)準(zhǔn)的全并行數(shù)據(jù)庫(kù)。其中還包

24、括了從 AS/400 到 SP 的數(shù)據(jù)復(fù)制工具 DataPropagator。 方案中的其他軟件產(chǎn)品有:數(shù)據(jù)集市工具 VisualWarehouse,數(shù)據(jù)采掘工具 Intelligent Miner,以及 DataGuide、ADSM 以及進(jìn)展技術(shù)公司的 ETI 等。 在本方案中特定提出一個(gè)專門條款:與招商銀行的數(shù)據(jù)采掘合作。數(shù)據(jù)采掘是目前國(guó)際上各大企業(yè)普遍采用的一種用于增加和管理效益的手段,它是一種比多維分析工具更先進(jìn)的數(shù)據(jù)分析技術(shù)。采用了這項(xiàng)技術(shù)的用戶普遍反映良好,認(rèn)為能很好地幫助他們降低成本,增加收入,管理風(fēng)險(xiǎn),招攬客戶和擴(kuò)大市場(chǎng)。 IBM 研究中心根據(jù)數(shù)據(jù)倉(cāng)庫(kù)的使用經(jīng)驗(yàn),總結(jié)出一組需求

25、建模的算法,由各地的專業(yè)顧問(wèn)指導(dǎo)了數(shù)百個(gè)客戶使用這些工具,選出最適合總結(jié)業(yè)務(wù)流程的8個(gè)算法,涉及的數(shù)據(jù)采掘技術(shù)包括聚集 (Clustering)、分類 (Classificaiton)、關(guān)聯(lián)發(fā)現(xiàn) (association discovery)、序列模式發(fā)現(xiàn)(sequential pattern discovery)、相似時(shí)間序列發(fā)現(xiàn) (similar time sequence discovery)和預(yù)測(cè) (prediction)。數(shù)據(jù)采掘系統(tǒng)的開發(fā)中使用了多種技術(shù)和產(chǎn)品,如數(shù)據(jù)預(yù)備工具和可視化技術(shù),為客戶實(shí)現(xiàn)滿意的效果。通過(guò)這些系統(tǒng)的建設(shè),也證明了所用的工具和硬件 (RS/6000) 和數(shù)據(jù)

26、庫(kù)環(huán)境 (DB2 UDB) 有足夠的可擴(kuò)展能力,能處理大型數(shù)據(jù)文件。 與目前市場(chǎng)上其他解決方案相比,IBM 的顧問(wèn)組提供的服務(wù)明顯高出一籌,其他公司提供的算法只能適用于單一種特定的情況,IBM 的算法則能在各種企業(yè)中使用,所提供的 API 能集成其他表示和決策支持工具,全世界共有9個(gè) IBM 的實(shí)驗(yàn)室,50多個(gè)專業(yè)研究人員從事這方面的工作,他們提出的方案能分析數(shù)以百萬(wàn)計(jì)的記錄,與關(guān)系型并行數(shù)據(jù)庫(kù)集成,而不再受限于由內(nèi)存容量決定的小型文件。 我們向貴行推薦 DB2 并行版本 EEE,是因?yàn)槲覀冇凶銐虻臄?shù)據(jù)采掘技術(shù)和經(jīng)驗(yàn),使之能處理非常大量的數(shù)據(jù),發(fā)現(xiàn)從來(lái)不曾發(fā)現(xiàn)過(guò)的模式和關(guān)聯(lián)。 在方案中,我們將

27、向貴行提供所有合適的工具和資源,并希望組織一些研討會(huì),共同探計(jì)如何更好地選擇適用于中國(guó)銀行業(yè)的產(chǎn)品和技術(shù)。 根據(jù)招商銀行提供的資料,我們認(rèn)為整個(gè)企業(yè)用的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)需要一臺(tái)裝有8個(gè)高節(jié)點(diǎn)的 SP 系統(tǒng),最初時(shí)需要 400GB 存儲(chǔ)空間,有必要時(shí),可以在其他省的分行安裝數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市,具體方案視當(dāng)?shù)氐臉I(yè)務(wù)量而定,我們?cè)O(shè)計(jì)了相應(yīng)的兩個(gè)方案,第一個(gè)方案是在總行配備一個(gè)8個(gè)高節(jié)點(diǎn)的 SP 系統(tǒng),配備 650GB 存儲(chǔ)設(shè)備;第二個(gè)方案是在總行配備一個(gè)4個(gè)高節(jié)點(diǎn)的 SP 系統(tǒng),配備 325GB 存儲(chǔ)設(shè)備。然后在各個(gè)分行各配備一個(gè)2個(gè)高節(jié)點(diǎn)的 SP 系統(tǒng),配備 162GB 存儲(chǔ)設(shè)備。詳細(xì)方案見附圖。IB

28、M 建議使用第一種方案。因?yàn)?1. 整個(gè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)在一個(gè)地方,易于管理和維護(hù); 2. 降低費(fèi)用,避免重復(fù)投資,可共享資源; 3. 從業(yè)務(wù)上看,數(shù)據(jù)倉(cāng)庫(kù)得出的結(jié)論更具有整體性。建議方案企業(yè)級(jí)的數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)集市的比較 根據(jù)招商銀行提出的業(yè)務(wù)需求,我們建議采用一個(gè)分兩期的方案來(lái)實(shí)現(xiàn)數(shù)據(jù)集市的概念,第一步是建立一個(gè)全局的數(shù)據(jù)倉(cāng)庫(kù),它是建立數(shù)據(jù)集市的必由之路,數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市不應(yīng)該是兩個(gè)完全分開的系統(tǒng),因?yàn)閿?shù)據(jù)集市雖然向獨(dú)立的業(yè)務(wù)領(lǐng)域提供高質(zhì)量的信息,但數(shù)據(jù)來(lái)源和基礎(chǔ)是與數(shù)據(jù)倉(cāng)庫(kù)無(wú)法分開的,否則就會(huì)出現(xiàn)數(shù)據(jù)完整性,數(shù)據(jù)可管理性和元數(shù)據(jù)可管理性等問(wèn)題,全局集中的企業(yè)數(shù)據(jù)倉(cāng)庫(kù)為所有為特定業(yè)務(wù)領(lǐng)域服務(wù)的

29、數(shù)據(jù)集市提供一個(gè)可靠的基礎(chǔ)。 數(shù)據(jù)集市的定義邏輯成份較多,而不注重于物理角度,企業(yè)級(jí)的數(shù)據(jù)倉(cāng)庫(kù)指把企業(yè)業(yè)務(wù)信息經(jīng)提煉整理后作長(zhǎng)期的保存,而數(shù)據(jù)集市保存的信息附屬于某一特定的業(yè)務(wù)范圍,相對(duì)比較動(dòng)態(tài)化,因?yàn)閿?shù)據(jù)集市相關(guān)的業(yè)務(wù)范圍會(huì)隨著時(shí)間和經(jīng)營(yíng)方針的改變而改變。 數(shù)據(jù)集市需要快速訪問(wèn)原始業(yè)務(wù)數(shù)據(jù),這些數(shù)據(jù)可能是從幾個(gè)不同的時(shí)期收集來(lái)的,事先要經(jīng)過(guò)業(yè)務(wù)規(guī)則的檢驗(yàn)和凈化處理。這樣才能保證不同業(yè)務(wù)需求的數(shù)據(jù)集市都能快速訪問(wèn)到所需的數(shù)據(jù)。正是這個(gè)原因,最成功的數(shù)據(jù)集市應(yīng)用不是那些以應(yīng)用為可心的業(yè)務(wù)系統(tǒng),而是由全局企業(yè)數(shù)據(jù)倉(cāng)庫(kù)中提煉出來(lái)的數(shù)據(jù)集市系統(tǒng)。企業(yè)數(shù)據(jù)倉(cāng)庫(kù)可以扮演過(guò)濾器的角色,執(zhí)行業(yè)務(wù)規(guī)則和檢驗(yàn)數(shù)據(jù)

30、。 本建議書在實(shí)現(xiàn)數(shù)據(jù)集市方面推薦一種相當(dāng)靈活的體系結(jié)構(gòu),數(shù)據(jù)集市的規(guī)??梢孕〉街挥袔讉€(gè)用戶,大到整個(gè)部門,甚至整企業(yè)務(wù)系統(tǒng),為了適應(yīng)這種需求,推薦的方案能從核心的數(shù)據(jù)倉(cāng)庫(kù)中抽取所需的特定數(shù)據(jù),跟蹤與建立數(shù)據(jù)集市有關(guān)的所有操作,以便作審計(jì)控制,并能在較長(zhǎng)時(shí)間后重組數(shù)據(jù)。 數(shù)據(jù)集市的具體實(shí)現(xiàn)依賴于業(yè)務(wù)需求和企業(yè)數(shù)據(jù)模型,可以選擇的方案有很多,為確保安全性,可管理性,可靠性和可行性,數(shù)據(jù)集市可以在 SP 平臺(tái)上和企業(yè)的數(shù)據(jù)倉(cāng)庫(kù)共存,這種配置使工作負(fù)載可以分布到多個(gè)節(jié)點(diǎn)上,從而使數(shù)據(jù)集市的應(yīng)用獲得較好的性能效果,對(duì)于遠(yuǎn)程節(jié)點(diǎn)和移動(dòng)用戶而言,數(shù)據(jù)集市則可以從企業(yè)數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)轉(zhuǎn)移到其他平臺(tái)上,IBM 的

31、DB2 UDB 數(shù)據(jù)庫(kù)和數(shù)據(jù)復(fù)制產(chǎn)品降低了轉(zhuǎn)移過(guò)程的復(fù)雜性和難度,這些產(chǎn)品可運(yùn)行在多種平臺(tái)上,如WindowsNT、 OS/2、AIX、Sun Solaris、HP-UX 和 SCO UNIX 等,使數(shù)據(jù)集市可靈活擴(kuò)展。 對(duì)于小于 20 GB的數(shù)據(jù)集市,還可以把數(shù)據(jù)下載到多維數(shù)據(jù)和分析包中,如 Arbor 公司的 Essbase 可以從數(shù)據(jù)倉(cāng)庫(kù)中切下部分?jǐn)?shù)據(jù),專用于部門級(jí)的數(shù)據(jù)集市應(yīng)用,Essbase 有一個(gè)多維數(shù)據(jù)庫(kù),最終用戶可以從不同的維上分析數(shù)據(jù),在較短的響應(yīng)時(shí)間內(nèi)分析數(shù)據(jù)和匯總信息。 本建議書的其余部分將專注于論述如何建立一個(gè)集中式的全局?jǐn)?shù)據(jù)倉(cāng)庫(kù),評(píng)估具體的業(yè)務(wù)需求時(shí)會(huì)進(jìn)一步解釋數(shù)據(jù)集

32、市的實(shí)現(xiàn)。方案所用技術(shù)概述 本方案涉及七項(xiàng)最重要的技術(shù):數(shù)據(jù)倉(cāng)庫(kù)的管理和基礎(chǔ)結(jié)構(gòu),數(shù)據(jù)獲取,數(shù)據(jù)存儲(chǔ),決策支持工具,數(shù)據(jù)采掘,企業(yè)數(shù)據(jù)倉(cāng)庫(kù)目錄,咨詢及顧問(wèn)服務(wù),下面將分別介紹。每項(xiàng)技術(shù)都分類列出可能的選擇,我們?cè)谶@個(gè)項(xiàng)目中的推薦方案以及原因。 我們的解決方案不但覆蓋了這七項(xiàng)技術(shù),還有針對(duì)性地根據(jù)招商銀行的業(yè)務(wù)需求來(lái)使用這些技術(shù),保證緊密地集成系統(tǒng),完成所有業(yè)務(wù)需要的功能,同時(shí)這些技術(shù)遵循開放標(biāo)準(zhǔn),每個(gè)組成部分的模塊化結(jié)構(gòu)使整個(gè)系統(tǒng)具有充分靈活性,可以在必要的時(shí)候升級(jí)改進(jìn)。管理及基礎(chǔ)結(jié)構(gòu)硬件技術(shù) 招商銀行可以選用的硬件平臺(tái)有 SMP,SMP 集群和 MPP。根據(jù)業(yè)務(wù)的規(guī)模,銀行業(yè)的動(dòng)態(tài)性,以及為

33、將來(lái)的發(fā)展建立一個(gè)靈活的,可擴(kuò)展的,有充分發(fā)展余地的基礎(chǔ)的需求,編寫這份建議書的專家一致認(rèn)為應(yīng)該選擇 MPP 平臺(tái),其他評(píng)核的顧問(wèn)如Richard Finkelstein、Colin White 和 IDC 的 ChrisWilliard 等都肯定這一選擇,根據(jù) Gartner 集團(tuán)的統(tǒng)計(jì),九成的 IT 經(jīng)理為了更快,更靈活,更有效地執(zhí)行分析工作,都會(huì)選擇 MPP 平臺(tái)和并行數(shù)據(jù)庫(kù)。 IBM 有兩種 UNIX 環(huán)境下的 MPP 處理方案:SP 和大型主機(jī)上的 MVS 開放版本。我們推薦 SP 系統(tǒng),因?yàn)樗€(wěn)固的結(jié)構(gòu),成功的運(yùn)行記錄,較好的性能價(jià)格比。 SP 在1994年推出,時(shí)至今日,全世界共

34、有2000多個(gè)系統(tǒng)在運(yùn)行,總節(jié)點(diǎn)數(shù)超過(guò)20000個(gè),現(xiàn)在在中國(guó)也安裝了近100個(gè)系統(tǒng)。大型的銀行企業(yè),一般會(huì)選用一個(gè)或多個(gè) SP 平臺(tái)來(lái)執(zhí)行各種業(yè)務(wù),如市場(chǎng)分析,客戶管理,利潤(rùn)分析,服務(wù)跟蹤等。 SP 可以提供幾乎不受限制的可擴(kuò)展能力,本項(xiàng)目建議的配置只及目前最強(qiáng)大的處理能力,最大的內(nèi)存和硬盤容量的不足百分之五,有一些用戶甚至在使用超過(guò)400個(gè)節(jié)點(diǎn)的 SP 系統(tǒng)。系統(tǒng)管理 長(zhǎng)期穩(wěn)定運(yùn)行的業(yè)務(wù)系統(tǒng)有賴于穩(wěn)定的體系結(jié)構(gòu),而系統(tǒng)管理是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)穩(wěn)定性量度的重要指標(biāo)。有超過(guò)一半的客戶/服務(wù)器項(xiàng)目是失敗的,其中超過(guò)90%的系統(tǒng)是因?yàn)闆]有合適的系統(tǒng)管理結(jié)構(gòu)。SP 平臺(tái)上有一整套系統(tǒng)管理軟件,能管理系統(tǒng)的

35、改變,重新配置,操作執(zhí)行以及作性能和故障管理。Tivoli 系列系統(tǒng)管理工具進(jìn)一步完善這組軟件的功能,它是一套可靠的跨平臺(tái)的管理工具,能實(shí)現(xiàn)完善的數(shù)據(jù)倉(cāng)庫(kù)管理功能,使整個(gè)系統(tǒng)發(fā)揮最大的交用。本方案中采用的 Tivoli 產(chǎn)品是ADSM(ADSTAR分布式存儲(chǔ)管理器)。數(shù)據(jù)獲取 數(shù)據(jù)獲取過(guò)程由幾步組成,有數(shù)據(jù)抽取和傳送,數(shù)據(jù)提煉,數(shù)據(jù)分發(fā)和裝載。數(shù)據(jù)獲取是一個(gè)不間斷的過(guò)程,要求自動(dòng)化的處理能力,可靠性和可管理性,所以上節(jié)所說(shuō)的系統(tǒng)管理能力也很重要。數(shù)據(jù)獲取的核心是企業(yè)數(shù)據(jù)倉(cāng)庫(kù)目錄的分發(fā)和管理。該功能由 DB2 UDB EEE 中的產(chǎn)品 Data Propagator 完成。數(shù)據(jù)存儲(chǔ) 在 SP 硬

36、件平臺(tái)上,可選的數(shù)據(jù)存儲(chǔ)產(chǎn)品有 ORACLE、INFORMIX 和 DB2 并行版本,我們推薦 DB2 并行版本 UDB-EEE,該產(chǎn)品在加拿大實(shí)驗(yàn)室開發(fā),得到多數(shù)顧問(wèn)的一致推薦,因?yàn)?DB2 并行版本是目前市場(chǎng)上唯一完全符合標(biāo)準(zhǔn)的 MPP 數(shù)據(jù),通過(guò)廣泛的安裝和使用進(jìn)一步證明了其能力。在 SP 平臺(tái)上實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)選用 DB2 并行版本的占了超過(guò)50,遠(yuǎn)遠(yuǎn)超過(guò)第二位的 ORACLE,因?yàn)樗壳拔ㄒ灰粋€(gè)全并行的數(shù)據(jù)庫(kù)。 最近作了一個(gè)關(guān)于 VLDB (超大型數(shù)據(jù)庫(kù))的調(diào)查中,DB2 成為最受歡迎的產(chǎn)品,在五大數(shù)據(jù)庫(kù)中無(wú)論是數(shù)據(jù)庫(kù)的容量還是用戶數(shù)都遠(yuǎn)遠(yuǎn)領(lǐng)先。例如一家叫 BellSygma 的公司,正

37、在使用 DB2/MVS 作市場(chǎng)分析,隨著 UNIX 平臺(tái)上的數(shù)據(jù)倉(cāng)庫(kù)的不斷發(fā)展,他們?cè)诳紤]轉(zhuǎn)型時(shí)決定采用 DB2 并行版本,因?yàn)樗麄円呀?jīng)有 DB2 的使用經(jīng)驗(yàn),而且 IBM 在 VLDB 上令人信服的技術(shù)和經(jīng)驗(yàn),可信的運(yùn)行記錄等促使他們作出這種決定。時(shí)至今日,他們已經(jīng)開發(fā)出幾個(gè) VLDB 的數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用,都有非常好的可擴(kuò)展性和性能。 一向以來(lái),DB2 因?yàn)槠涠鄻踊墓δ芏苁澜绺鞔笮推髽I(yè)的普遍歡迎,美國(guó)最大的500家企業(yè)中有超過(guò)80采用了 DB2,其中前100家全部采用了 DB2。DB2 并行版本象 SP 平臺(tái)一樣,能幫助象招商銀行這樣的企業(yè)去應(yīng)付各種類型的業(yè)務(wù)壓力,有足夠的靈活性去增加,刪除

38、,重新開發(fā)和管理應(yīng)用和數(shù)據(jù),DB2 有獨(dú)特的可重用特點(diǎn),能同時(shí)作數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市和內(nèi)部網(wǎng)應(yīng)用的數(shù)據(jù)庫(kù)服務(wù)器,將來(lái)還可以把DB2/400 的應(yīng)用向下優(yōu)化到 DB2 上。 最新的 TPCD 測(cè)試表明,DB2 的性能是并行數(shù)據(jù)庫(kù)中最好的,這次測(cè)試模擬了一個(gè)實(shí)際的數(shù)據(jù)倉(cāng)庫(kù)環(huán)境,從 TPC 量度上來(lái)看,與招商銀行目前的數(shù)據(jù)倉(cāng)庫(kù)規(guī)模比較接近,IBM 公司在1996年共投入了1200個(gè)人年開發(fā) DB2 產(chǎn)品,今后仍會(huì)保持這種力度以保證并行數(shù)據(jù)庫(kù)領(lǐng)域的領(lǐng)先地位。決策分析支持工具 面向最終用戶的工具種類繁多,有 IBM的 Visualizer、Data Inter Pretation;其他公司的如 Cogon

39、s、Information Advantage、Business Objects、Brio-Query、CrystalReports、Microstrategy、Prodea、Arbor 的EssBase 等。匯集總體層次上的數(shù)據(jù),從多個(gè)角度去分析,發(fā)現(xiàn)有價(jià)值的信息,但每個(gè)工具的功能范圍都比較單一而固定。 經(jīng)過(guò)專家的討論,我們推薦 Arbor 的 EssBase,作部門級(jí)數(shù)據(jù)集市方案中的多維數(shù)據(jù)庫(kù)。我們也希望建立數(shù)據(jù)采掘的合作關(guān)系,以便更好地發(fā)揮 IBM 最新的數(shù)據(jù)采掘和發(fā)現(xiàn)技術(shù)的作用。IBM 的數(shù)據(jù)采掘技術(shù) 數(shù)據(jù)倉(cāng)庫(kù)最重要的作用就是發(fā)掘信息,更好地支持業(yè)務(wù)決策,增加客戶忠誠(chéng)度,提高市場(chǎng)占有率

40、和利潤(rùn),信息發(fā)掘的應(yīng)用有市場(chǎng)分析,利潤(rùn)評(píng)估,成本審核等。 現(xiàn)在的技術(shù)趨勢(shì)是以信息發(fā)現(xiàn)為驅(qū)動(dòng),提高上述應(yīng)用的效率,IBM在這方面的研究和開發(fā)工作一直處于領(lǐng)先地位,與幾個(gè)重大的金融和零售業(yè)客戶合作,開發(fā)出一些有針對(duì)性的解決方案。在此基礎(chǔ)上匯集成一個(gè)完整的數(shù)據(jù)采掘工具包,Intelligent Miner.已在1996年六月推出,支持RS/6000 和 SP 平臺(tái)上的 DB2,該項(xiàng)技術(shù)在業(yè)界內(nèi)堪稱一絕。第一版的產(chǎn)品內(nèi)含有八個(gè)獨(dú)立的算法。 META 集團(tuán)的 AaronZornes 曾高度評(píng)價(jià)這一技術(shù)“IBM 的數(shù)據(jù)采掘工具包和提供的相關(guān)的服務(wù),相信會(huì)對(duì)大型企業(yè)的數(shù)據(jù)倉(cāng)庫(kù)技術(shù)帶來(lái)決定性的影響?!?這項(xiàng)技

41、術(shù)是一項(xiàng)新技術(shù),對(duì)招商銀行而言很有好處,采用這項(xiàng)技術(shù)可以使貴行與其他銀行在技術(shù)上拉開差距,這項(xiàng)技術(shù)必然會(huì)進(jìn)一步發(fā)展,同時(shí)也就保證了貴行在數(shù)據(jù)倉(cāng)庫(kù)上的投資能發(fā)揮更大的作用。企業(yè)數(shù)據(jù)倉(cāng)庫(kù)目錄 數(shù)據(jù)倉(cāng)庫(kù)的元數(shù)據(jù)是數(shù)據(jù)倉(cāng)庫(kù)完整性、自動(dòng)化程度和可用性的基礎(chǔ),元數(shù)據(jù)定義了數(shù)據(jù)倉(cāng)庫(kù)的處理過(guò)程,記錄下來(lái)并支配整個(gè)運(yùn)行過(guò)程,對(duì)業(yè)務(wù)型用戶而言,元數(shù)據(jù)是一種信息目錄,從中可以較容易地理解和使用數(shù)據(jù)倉(cāng)庫(kù)中的信息。 元數(shù)據(jù)的來(lái)源,信息模型和存儲(chǔ)技術(shù)有很多種,通常相互之間是沖突的,為了使各種工具可以順利地互相交換元數(shù)據(jù),需要 Metadata Interchange Coalition 的幫助,提供元數(shù)據(jù)的標(biāo)準(zhǔn)化的交換。

42、IBM,ETI,Infromation Advantage 和 Vality 等公司都支持這種標(biāo)準(zhǔn),我們與其他數(shù)據(jù)倉(cāng)庫(kù)廠商也正在共同合作,以達(dá)成最終的標(biāo)準(zhǔn)。 IBM 的方法與 Coalition 的策略完全一致,技術(shù)性的元數(shù)據(jù)和業(yè)務(wù)性的元數(shù)據(jù)的內(nèi)容和使用方式都是比較獨(dú)立的,針對(duì)不同的用戶,應(yīng)該有不同的元數(shù)據(jù)存儲(chǔ),優(yōu)化信息結(jié)構(gòu)。IBM 推薦的方案中,技術(shù)性的元數(shù)據(jù)可以用ETI,業(yè)務(wù)性的元數(shù)據(jù)用 IBM 的 DataGuide,這些相互獨(dú)立的產(chǎn)品雖然來(lái)自不同的廠商,但組合起來(lái)能發(fā)揮更大的作用,因?yàn)樗鼈兪撬陬I(lǐng)域中最好的產(chǎn)品,否則無(wú)論如何都要維護(hù)兩套元數(shù)據(jù)目錄,還要保證它們之間的同步。 ETI 和

43、DataGuide 的同步由 ETI 負(fù)責(zé),因?yàn)?ETI 有一種很特別的功能,能象處理其他數(shù)據(jù)源一樣處理 ETI 的元數(shù)據(jù)存儲(chǔ),ETI 最大的長(zhǎng)處就是有選擇的查詢、傳送數(shù)據(jù),不受軟件和硬件的影響,能在任何格式的數(shù)據(jù)庫(kù)或文件間傳送大量的數(shù)據(jù),所有操作都是在元數(shù)據(jù)的控制下進(jìn)行。ETI 的元數(shù)據(jù)存儲(chǔ)能卸出,然后卸入 DataGuide,或與DataGuide 的數(shù)據(jù)合并,整個(gè)處理過(guò)程可在圖形界面中完成,最后能生成相關(guān)的報(bào)告,ETI 還支持版本控制,建立并維護(hù)詳細(xì)的審計(jì)記錄。 DataGuide 是 IBM 的信息目錄工具,集成工作組級(jí)和企業(yè)級(jí)上的最終用戶業(yè)務(wù)元數(shù)據(jù),DataGuide 中的元數(shù)據(jù)按業(yè)

44、務(wù)性質(zhì)劃分成多個(gè)業(yè)務(wù)組,最終用戶很容易瀏覽,分析時(shí)如果要查找某一對(duì)象,如報(bào)告、電子表格、數(shù)據(jù)庫(kù)、程序、ETI 元數(shù)據(jù)存儲(chǔ)或數(shù)據(jù)采掘工具等,DataGuide 都能把所需的數(shù)據(jù)連同信息抽調(diào)出來(lái),DataGuide 的目錄信息存儲(chǔ)在 DB2 中,與數(shù)據(jù)倉(cāng)庫(kù)中的業(yè)務(wù)數(shù)據(jù)放在相同的地方。咨詢與顧問(wèn)服務(wù)概述 招商銀行已有開發(fā)大型項(xiàng)目的技術(shù)和經(jīng)驗(yàn)。根據(jù) IBM 在數(shù)百個(gè)數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目中的經(jīng)驗(yàn),其中有幾個(gè)與招商銀行的情況相類似,我們有信心幫助貴行利用已有的技術(shù)和經(jīng)驗(yàn),把系統(tǒng)升級(jí),擴(kuò)展數(shù)據(jù)倉(cāng)庫(kù)的范圍和業(yè)務(wù)應(yīng)用的廣度。 IBM 一向是通過(guò)增加商業(yè)價(jià)值來(lái)推動(dòng)項(xiàng)目的進(jìn)展,保證用戶花在數(shù)據(jù)倉(cāng)庫(kù)上的每一分錢都是物有所值的

45、,所采用的技術(shù)都是絕對(duì)有必要的,與業(yè)務(wù)需求相適應(yīng)的,我們的方案進(jìn)展是分期進(jìn)行的,保證整個(gè)項(xiàng)目按步就班,達(dá)至最后完全成功。 IBM 是世界最大的顧問(wèn)服務(wù)公司,提供全面的顧問(wèn)服務(wù),在招商銀行項(xiàng)目中我們有三個(gè)突出的長(zhǎng)處: IBM 充分認(rèn)識(shí)到數(shù)據(jù)倉(cāng)庫(kù)的重要性,專門建立一個(gè)技術(shù)中心,由數(shù)百個(gè)專業(yè)人員組成,設(shè)計(jì)、實(shí)現(xiàn)并管理數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目中的所有部件。 IBM 已有多年為客戶提供數(shù)據(jù)倉(cāng)庫(kù)咨詢與顧問(wèn)服務(wù)的歷史,附錄中列出了 IBM 數(shù)據(jù)倉(cāng)庫(kù)顧問(wèn)服務(wù)的方式。 IBM 有數(shù)據(jù)采掘方面領(lǐng)先的技術(shù),在過(guò)去十年中,超過(guò)50個(gè)研究人員專注于超大型數(shù)據(jù)環(huán)境中的數(shù)據(jù)發(fā)掘的研究,研究工作在遍布世界各地的9個(gè)實(shí)驗(yàn)室中進(jìn)行,前后共研

46、制了42種數(shù)據(jù)發(fā)掘的算法,所有這些成果,再加上我們提供的專業(yè)顧問(wèn)服務(wù),幫助客戶設(shè)計(jì)方案,實(shí)現(xiàn)和開展培訓(xùn),構(gòu)成了數(shù)據(jù)采掘的強(qiáng)大力量。第三章 硬件產(chǎn)品介紹 在仔細(xì)研究招商銀行總行目前的運(yùn)行環(huán)境,以及總行對(duì)數(shù)據(jù)倉(cāng)庫(kù)計(jì)劃的需求后,IBM 提出 SP 解決方案。IBM 方案結(jié)合了在不同平臺(tái)(IBM RS/6000 及 IBM AS/400) 間數(shù)據(jù)移動(dòng) (data movement),系統(tǒng)連接 (system connectivity) 以及系統(tǒng)可擴(kuò)展性 (system scalability) 等許多新的技術(shù),這些技術(shù)不僅可以滿足總行目前的需求,而且提供了滿足未來(lái)需求的基礎(chǔ)。解決方案: 因?yàn)槟壳翱傂忻?/p>

47、天的日常操作是在 AS/400 上運(yùn) 行,為確保不影響 日常的運(yùn)行,以及滿足數(shù)據(jù)倉(cāng)庫(kù)大量運(yùn)算的需求,IBM 建議使用IBM 最高檔的 UNIX 平臺(tái) RS/6000 SP,因?yàn)?SP 具有(1)開放式系統(tǒng)功能。(2)高可擴(kuò) 展性等優(yōu)點(diǎn),足以滿足總行目前及未來(lái)的需求。 IBM 解決方案的主機(jī)硬件需求: 八個(gè) R50 節(jié)點(diǎn)的 RS/6000 SP,每節(jié)點(diǎn)配置有8個(gè) CPU,4GB 內(nèi)存,4.5 GB 內(nèi)置硬盤,外置硬盤為 81.1GB。各節(jié)點(diǎn)的外置硬盤不互連。八個(gè)節(jié)點(diǎn)通 過(guò)SP SWITCH 相聯(lián),構(gòu)成 SP 的 MPP 結(jié)構(gòu),而每個(gè)節(jié)點(diǎn)內(nèi)采用8 CPU 的 SMP 結(jié)構(gòu)。 物理上八個(gè) R50 節(jié)

48、點(diǎn)占用兩個(gè) SP 機(jī)柜,每個(gè) SP 機(jī)柜可放置四個(gè) R50 節(jié)點(diǎn)。八個(gè)7133-020磁盤組占用兩個(gè) R00 機(jī)柜,每個(gè) R00 機(jī)柜可放置四組 7133硬盤(每組16個(gè))。IBM RS/6000 Scaleable POWER Parallel (SP) 介紹 SP 是 RS/6000 系列產(chǎn)品線中最高檔的產(chǎn)品,是 IBM 專門為需要大量高速計(jì)算客戶 所設(shè)計(jì)的并行機(jī),SP 的結(jié)構(gòu)是高度可伸縮的,最小的 SP 可以只有一個(gè)節(jié)點(diǎn),最大的 SP 可以到512個(gè)節(jié)點(diǎn)。 SP 有三種節(jié)點(diǎn):窄節(jié)點(diǎn)、寬節(jié)點(diǎn)、高節(jié)點(diǎn),每個(gè) SP 機(jī)框 (System Frame) 可以放置16個(gè)窄節(jié)點(diǎn),或8個(gè)寬節(jié)點(diǎn),或4個(gè)

49、高節(jié)點(diǎn)。所謂的高節(jié)點(diǎn)即是 RS/6000 SMP 機(jī) R50,每個(gè)高節(jié)點(diǎn)最多可以有8個(gè)CPU,4 GB 內(nèi)存及6900GB SSA 硬盤 (或2700GB SCSI硬 盤)。 節(jié)點(diǎn)之間的通訊是通過(guò) IBM 專門為 SP 設(shè)計(jì)的 SP Switch 來(lái)實(shí)現(xiàn),節(jié)點(diǎn)與外部的通訊則可選擇用以太網(wǎng),F(xiàn)DDI 或 ATM。每個(gè)節(jié)點(diǎn)都運(yùn)行 AIX 操作系統(tǒng)。一個(gè)低檔的 RS/6000 工作站用來(lái)作控制臺(tái),控制整個(gè) SP 系統(tǒng)的運(yùn)行。 整個(gè) SP 系統(tǒng)可以當(dāng)作一個(gè)系統(tǒng)運(yùn)行一個(gè)大的并行作業(yè),或者可以區(qū)分為幾個(gè)小系統(tǒng),每個(gè)小系統(tǒng)運(yùn)行自己的作業(yè)。SP 是高可伸縮性的并行計(jì)算機(jī) SP Shared-nothing 和

50、離散式內(nèi)存的結(jié)構(gòu),比共享內(nèi)存 SMP 結(jié)構(gòu)及松散耦合式的服務(wù)器集群 (Loosely-Coupled Cluster) 在可擴(kuò)展性上有顯著的優(yōu)勢(shì),SMP (對(duì)稱式處理器) 結(jié)構(gòu),由于共享內(nèi)存及使用單一的操作系統(tǒng),在可擴(kuò)展性的限制上是眾所周知的。 SMP 結(jié)構(gòu)的第一個(gè)瓶頸在于所有的 CPU 均需通過(guò)一條系統(tǒng)總線,到內(nèi)存獲取數(shù)據(jù),CPU 之間往往需要彼此競(jìng)爭(zhēng)來(lái)取得系統(tǒng)總線的使用權(quán)。 SMP 結(jié)構(gòu)的第二個(gè)瓶頸在于緩存的一致性 (Cache Coherence),也就是說(shuō)每個(gè) CPU 必須消耗極多的時(shí)間來(lái)確定每個(gè)緩存中的數(shù)據(jù)是一致的,當(dāng)某個(gè) CPU 改動(dòng)它緩存中的數(shù)據(jù),它必須把這個(gè)更改通知到其他各個(gè)

51、CPU,這對(duì) CPU 及系統(tǒng)總線的開銷都是很大的。 SMP 結(jié)構(gòu)的第三個(gè)瓶頸在于它使用一個(gè)操作系統(tǒng),這個(gè)操作系統(tǒng)由所有的 CPU 所共享,許多內(nèi)核 (kernel) 的結(jié)構(gòu)需要加鎖 (Locking )與解鎖 (unlocking),來(lái)確保數(shù)據(jù)的一致性,這種 Locking 機(jī)制對(duì) SMP結(jié)構(gòu)是一項(xiàng)極大的系統(tǒng)開銷。 SMP or MPP For Data Warehousing 目前有愈來(lái)愈多的數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用使用像 IBM RS/6000 SP 這種多功能并行機(jī) (MPP) 作為硬件平臺(tái),這是因?yàn)椋?1.并行數(shù)據(jù)庫(kù) UDB的 Enterprise-Extended Edition(早期版本為DB

52、2 PE) 已成熟地運(yùn)行在 SP 上,而并行運(yùn)算的復(fù)雜性均被數(shù)據(jù)庫(kù)所涵蓋,原有的應(yīng)用不需要經(jīng)過(guò)任何改變,即可充分利用 SP 的結(jié)構(gòu)達(dá)到并行的效果。 2.數(shù)據(jù)倉(cāng)庫(kù)的操作本身就具有高度的并行性,就以數(shù)據(jù) Scan 為例:各數(shù)據(jù)庫(kù)均有很好的方法把數(shù)據(jù)放在不同的硬盤上,由不同的節(jié)點(diǎn)對(duì)之操作達(dá)到線性加速的效果。 3.愈來(lái)愈多的客戶使用 SP 作為數(shù)據(jù)倉(cāng)庫(kù)平臺(tái),而且成功的案例越來(lái)越多。 由于數(shù)據(jù)倉(cāng)庫(kù)計(jì)算量及數(shù)據(jù)量均極為巨大,選擇一個(gè)具有高度可擴(kuò)展性的平臺(tái)是十分重要的,以下是關(guān)于何時(shí)該選 SMP 平臺(tái),何時(shí)該選MPP 平臺(tái)的幾點(diǎn)標(biāo)準(zhǔn): 1. 數(shù)據(jù)庫(kù)及最大表 (Table) 的大小。 2. 同時(shí)使用的用戶數(shù)。

53、通常一個(gè)數(shù)據(jù)倉(cāng)庫(kù)大多有50至200個(gè)人同 時(shí)使用 。 3. 數(shù)據(jù)庫(kù)查詢的復(fù)雜程度。 4. 系統(tǒng)總線的速度,處理器的速度和I/0的速度。 5. 每個(gè)查詢會(huì)訪問(wèn)多少數(shù)據(jù),100多行或在百萬(wàn)行。 6. 用戶希望的反應(yīng)時(shí)間:幾分鐘或幾小時(shí)。 7. 數(shù)據(jù)庫(kù)的功能。 8. 數(shù)據(jù)庫(kù)和終端用戶數(shù)增長(zhǎng)的速度。 IBM 曾就這個(gè)問(wèn)題(何時(shí)該選 SMP,何時(shí)該選 MPP)對(duì)許多專家進(jìn)行調(diào)研,比較中肯的意見是:如果數(shù)據(jù)量超過(guò)100 GB (也有的專家認(rèn)為200GB) 用戶最好認(rèn)真考慮 MPP 機(jī)型,因?yàn)樗休^好的擴(kuò)展性,當(dāng)然最好在實(shí)施前即對(duì)終端用戶的需求有充分的了解,可是在實(shí)際的情形中,這種事先有充分準(zhǔn)備的例子不多,

54、所以在實(shí)施數(shù)據(jù)倉(cāng)庫(kù)后兩三年內(nèi),數(shù)據(jù)量增長(zhǎng)三到四倍的情形非常普遍。 很多數(shù)據(jù)倉(cāng)庫(kù)在實(shí)施前都有一個(gè)實(shí)驗(yàn)計(jì)劃,一個(gè)有趣的現(xiàn)象是:實(shí)驗(yàn)計(jì)劃愈成功,客戶對(duì)數(shù)據(jù)的需求就愈大。因此,在考慮平臺(tái)時(shí),一定要注意這個(gè)平臺(tái)的可擴(kuò)展性,即使要用一臺(tái) SMP 的機(jī)型,也要考慮它是否有很高的擴(kuò)展性,是否可以很平滑的升級(jí)到 MPP 結(jié)構(gòu),以避免硬件平臺(tái)的功能無(wú)法滿足用戶的需求。 SP 比起松散耦合式服務(wù)器集群 (Loosely Coupled Cluster) 的方式有很大的優(yōu)越性,服務(wù)器集群的主要缺點(diǎn)在于服務(wù)器之間數(shù)據(jù)傳達(dá)速度太慢,以及有太多的服務(wù)器要管理,IBM 特別為中國(guó)設(shè)計(jì)了 SP Switch,來(lái)提供節(jié)點(diǎn)間快速的

55、數(shù)據(jù)傳送,而且 IBM 也專門為 SP 設(shè)計(jì)了一套管理系統(tǒng)來(lái)管理SP,不論 SP 有多少個(gè)節(jié)點(diǎn),對(duì)系統(tǒng)管理人員而言 SP 只是一個(gè)系統(tǒng)。SP 的結(jié)構(gòu)可以擴(kuò)展到幾千個(gè)節(jié)點(diǎn),目前最大的 SP 有512個(gè)節(jié)點(diǎn),美國(guó)花旗銀行使用116個(gè)節(jié)點(diǎn)的 SP 運(yùn)行數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用。 SP SWITCH SP 的技術(shù)核心是 SP SWITCH,它提供了極高的速度連接各節(jié)點(diǎn)。SP SWITCH 給每?jī)蓚€(gè)節(jié)點(diǎn)提供四條數(shù)據(jù)通道,每?jī)蓚€(gè)節(jié)點(diǎn)之間的帶寬高達(dá)100 MB /S 雙向傳送(讀與寫可以同時(shí)進(jìn)行)。SP 系統(tǒng)管理: IBM 特別為 SP 開發(fā)了一個(gè)系統(tǒng)管理軟件 Parallel System Support Progr

56、am (PSSP), 裝在控制工作臺(tái)上(一臺(tái)低檔的 RS/6000) 來(lái)管理整個(gè) SP。 PSSP 有下列的功能: 硬件的監(jiān)視與控制 配置管理 用戶管理 軟件安裝與升級(jí) 用戶作業(yè)管理 SP 的 RAS(Reliability,Availability and Serviceability) IBM 對(duì) SP 的 RAS 非常重視,每個(gè)重要配件如電源、風(fēng)扇均有冗余。SP Switch 每個(gè)重要芯片均有備份,來(lái)確保 SP Switch 數(shù)據(jù)傳輸?shù)恼_性以及可靠性,兩個(gè)節(jié)點(diǎn)之間則可利用 IBM 高可靠性軟件產(chǎn)品HACMP 提供互為備份。節(jié)點(diǎn)內(nèi)部則有 SystemGuard 芯片提供實(shí)時(shí)監(jiān)控。(Sys

57、temGuard 的詳述見后) 在 SP 內(nèi)的 R50 高結(jié)點(diǎn)采用了 IBM 獨(dú)特的 SMP 技術(shù)的對(duì)稱多處理系統(tǒng)。在整體 SP 為 MPP 計(jì)算結(jié)構(gòu)的同時(shí),在每個(gè) SP 結(jié)點(diǎn)內(nèi)部采用 SMP 處理,使每個(gè)結(jié)點(diǎn)所完成的任務(wù)亦可分散到多個(gè)處理器運(yùn)行,這樣就充分利用了 MPP 及 SMP 兩種技術(shù)各自的優(yōu)越性。以下再對(duì) IBM RS/6000 的 SMP 技術(shù)作一介紹:IBM RS/6000 Symmetric Multi-Processing(SMP )對(duì)稱式多處理器系統(tǒng) 在系統(tǒng)設(shè)計(jì)及制造上,IBM 的 SMP 服務(wù)器代表工業(yè)界科技的一項(xiàng)主要成就,在中央處理器的結(jié)構(gòu),設(shè)計(jì),科技及包裝上有很多領(lǐng)先

58、的突破,與其它競(jìng)爭(zhēng)對(duì)手的 SMP 設(shè)計(jì)比較,RS/6000 表現(xiàn)出顯著的優(yōu)勢(shì),它的可擴(kuò)展性能力及高可伸縮性給客戶提供了充分的投資保護(hù)。 下 表 顯 示 IBM 的 SMP 設(shè) 計(jì) 在 科 技 及 包 裝 上 的 優(yōu) 勢(shì): 傳統(tǒng) SMP 的限制IBM SMP 的創(chuàng)新 Internal contention for Memory Access and Constrained Data MovementNon - Blocking Data Cross bar and Advanced Memory Implementation Single Points of Failure and Overal

59、l System Reliability Independent onboard service processor (IBM system guard)System reliability and availability Suite of improved start-up , runtime and Recovery FacilitiesLimited expansion capability within the same ChassisAdvanced expandability design Limited scalability, constrained performanceP

60、ower PC road map binary compatibilityNon - Blocking data cross bar and advanced memory implementation: 在傳統(tǒng)的 SMP 設(shè)計(jì)中,各個(gè) CPU 均由同一條系統(tǒng)總線(SYSTEM BUS) 從內(nèi)存獲得所需要的數(shù)據(jù) (DATA),IBM 在設(shè)計(jì) SMP時(shí),使用交換開關(guān)的技術(shù) (CROSSBAR SWITCH),各個(gè) CPU 均可由自己的通道到內(nèi)存獲取所需的數(shù)據(jù),因此多個(gè) CPU 可同時(shí)由內(nèi)存獲取數(shù)據(jù),R50 的系統(tǒng)帶寬可高達(dá)1.8GB/Sec。 這種設(shè)計(jì)對(duì)客戶的好處有:1.IBM 把這種比較昂貴,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論