版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、一、遺傳算法在遙感中的應用遺傳算法簡介:按照達爾文(C.Darwin)的生物進化論,生物界的進化遵循“物競天擇,適者生存”的法則。按照孟德爾(G.Mendel)和摩根(T.Morgan)的遺傳學理論,遺傳物質以基因的形式排列在染色體上,不同位置的基因控制著生物的不同特性,不同的基因組合產(chǎn)生的個體對環(huán)境的適應性不同,通過基因雜交和突變能夠產(chǎn)生對環(huán)境適應性強的后代個體??傊?,在一定的環(huán)境影響下,生物物種通過自然選擇、基因交換和變異等過程進行繁殖演化,構成了整個生物進化過程。遺傳算法的思想來自上述生物進化過程,其基本原理的研究也是從研究生物進化的基本規(guī)律開始的。研究發(fā)現(xiàn),生物進化是一個不斷循環(huán)的過程
2、。在這一過程中,生物群體不斷完善和發(fā)展。所以生物進化過程本質上是一種優(yōu)化過程,種認識啟發(fā)著遺傳算法的研究者將其應用到優(yōu)化計算領域,創(chuàng)立新的優(yōu)化計算方法,并將這些方法應用到復雜的工程計算領域之中。遺傳算法的基本過程遺傳算法維持一個種群,每一個體均代表問題的一個潛在的解,每一個體都被按預定的評價函數(shù)評價優(yōu)劣并得到其適應值。算法開始時先隨機地產(chǎn)生初始種群,計算每個個體適應度值,根據(jù)適應度值對某些個體進行交叉、變異等遺傳操作,形成新的個體,即子代,子代繼續(xù)被評價。從父代種群和子代種群中選擇比較優(yōu)秀的個體就形成了新的種群。由于新種群個體是上一代種群的優(yōu)秀者,繼承了上一代的優(yōu)良性態(tài),可能收斂于最優(yōu)解。遺傳
3、算法就這樣反復迭代,向著更優(yōu)解的方向進化,直至滿足某種預定的條件。在若干代以后,算法收斂到一個最優(yōu)的個體,該個體很可能就是代表問題的最優(yōu)或次優(yōu)解。遺傳算法利用生物進化和遺傳的思想實現(xiàn)優(yōu)化過程,區(qū)別于傳統(tǒng)的優(yōu)化算法,其基本特征主要表現(xiàn)在以下幾個方面。1智能性遺傳算法的智能性包括自適應、自組織和自學習性等。應用遺傳算法求解問題時,在確定了編碼方式、適用度函數(shù)及遺傳算子以后,算法將利用遺傳算法中獲得的信息自行組織搜索。由于基于自然選擇的規(guī)則,即適者生存、劣者淘汰,所以適應值大的個體具有較高的生存概率。通常適應值大的個體具有與環(huán)境更適應的基因結構,再通過交叉和基因突變等遺傳操作就可能產(chǎn)生與環(huán)境更適應的
4、后代。遺傳算法的這種自組織、自適應特征現(xiàn)時也賦予了它具有能根據(jù)環(huán)境的變化自動發(fā)現(xiàn)環(huán)境的特性和規(guī)律的能力。應用遺傳算法使得我們在算法設計的過程中無需事先知道問題的全部特點,這尤其適合于那些結構尚不清楚的復雜問題。2并行性遺傳算法的并行性表現(xiàn)在兩方面:一是遺傳算法的內在并行性,即遺傳算法本身非常適合大規(guī)模并行操作。其最簡單的并行方式是讓幾百甚至上千臺計算機各自進行獨立種群的進化計算,運行過程中可不進行任何通信,等到運算結束時才通信比較,選取最佳個體,這種并行處理方式對并行系統(tǒng)結構也沒有什么限制和要求。二是遺傳算法的隱式并行性。由于遺傳算法不是在一個單點上進行尋優(yōu)搜索,它可以同時搜索解空間中的多個區(qū)
5、域,并相互交流信息,這種搜索方式使得它雖然每次只執(zhí)行與種群規(guī)模 N 成比例的計算,而實質上已進行了大約 O ( N3)次有效搜索,這使得遺傳算法能以較少的計算獲得較大的收益。3穩(wěn)健性遺傳算法只利用適應度函數(shù)信息,基本上不用搜索空間的知識或其它輔助信息,而僅用適應度函數(shù)值來評估個體,在此基礎上進行遺傳操作。適應度函數(shù)不受連續(xù)性、單峰等假設的限制,且其定義域可以任意設定。這一特點使得遺傳算法的具有很強的魯棒性。4全局優(yōu)化傳統(tǒng)的優(yōu)化方法,一般采用的是梯度下降的爬山策略,當遇到多峰函數(shù)的情形往往容易陷入局部最優(yōu)。而遺傳算法能在解空間的多個區(qū)域內同時進行搜索,并且能以較大的概率跳出局部最優(yōu),以找出全局的
6、最優(yōu)解。5多解性遺傳算法是采用種群方式組織搜索。它從多個解出發(fā),通過這些點內部結構的調整和重組來形成新的解。因而,每次都將提供多個近似解,這對多目標搜索或者需要多個近似解作為參照的情況下是非常有用的。6不確定性遺傳算法的不確定性是伴隨其選擇的隨機性而來的。遺傳操作算子主要利用概率轉換規(guī)則,而非確定性規(guī)則,這使得在算法的進化過程中,事件的發(fā)生與否帶有較大的不確定性。有人已經(jīng)證明,在任意初始化、任意交叉算子以及任意適應度函數(shù)下,遺傳算法都不能收斂到全局最優(yōu)。遺傳算法在遙感中的應用遺傳算法可以用在遙感數(shù)據(jù)的處理,遙感影像匹配,遙感影像增強,混合像元的快速分解和分類,遙感多光譜影像的分類和遙感圖像的壓
7、縮等方面。(1)遺傳算法在數(shù)據(jù)處理中的應用遙感數(shù)據(jù)的遺傳超平面分類方法遙感數(shù)據(jù)是一種特殊的圖像數(shù)據(jù)形式,它既具有自己的特殊性和復雜性,也有圖像數(shù)據(jù)的一般性。由于其特殊性和復雜性,因而將遺傳算法引入遙感數(shù)據(jù)的處理還是近幾年的事。如美國AlamoS空間與遙感科學國家實驗室StevenP.Brumby等人利用遺傳算法的優(yōu)化搜索性能,在眾多的方法中尋找適合特定研究目的的最優(yōu)分類方法。印度Pal等人則致力于遙感分類參數(shù)的遺傳優(yōu)化問題。國內莊家禮等人則使用遺傳算法對遙感反演參數(shù)進行優(yōu)化,取得了不錯的效果。分類是找出描述并區(qū)分數(shù)據(jù)類別或者概念的模型以便能使用模型預測類標記未知的數(shù)據(jù)的過程(Han2001),
8、或者是智能系統(tǒng)面對紛繁復雜的傳感器數(shù)據(jù)時,為從中提取出有意義信息所采取的一個關鍵的處理步驟(Richard2003)。對遙感數(shù)據(jù)的分類是一個根據(jù)遙感圖像辨識地表覆蓋類型的過程。由于遙感圖像具有多波段以及數(shù)據(jù)量大的特點,所以遺傳算法比較難于直接針對數(shù)據(jù)進行處理,一般是建立一個可以使用遺傳算法進化的模型。在遙感數(shù)據(jù)分類處理領域,以L等(2001)提出使用遺傳算法來確定超平面的空間組合位置,從而使得遺傳算法得以開始應用于遙感圖像分類中。在使用遺傳一超平面算法進行分類的過程中,除了要考慮遺傳算法本身的特點以外,建立一個適合遺傳進化的超平面組合模型具有非常重要的意義。通過遺傳算法進行超平面分類也是一個遺
9、傳算法應用于模式識別/分類的問題,在給定超平面集合的條件下,通過對訓練點集合中訓練點進行模式描述、模式匹配然后利用遺傳算法的優(yōu)異搜索性能,通過進化的方式對各種不同的模式分類方案進行比較、選擇,得到最好的模式分類方案。最后擴展到整幅圖像達到模式分類的目的。在遺傳算法優(yōu)化的超平面分類模型中,由超平面方程的參數(shù)經(jīng)過特殊編碼而成的二進制串集合形成了遺傳算法的搜索空間。這是因為特定位數(shù)的二進制串可以代表特定空間的所有超平面方程。遺傳算法通過選擇、變異、交叉等遺傳操作在此搜索空間內搜索最優(yōu)的解,中間通過解碼過程將二進制串還原為超平面的參數(shù)以計算每條染色體的適應度(目標函數(shù))。目標函數(shù)過分類訓練的精確程度來
10、實現(xiàn),本質上來講,這是一個自適應的迭代過程。訓練過程中,訓練點數(shù)與分類錯誤的點數(shù)之差作為一系列(套)超平面的適應度。最佳的染色體對應最優(yōu)的分類方案,也就是最合適的超平面集合。通過這一系列超平面在多維空間中的區(qū)域劃分得到的多維空間模式分類結果被認為是精度最高的圖像分類方案。基于遺傳算法的影像匹配遺傳算法(Genetic Agorithms簡稱GA)是二十世紀七十年代開始興起的以自然選擇和遺傳理論為基礎,將生物進化過程中適者生存規(guī)則與群體內部染色體的隨機信息交換機制相結合的搜索算法。進人二十世紀九十年代以后,遺傳算法已經(jīng)成為一種實用快速、穩(wěn)定性好的優(yōu)化技術。將遺傳算法用到影像匹配相對于其它的方法,
11、遺傳算法對求解問題只要求是可計算的,無可微性及其他要求,且較易獲得全局最優(yōu)解。應用遺傳算法的求解一般包括以下幾個步驟:(1)編碼GA在進行搜索之前先將解空間的解數(shù)據(jù)表示成遺傳空間的基因型串結構數(shù)據(jù),這些串結構數(shù)據(jù)的不同組合便構成了不同的點。(2)初始群體的生成在問題的候選解范圍內隨機產(chǎn)生N個初始串結構數(shù)據(jù),每個串結構數(shù)據(jù)稱為一個個體,N個個體構成一個群體,GA以這N個串結構數(shù)據(jù)作為初始點開始迭代。(3)適應度函數(shù)的確定適應性函數(shù)表明個體或解的優(yōu)劣性。不同的問題,適應性函數(shù)的定義方式也不同。(4)選擇選擇的目的是為了從當前群體中選出優(yōu)良的個體,使它們有機會作為父代為下一代繁殖子孫。遺傳算法通過選
12、擇過程體現(xiàn)這一思想,進行選擇的原則是適應性強的個體為下一代貢獻一個或多個后代的概率大。選擇實現(xiàn)了達爾文的適者生存原則。(5)交叉交換操作是遺傳算法中最主要的遺傳操作。通過交換操作可以得到新一代個體,新個體組合了其父輩個體的特性。交換體現(xiàn)了信息交換的思想。(6)變異變異首先在群體中隨機選擇一個個體,對于選中的個體以一定的概率隨機地改變串結構數(shù)據(jù)中某個串的值。同生物界一樣,GA中變異發(fā)生的概率很低,通常取值在0.0010.01之間。變異為新個體的產(chǎn)生提供了機會。這里我們用VLL 法(基于物方的影像匹配),設為描述兩像片匹配程度的測度,p 為所要求的模型參數(shù)(遺傳算法中稱為個體)則目標函數(shù)為:f(p
13、)= (1)個體 p 可根據(jù)如下方法取得。設影像匹配窗口大小為:Zkx,Zky設 x'10,y'10為左片窗口近似中心點的坐標,考慮幾何形變與誤差,左片窗口實際取得的像素坐標為:x1 = a10 + x'1 + x10 x'1 - kx,kxy1 = b10 + y'1 + y'10 y'1 - ky,ky右片窗口中實際取得的像素坐標為:x2 = a20 + a21 x2 + a22 y'2 + x'20 x'2 - kx,kxy2 = b20 + b21 x'2 + b22 y'2 + y'
14、;20 y'2 - ky,ky其中:x'20,y'20為右片窗口近似中心坐標??紤]右像點相對于左像點的線性灰度畸變可得:g'(x1,y1)= h0 + h1 g(x2,y2)其中,g 為左像窗口像素值;g'為右像窗口像素值由上可知,個體可表示為:p = a10,b10,a20,b20,a21,b21,a22,b22,h0,h1,z實際應用中,p 中參數(shù) z 是影像匹配 VLL 算法中的物方坐標高程。以上所求優(yōu)化問題可表示為:maxf(p)s.t. a10min<=a10<=a10maxzmin<=z<=zmax遺傳算法終止后提取的
15、最好的個體中的 z 值即為VLL 中物方 A 點的高程。遺傳算法中的個體評價函數(shù)即個體適應度函數(shù)就是優(yōu)化問題的目標函數(shù) . 根據(jù)實際情況適應函度數(shù)可采用相關系數(shù)(矢量夾角)測度或差平方和(差矢量模),其測度公式為:差平方和適應度為:遺傳算法初始群體的生成、選擇算子、交叉算子、變異算子方面都作了改進,使之更適合影像匹配的具體問題。實驗結果表明,該方法大大減小了誤匹配率,提高了匹配精度,運算復雜度也小于傳統(tǒng)的影像匹配,是一種較為理想的匹配方法。(3)遺傳算法在圖像增強中的應用航空(遙感)影像是通過空間傳感器獲得的有關地表的圖像,它包含了十分豐富的地理信息,是人們獲取地面信息重要來源之一。但是,由于
16、受到傳感器精度,光照度等內在和外在的多種因素影響,影像不可避免存在反差較低,地物邊界輪廓不清等現(xiàn)象,給直接判讀和量測帶來了一定的困難。影像增強就是解決這一類問題的一個重要手段,其主要目的就是通過一定的變換把影像轉換成更適合人眼觀察判斷或機器視覺分析處理的另一種形式,其實質是有選擇地強調影像中某些信息而抑制其余信息,以增強影像的效用。遺傳算法在影像增強中的應用的一般步驟:(1)非線性變換函數(shù)的構造 輸入的圖像從視覺效果來看,一般的圖像有偏暗、偏亮、或灰度集中在某一區(qū)域三類情況。針對這幾類不同類型的退化圖像,我們需要不同的非線性變換。設這種非線性變換的函數(shù)為,原圖像像素灰度為,變換后的像素灰度為。
17、首先,對作歸一化處理得到,=,分別為原圖像灰度的最大和最小值,顯然的取值范圍在(0,1)之間。對于非線性變換函數(shù)作規(guī)定,和u取值范圍也在(0,1)之間。在考慮對原圖像不超過,的范圍拉伸的對比度:(2)編碼現(xiàn)在求解從輸入圖像至輸出圖像的灰度對應關系,也就轉化成求解 T (u)的 5 個參數(shù)問題,這可視為遺傳算法的表現(xiàn)型。從表現(xiàn)型到基因型的轉換,我們采用實數(shù)編碼,以一個一維五元數(shù)組表示一條染色體,即 p 1 ,p2,p3,p4,p5,每個參數(shù)對應一個基因位。問題就轉化為求目標規(guī)劃下的這五元素的組合。通過對 T1 (u)、 T2 (u)的數(shù)學實驗,為使曲線自由延展且滿足一定精度,函數(shù)的參數(shù)范圍設定如
18、表 Pl p2 p3 p4 ps 最小值 1 0 1 0 0 最大值 15 1 25 1 1 采樣間隔0.1 0.010.1 0.010.01從表中可以看出五個元素的組合有140x100x240x100x100=3.36這樣大。在這樣大空間進行搜索,遺傳算法將發(fā)揮其優(yōu)勢。由于T (u)是由不是由的組合構成,這就極可能使使表現(xiàn)型空間的某一變換曲線對應基因型空間的多條基因。(3)適度函數(shù)遺傳算法中個體進化的動力就是所要構建的適應度函數(shù)。在對一幅影像增強過程中,適應度函數(shù)設計就是要兼顧圖像的整體與局部,大的結構和小的細節(jié)平衡體現(xiàn)。因此,考慮的因素有:圖像的信息嫡E、能量、緊致度C、信噪改變量。適應度
19、函數(shù)如下: 表明增強影像的灰度層次損失越少,保留的灰度層次越多,且閥值Th的設定還可以防止影像過度增強。(4)選擇策略和遺傳算子1、選擇策略。采用最優(yōu)個體保存法。設種群規(guī)模為 N,交叉算子產(chǎn)生比例為 r,每代選擇 N + int r*(N-2)個父個體。復制保存的最優(yōu)個體數(shù)為 2,其余父個體采用期望值選擇法中的無回放余數(shù)隨機選擇方式選擇所需數(shù),2 * intr *(N-2)個用于交叉,N - 2 -intr*(N-2)個用于變異。2、 交叉算子。針對十進制實數(shù)編碼,這里采用一種局部尋優(yōu)的交叉算子,以使子個體總是向著更優(yōu)的方向搜索,這其實是仿射交叉的一個特例。對于求極小值問題,局部尋優(yōu)算子定義為
20、: X= 式中 x1 ,x 2為父個體,x ' 為交叉后的子個體, 為0.6,1.3間的機數(shù),這樣設是為了使交叉子代在最好值附近;f(x)表示 x 的適應值。若 x '的取值超出了取值范圍,則重新生成一個隨機數(shù),直至滿足要求。3、變異算子。大多數(shù)變異算子是隨機的,這里引入的變異算子正比于個體與父代最優(yōu)個體的差異,有:式中 x 為原個體,為父代中適應度最大的個體, 為0,1間的隨機數(shù)。(5)控制參數(shù)GA 控制參數(shù)種群規(guī)模取 30,最大迭代次數(shù) 100,最小迭代次數(shù)50,停機最優(yōu)個體適應度變化值小于 0.001 時停機,適應值無變化持續(xù) 200 秒時停機。交叉概率和變異概率采用自適
21、應法。這是遺傳算法在遙感圖像增強中的應用,通過遺傳算法可以很好的達到遙感圖像增強的目的??偨Y:從上面可以看出,遺傳算法在遙感中的應用非常廣泛,我們可以運用遺傳算法進行圖像增強,遙感數(shù)據(jù)的處理,遙感影像匹配,混合像元的快速分解和分類,遙感多光譜影像的分類和遙感圖像的壓縮等方面。二、利用GA算法編程實現(xiàn)f(x)=x*sin(10*x)+1.0最大值的求解問題,要求提交偽代碼算法說明及實驗步驟和結果說明。遺傳算法(Genetic Algorithms簡稱GA)是二十世紀七十年代開始興起的以自然選擇和遺傳理論為基礎,將生物進化過程中適者生存規(guī)則與群體內部染色體的隨機信息交換機制相結合的搜索算法。進人二
22、十世紀九十年代以后,遺傳算法已經(jīng)成為一種實用快速、穩(wěn)定性好的優(yōu)化技術,在模式識別、神經(jīng)網(wǎng)絡,控制系統(tǒng)優(yōu)化等方面都得到了廣泛的應用。遺傳算法原理簡介在遺傳算法的執(zhí)行過程中,模擬了達爾文的生物進化理論中的適者生存原理,通過適應度函數(shù)值的大小來決定個體在下一代中的生存機會。適應度函數(shù)是與所提問題目標緊密相聯(lián)的一個量,對于實際問題,構造合理的適應度函數(shù)是遺傳算法的一個極為關鍵的問題。遺傳算法包括三種主要操作方法,三個基本要素的確定。三種基本操作方法是(1)選擇(又稱復制):選擇或復制是從當前群體中選擇優(yōu)良的個體產(chǎn)生下一代的過程,其選擇的依據(jù)是以個體適應函數(shù)值的大小來進行選擇的,個體適應函數(shù)值越高,其被
23、選擇的機會就越多,那么其繁殖的子孫在下一代中產(chǎn)生的個數(shù)就越多,否則就少,甚至被淘汰。(2)交叉:交叉操作是遺傳算法中最主要的遺傳操作.簡單的交叉可分兩步進行,首先對種群中個體進行隨機配對;其次在配對個體中隨機設定交叉處,使配對個體彼此交換信息。 (3)變異:變異操作是為了增加遺傳算法找到最優(yōu)解的能力,它以很小的概率隨機地改變字符串中某個位置的值.這個操作與前面兩個操作結合在一起可仿止解的過早收斂。三個基本要素的確定: (1)參數(shù)編碼:由于遺傳算法不能直接處理解空間的解數(shù)據(jù),因此,必須通過編碼將它們表示成遺傳空間的基因型串結構數(shù)據(jù)。(2)初始群體的生成:由于遺傳算法的群體型操作需要,必須為遺傳操
24、作準備一個由若干個初始解組成的初始群體.初始群體的每個個體都是通過隨機方法產(chǎn)生的。 (3)適應度的評估與檢測:遺傳算法在搜索進化過程中一般不需要其它外部信息,僅用適應度值來評估個體或解的優(yōu)劣,并以此作為遺傳算法的依據(jù)。具體到本題目中,我選擇使用C+來編寫這個程序,這個程序的關鍵點和難點就是交叉,變異。下面具體介紹下本程序。開始GEN=0產(chǎn)生初始的種群是否滿足停機準則指定結果是結束計算每個個體的適應值i=0i=M?以概率選擇遺傳操作否是交叉變異將兩個后代插入到新的種群GENi=GEN+1上面是本程序的流程圖,(1)隨機產(chǎn)生一個由確定長度的特征字符串組成的初始種群。(2)對該字符串種群迭代地執(zhí)行步
25、驟和步驟,直到滿足停止準則為止:計算種群中每個個體字符串的適應值;應用交叉和變異等遺傳算子產(chǎn)生下一代種群。(3)把在后代中出現(xiàn)的最好的個體字符串指定為遺傳算法的執(zhí)行結果,這個結果可以表示問題的一個解。其中GEN是當前代數(shù)。 首先,定義程序中所要用到的變量/ const const double DOUBLE_MAX = 999999999999;const double DOUBLE_MIN = -DOUBLE_MAX;const size_t MAXGENERATION = 100000;const size_t MAXUNCHANGE = 1000;/ 當最優(yōu)值持續(xù)MAXUNCHANGE代
26、不發(fā)生變化,停止const double MINDIFF = 0.0001;/ 所能分辨的適應值函數(shù)的最小差值const size_t POPULATION = 50;/ 樣本的大小const size_t SAMPLELENGTH = 22;/ 每一個樣本的長度/ for x belong to -1, 2const double LOWBOUNARY = -1;const double ZOOMSCALE = 3;typedef char MyBit;typedef MyBit BinBitsSAMPLELENGTH;/ action to do in next stepenum Acti
27、onSTAY, MUTATE , CROSSOVER, DONE;然后定義一個樣本類class MySampleprivate:/ initialize samplesvoid Init();BinBits _bits;/ binary string double _fitvalue;double _prop;/ probability to stayAction _action; / what to do in next steppublic:MySample()Init();MySample(const MySample& rhs);MySample& operator =
28、 (const MySample& rhs);double Fitness();/ get probability to STAY/ double Probability() const; inline Action NextAction() constreturn _action;/ calulate probability of current samplevoid CalcuPro(double sumfit);void CrossOver(MySample& rhs);void Mutate();這個類中包含了初始化函數(shù)Init(),對樣本進行初始化。初始化的具體過程如
29、下:void MySample:Init()/ initialize binary stringfor (size_t i = 0; i < SAMPLELENGTH; +i)if (rand()%2) = 1)_bitsi = '1'else_bitsi = '0'/ initialize action_action = DONE;計算適度函數(shù)void CalcuPro(double sumfit),void MySample:CalcuPro(double sumfit)_prop = _fitvalue / sumfit;/ decide what
30、to do in next stepif ( static_cast<double>(rand() / static_cast<double>(RAND_MAX) < _prop )_action = STAY;else_action = CROSSOVER;交叉函數(shù)void CrossOver(MySample& rhs);void MySample:CrossOver(MySample& rhs)size_t pos = rand() % SAMPLELENGTH;/ cross over at posMyBit tmp;for (size_t
31、 i = 0; i < pos; +i)tmp = _bitsi;_bitsi = rhs._bitsi;rhs._bitsi = tmp;_action = STAY;變異函數(shù)void Mutate();void MySample:Mutate()size_t pos = rand() % SAMPLELENGTH;if (_bitspos = '1')_bitspos = '0'else_bitspos = '1'_action = STAY;其中還遇到個難題就是二值化問題,怎么讓0和1表示的數(shù)變?yōu)橐粋€10進制的數(shù),在這里我們用到了這樣
32、算法double BinaryParse(const BinBits& bits)int numer = 0;int denumer = 1;for (int i = SAMPLELENGTH - 1; i >= 0; -i)if (bitsi = '1')numer += denumer;denumer += denumer;return static_cast<double>(numer) / static_cast<double>(denumer);在計算二進制數(shù)的時候我們從后往前計算,并且只用到了加法,沒有用乘法這樣可以提高運算的效
33、率。三、任選一種數(shù)據(jù)挖掘軟件進行操作使用,并進行分析和總結。數(shù)據(jù)挖掘(Data Mining),又稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database, KDD),就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程,簡單的說,數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”知識。并非所有的信息發(fā)現(xiàn)任務都被視為數(shù)據(jù)挖掘。例如,使用數(shù)據(jù)庫管理系統(tǒng)查找個別的記錄,或通過因特網(wǎng)的搜索引擎查找特定的Web頁面,則是信息檢索(information retrieval)領域的任務。雖然這些任務是重要的,可能涉及使用復雜的算法和數(shù)據(jù)結構,但是它們主要依賴傳統(tǒng)
34、的計算機科學技術和數(shù)據(jù)的明顯特征來創(chuàng)建索引結構,從而有效地組織和檢索信息。盡管如此,數(shù)據(jù)挖掘技術也已用來增強信息檢索系統(tǒng)的能力。在技術上可以根據(jù)它的工作過程分為:數(shù)據(jù)的抽取、數(shù)據(jù)的存儲和管理、數(shù)據(jù)的展現(xiàn)等關鍵技術。數(shù)據(jù)的抽取數(shù)據(jù)的抽取是數(shù)據(jù)進入倉庫的入口。由于數(shù)據(jù)倉庫是一個獨立的數(shù)據(jù)環(huán)境,它需要通過抽取過程將數(shù)據(jù)從聯(lián)機事務處理系統(tǒng)、外部數(shù)據(jù)源、脫機的數(shù)據(jù)存儲介質中導入數(shù)據(jù)倉庫。數(shù)據(jù)抽取在技術上主要涉及互連、復制、增量、轉換、調度和監(jiān)控等幾個方面的處理。在數(shù)據(jù)抽取方面,未來的技術發(fā)展將集中在系統(tǒng)功能集成化方面,以適應數(shù)據(jù)倉庫本身或數(shù)據(jù)源的變化,使系統(tǒng)更便于管理和維護。·數(shù)據(jù)的存儲和管理
35、數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫的特性,也決定了其對外部數(shù)據(jù)的表現(xiàn)形式。數(shù)據(jù)倉庫管理所涉及的數(shù)據(jù)量比傳統(tǒng)事務處理大得多,且隨時間的推移而快速累積。在數(shù)據(jù)倉庫的數(shù)據(jù)存儲和管理中需要解決的是如何管理大量的數(shù)據(jù)、如何并行處理大量的數(shù)據(jù)、如何優(yōu)化查詢等。目前,許多數(shù)據(jù)庫廠家提供的技術解決方案是擴展關系型數(shù)據(jù)庫的功能,將普通關系數(shù)據(jù)庫改造成適合擔當數(shù)據(jù)倉庫的服務器。·數(shù)據(jù)的展現(xiàn)在數(shù)據(jù)展現(xiàn)方面主要的方式有:查詢:實現(xiàn)預定義查詢、動態(tài)查詢、OLAP查詢與決策支持智能查詢;報表:產(chǎn)生關系數(shù)據(jù)表格、復雜表格、OLAP表格、報告以及各種綜合報表;可視化:用易于理解的點線圖、直方圖、餅圖、網(wǎng)
36、狀圖、交互式可視化、動態(tài)模擬、計算機動畫技術表現(xiàn)復雜數(shù)據(jù)及其相互關系;統(tǒng)計:進行平均值、最大值、最小值、期望、方差、匯總、排序等各種統(tǒng)計分析;挖掘:利用數(shù)據(jù)挖掘等方法,從數(shù)據(jù)中得到關于數(shù)據(jù)關系和模式的知識。1) 數(shù)據(jù)挖掘能做以下六種不同事情(分析方法):· 分類 (Classification)· 估值(Estimation)· 預言(Prediction)· 相關性分組或關聯(lián)規(guī)則(Affinity grouping or association rules)· 聚集(Clustering)· 描述和可視化(Des cription
37、and Visualization)· 復雜數(shù)據(jù)類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)2)數(shù)據(jù)挖掘分類 以上六種數(shù)據(jù)挖掘的分析方法可以分為兩類:直接數(shù)據(jù)挖掘;間接數(shù)據(jù)挖掘· 直接數(shù)據(jù)挖掘 目標是利用可用的數(shù)據(jù)建立一個模型,這個模型對剩余的數(shù)據(jù),對一個特定的變量(可以理解成數(shù)據(jù)庫中表的屬性,即列)進行描述。 間接數(shù)據(jù)挖掘 目標中沒有選出某一具體的變量,用模型進行描述;而是在所有的變量中建立起某種關系 。· 分類、估值、預言屬于直接數(shù)據(jù)挖掘;后三種屬于間接數(shù)據(jù)挖掘3)各種分析
38、方法的簡介· 分類 (Classification) 首先從數(shù)據(jù)中選出已經(jīng)分好類的訓練集,在該訓練集上運用數(shù)據(jù)挖掘分類的技術,建立分類模型,對于沒有分類的數(shù)據(jù)進行分類。例子: a. 信用卡申請者,分類為低、中、高風險 b. 分配客戶到預先定義的客戶分片注意: 類的個數(shù)是確定的,預先定義好的估值(Estimation) 估值與分類類似,不同之處在于,分類描述的是離散型變量的輸出,而估值處理連續(xù)值的輸出;分類的類別是確定數(shù)目的,估值的量是不確定的。例子: a. 根據(jù)購買模式,估計一個家庭的孩子個數(shù) b. 根據(jù)購買模式,估計一個家庭的收入
39、c. 估計real estate的價值 一般來說,估值可以作為分類的前一步工作。給定一些輸入數(shù)據(jù),通過估值,得到未知的連續(xù)變量的值,然后,根據(jù)預先設定的閾值,進行分類。例如:銀行對家庭貸款業(yè)務,運用估值,給各個客戶記分(Score 01)。然后,根據(jù)閾值,將貸款級別分類。· 預言(Prediction) 通常,預言是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用于對未知變量的預言。從這種意義上說,預言其實沒有必要分為一個單獨的類。預言其目的是對未來未知變量的預測,這種預測是需要時間來驗證的,即必須經(jīng)過一定時間后,才知道預言準確性是多少。· 相關性分組或關聯(lián)規(guī)則(Affinity grouping or association rules) 決定哪些事情將一
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2030年中國碳酸二甲酯行業(yè)運行形勢分析及項目可行性研究報告
- 2024-2030年中國硫酸氧釩行業(yè)產(chǎn)量預測及發(fā)展可行性研究報告
- 2024-2030年中國礦冶磁電設備行業(yè)發(fā)展狀況規(guī)劃分析報告
- 節(jié)慶活動臨時景觀照明方案
- 醫(yī)院醫(yī)德考評公開透明制度
- 2024城市基礎設施建設合同協(xié)議
- 2024年修訂版:煤倉場地租賃合同
- 2024年度房屋買賣合同房屋交付及價款支付
- 2024年度文化旅游開發(fā)合同
- 餐飲業(yè)衛(wèi)生監(jiān)督制度
- PCS9700 監(jiān)控后臺操作方法培訓
- creo自頂向下設計方法
- 程序員開發(fā)手冊
- 物流配送中心規(guī)劃與設計課件
- 常用截止閥尺寸表
- 2013三無班組評定標準
- 二年級《看圖寫話》教學設計
- 中國的算籌PPT課件
- 《骨盆重要性》PPT課件.ppt
- WHO癌痛的三階梯止痛的原則
- 山西經(jīng)濟出版社小學第二冊四年級信息技術第一單元活動教案
評論
0/150
提交評論