版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
基于網(wǎng)絡(luò)生態(tài)鏈的主題資源分布研究
doi:10.3772/j.issn.1000-0135.2010.05.0051引言Web信息資源已成為各個(gè)領(lǐng)域可利用的最大信息資源庫,但其過度增長的規(guī)模已超越了人們傳統(tǒng)的利用能力,且這種態(tài)勢(shì)還在進(jìn)一步加強(qiáng)。如何從海量Web資源中快速準(zhǔn)確地獲取主題資源已成為各個(gè)領(lǐng)域關(guān)注的重要研究課題,互聯(lián)網(wǎng)信息資源的分布狀況與分布規(guī)律的發(fā)現(xiàn)是其中的關(guān)鍵。本文嘗試以生態(tài)學(xué)的視角分析互聯(lián)網(wǎng)資源的分布狀況,期望從紛繁雜亂的互聯(lián)網(wǎng)資源中發(fā)現(xiàn)蘊(yùn)含的主題資源分布規(guī)律,以便為主題資源的采集和利用,以及主題網(wǎng)站的建設(shè)與發(fā)展提供新的思路。2以生態(tài)學(xué)視角分析互聯(lián)網(wǎng)資源分布的可行性傳統(tǒng)的觀點(diǎn)認(rèn)為,互聯(lián)網(wǎng)資源是由節(jié)點(diǎn)和超鏈接構(gòu)成的有向圖[1],網(wǎng)頁間的超鏈接成為web信息自動(dòng)化采集的主要線索。因此,對(duì)于通用搜索引擎而言,理論上以隨機(jī)訪問方式就能遍歷整個(gè)互聯(lián)網(wǎng)絡(luò);于主題資源而言,其鏈接分布則更傾向于有關(guān)聯(lián)關(guān)系的主題資源。針對(duì)這種TopicLocality現(xiàn)象[2],1994年DeBra和Post提出了FishSearch主題資源發(fā)現(xiàn)算法[3];1998年Hersovici等在改進(jìn)FishSearch算法的基礎(chǔ)上又提出了SharkSearch算法[4]。這些算法對(duì)主題資源的采集無疑都是有效的,但其局限性在于用網(wǎng)絡(luò)漫游的方式對(duì)預(yù)采集目標(biāo)進(jìn)行判斷,而對(duì)互聯(lián)網(wǎng)的整體資源分布特性缺乏進(jìn)一步的研究,因而容易導(dǎo)致資源采集的局部化,且在規(guī)模龐大的互聯(lián)網(wǎng)間漫游還容易迷失方向。PageRank等用基于Web超鏈圖評(píng)價(jià)的方法[5]雖然有助于發(fā)現(xiàn)權(quán)威網(wǎng)站,但卻并不關(guān)注信息資源類別,因而不利于主題信息的發(fā)現(xiàn)。對(duì)整個(gè)Web鏈接結(jié)構(gòu)的研究已有不少有益的探索。2000年Broder等分析了AltaVista數(shù)據(jù)庫的鏈接結(jié)構(gòu),提出了bow-tie模型[6],將頁面數(shù)據(jù)分為如圖1所示的五大部分。圖1bow-tie模型[6]圖1中,SCC的頁面之間都存在彼此指向的鏈接;OUT是指那些不在SCC中,但可從SCC鏈出的頁面集合;IN則是指SCC中頁面不可直接到達(dá),但卻可鏈入到SCC中的頁面集合;Tendrils指不在IN、OUT或SCC中,而與IN或OUT有鏈接關(guān)系的頁面集合;Disconnected指剩余頁面,這些頁面不以任何方式與其他頁面鏈接。此后,不斷有人以此為基礎(chǔ)進(jìn)行更深入的研究[7~11]。第一項(xiàng)關(guān)于“鏈接-內(nèi)容”的大范圍研究始于2002年,由孟買的印度技術(shù)研究所(IndianInstituteofTechnology,IIT)的研究團(tuán)隊(duì)提出,并與一位來自普林斯頓NEC研究機(jī)構(gòu)的研究者合作完成。其研究結(jié)果顯示,某一主題的頁面傾向于引用其他具有相同主題的頁面;交叉主題間的鏈接不是隨機(jī)的,各主題頁面不是均勻地鏈接到其他頁面,而是有偏好的,實(shí)驗(yàn)顯示,頁面鏈接傾向于那些具有相似詞匯的頁面,頁面間的平均詞匯相似度隨著頁面間的鏈接層次的增加而(呈指數(shù)級(jí))降低[12]。對(duì)此觀點(diǎn),Menczer也通過不同的方法和假說給予了證實(shí)[13]。Bjrneborn在bow-tie模型的基礎(chǔ)上進(jìn)一步分析了學(xué)術(shù)網(wǎng)站主題間的鏈接關(guān)系,提出了如圖所示的鏈接模型[14]。圖2學(xué)術(shù)網(wǎng)站主題結(jié)構(gòu)圖[14]在圖2中,單個(gè)主題的內(nèi)部結(jié)構(gòu)對(duì)應(yīng)于bow-tie模型的五個(gè)部分,主題與主題之間存在部分交叉與鏈接。至此,對(duì)Web鏈接結(jié)構(gòu)和內(nèi)容結(jié)構(gòu)的研究成果已凸現(xiàn)出了互聯(lián)網(wǎng)主題資源分布的生態(tài)特點(diǎn)。從互聯(lián)網(wǎng)的形成與發(fā)展看,它是人類智慧的結(jié)晶,也是人類社會(huì)活動(dòng)的延伸,由此誕生的新型社會(huì)——網(wǎng)絡(luò)社會(huì)——?jiǎng)t是由人類社會(huì)進(jìn)化而來的,是從人類社會(huì)分化出的一種表面虛擬,其實(shí)質(zhì)是人類社會(huì)生活的另一種社會(huì)形態(tài),它的底層是技術(shù)層面,中層是社會(huì)學(xué)層面,上層是人類自身對(duì)其終極意義的哲學(xué)追求[15]。正如人與自然環(huán)境所構(gòu)成的生態(tài)系統(tǒng)一樣,網(wǎng)絡(luò)主體與網(wǎng)絡(luò)環(huán)境構(gòu)成了網(wǎng)絡(luò)生態(tài)系統(tǒng),它不是一個(gè)僅僅強(qiáng)調(diào)技術(shù)因素的系統(tǒng),而是與網(wǎng)絡(luò)發(fā)展有關(guān)的社會(huì)環(huán)境、信息與信息主體組成的龐大系統(tǒng)。因此,從抽象層面看待互聯(lián)網(wǎng)是有局限性的,如果站在上位角度,融入人的因素,將信息的產(chǎn)生、加工處理、傳遞與共享等看做是人與人交互作用的結(jié)果,網(wǎng)站的構(gòu)建、運(yùn)營、生存及其發(fā)展壯大所采取的合作、競爭等策略在一定程度上則是人的思想的反映,于是,映射到技術(shù)層面上的站點(diǎn)間的關(guān)聯(lián)關(guān)系變化就蘊(yùn)含了生態(tài)學(xué)的意義。3基于網(wǎng)絡(luò)生態(tài)鏈的主題資源分布分析3.1網(wǎng)絡(luò)生態(tài)鏈含義“網(wǎng)絡(luò)生態(tài)鏈”(NetworkEcologicalChain)是我們分析互聯(lián)網(wǎng)主題資源分布規(guī)律及其形成過程的基本概念。所謂網(wǎng)絡(luò)生態(tài)鏈可定義為:基于主題相關(guān)的網(wǎng)站為了信息共享和生存需要,彼此之間通過超鏈接或內(nèi)容引用而形成的環(huán)環(huán)相扣的鏈條式依存關(guān)系。網(wǎng)絡(luò)生態(tài)鏈?zhǔn)蔷W(wǎng)站主題相對(duì)于特定內(nèi)容而表現(xiàn)出的特殊的關(guān)聯(lián)關(guān)系。超鏈接是技術(shù)實(shí)現(xiàn)層面的概念,網(wǎng)絡(luò)生態(tài)鏈則與主題內(nèi)容密切相關(guān)。對(duì)于前者,處在不同位置的鏈接是平等的,而對(duì)于特定的內(nèi)容,不同層次的鏈接其地位、作用及價(jià)值等方面則表現(xiàn)為質(zhì)的差異,例如,有些鏈接對(duì)于這一主題具有重要的價(jià)值,而對(duì)于另一主題則可以忽略不計(jì)。另外,除超鏈接可形成關(guān)聯(lián)關(guān)系外,站點(diǎn)間內(nèi)容的引用也可構(gòu)成網(wǎng)絡(luò)生態(tài)鏈。3.2主題網(wǎng)站群與主題資源的分布基于上述觀點(diǎn),從生態(tài)學(xué)視角分析互聯(lián)網(wǎng)站點(diǎn)間的關(guān)聯(lián)關(guān)系,則其分布呈現(xiàn)顯著的網(wǎng)絡(luò)生態(tài)特性。假設(shè)以網(wǎng)站為分析對(duì)象,以網(wǎng)站間的鏈接數(shù)、內(nèi)容引用數(shù)及是否相互指向等要素為變量考察網(wǎng)站的分布狀況可以發(fā)現(xiàn),網(wǎng)站間呈現(xiàn)疏密不等的關(guān)系,聚集在一起的網(wǎng)站將自然形成網(wǎng)站群。根據(jù)文獻(xiàn)[2]、文獻(xiàn)[12]~[14]等多項(xiàng)研究成果證實(shí),網(wǎng)頁間的鏈接傾向于在內(nèi)容相似的網(wǎng)頁間建立,由此可以推斷,群內(nèi)的網(wǎng)站在主題上表現(xiàn)出較高的相關(guān)性,這樣,特定時(shí)間聚集在一起的網(wǎng)站集合可視為主題網(wǎng)站群(Topic-WebGroup)。進(jìn)一步研究還發(fā)現(xiàn),在主題網(wǎng)站群內(nèi),不同網(wǎng)站的地位和作用是不同的,其中有些網(wǎng)站因其規(guī)模、口碑、權(quán)威性等因素,在群內(nèi)有非常重要的地位和作用,它們影響著整個(gè)主題網(wǎng)站群的發(fā)展,成為群內(nèi)的核心網(wǎng)站,核心網(wǎng)站的集合構(gòu)成核心網(wǎng)站層。核心網(wǎng)站的站內(nèi)資源因具有數(shù)量大、更新快、質(zhì)量高、訪問量大等特點(diǎn)而成為該主題的核心資源。另外,還有一些網(wǎng)站則游離于主題網(wǎng)站群的邊緣,作為主題網(wǎng)站群的有益補(bǔ)充,但其影響相對(duì)較小,從而形成了外圍網(wǎng)站,外圍網(wǎng)站的集合構(gòu)成外圍網(wǎng)站層。核心網(wǎng)站與外圍網(wǎng)站的地位并不是永恒不變的,有的網(wǎng)站會(huì)隨著優(yōu)勢(shì)資源的擴(kuò)張逐漸被用戶認(rèn)可而成為核心網(wǎng)站,同時(shí),有些網(wǎng)站則會(huì)在競爭的壓力下退出核心網(wǎng)站層。例如,有不少大型門戶網(wǎng)站最初就是從個(gè)人網(wǎng)站發(fā)展而來的。如果用空間中的點(diǎn)表示主題網(wǎng)站,用距離表示網(wǎng)站間關(guān)系的緊密程度,用連線表示網(wǎng)站間是否存在網(wǎng)絡(luò)生態(tài)鏈,則可以得出如圖所示的互聯(lián)網(wǎng)主題網(wǎng)站群模型圖。圖3主題網(wǎng)站群模型圖在圖3中,中心區(qū)域表示核心網(wǎng)站層,中間區(qū)域表示外圍網(wǎng)站層,虛線外圍表示與主題網(wǎng)站群有關(guān)聯(lián)關(guān)系的泛主題(BroadTopic)內(nèi)容。主題網(wǎng)站群的分布特征與生態(tài)學(xué)中的生物群落具有驚人的相似性。在自然界中,同類生物聚集在一起形成生物群落,群落內(nèi)部結(jié)構(gòu)松散邊界模糊,群內(nèi)的生物種類及其相互關(guān)系決定了生物群落的結(jié)構(gòu)和生態(tài)功能[16];在互聯(lián)網(wǎng)中,聚焦在一起的網(wǎng)站在內(nèi)容上則具有較高的相關(guān)性,主題相關(guān)的網(wǎng)站彼此抱團(tuán)而形成主題網(wǎng)站群,不同主題網(wǎng)站群間存在一定的交叉與聯(lián)結(jié)關(guān)系。在生物群落中,優(yōu)勢(shì)物種控制著種群的能量流動(dòng),其數(shù)量、大小及其在食物鏈中的地位強(qiáng)烈影響著其他物種;在主題網(wǎng)站群中,核心網(wǎng)站層的站點(diǎn)類似于生物群落中的優(yōu)勢(shì)種,這部分網(wǎng)站在主題網(wǎng)站群中數(shù)量雖少,但因其地位和作用處于網(wǎng)絡(luò)生態(tài)鏈的頂端,它們決定了關(guān)聯(lián)網(wǎng)站群屬于這一主題而非另一主題。沿核心網(wǎng)站層向外擴(kuò)展,會(huì)發(fā)現(xiàn)網(wǎng)站的影響力和主題相關(guān)度通常呈遞減之勢(shì),主題網(wǎng)站群邊緣的網(wǎng)站是網(wǎng)絡(luò)生態(tài)鏈的末端,它們或者規(guī)模較??;運(yùn)行不穩(wěn)定,或者主題特性不明顯,因而較少受到用戶的青睞;反之,由主題網(wǎng)站群邊緣指向核心網(wǎng)站層,其主題相關(guān)性和影響力則呈加強(qiáng)之勢(shì)。3.3主題網(wǎng)站群的形成分析主題網(wǎng)站群的形成是一個(gè)由多方網(wǎng)絡(luò)參與者互動(dòng)的結(jié)果。當(dāng)一個(gè)新生主題出現(xiàn)時(shí),網(wǎng)站經(jīng)營者預(yù)期該主題具有較強(qiáng)的價(jià)值,或者從已有的網(wǎng)站中裂變出新的主題網(wǎng)站或頻道,或者建立新站點(diǎn)。依托原有網(wǎng)站裂變出的新主題借助已有的資源與人氣優(yōu)勢(shì)往往容易受到用戶的信賴,而新生主題站點(diǎn)則為了生存,在技術(shù)、資源等方面會(huì)相互借力,共享資源,優(yōu)勢(shì)互補(bǔ),共同開辟新的市場和應(yīng)對(duì)風(fēng)險(xiǎn)。在發(fā)展過程中,有的網(wǎng)站憑借信息資源豐富、質(zhì)量高,更新快、技術(shù)水平高等優(yōu)勢(shì),逐漸受到網(wǎng)絡(luò)用戶的好評(píng),從而吸引更多的網(wǎng)絡(luò)用戶訪問,并贏得商機(jī),在提高自身的人力、物力、財(cái)力的前提下,有能力進(jìn)一步提升網(wǎng)站規(guī)模與質(zhì)量,這樣就進(jìn)入了一個(gè)良性循環(huán),逐步成長為該主題領(lǐng)域中的核心網(wǎng)站。為了獲得資源的優(yōu)勢(shì)互補(bǔ),核心網(wǎng)站之間也會(huì)通過友情鏈接、合作伙伴、內(nèi)容引用等方式彼此建立網(wǎng)絡(luò)生態(tài)鏈,以便獲得共同的進(jìn)化優(yōu)勢(shì),提高生存能力。同時(shí),核心網(wǎng)站還會(huì)通過提供免費(fèi)空間、贈(zèng)予二級(jí)域名等多種形式,吸引更多主題資源建設(shè)者參與其中,由此奠定了核心主題網(wǎng)站群的基礎(chǔ),并使之不斷發(fā)展壯大。另有一些追隨市場參與其中的中小網(wǎng)站,由于網(wǎng)站規(guī)模、品牌聲譽(yù)、創(chuàng)新能力等多方面的限制無法成為核心網(wǎng)站。但其中不乏個(gè)別具有一定競爭力的,它們依附于核心網(wǎng)站,同時(shí)其有價(jià)值的資源也會(huì)被核心網(wǎng)站所引用,這樣就會(huì)與核心網(wǎng)站形成相互轉(zhuǎn)載資源的現(xiàn)象。還有一些中小網(wǎng)站競爭力雖弱,但有一定的創(chuàng)新能力,雖然其主題資源沒能被核心網(wǎng)站認(rèn)可,但卻得到了部分用戶的信任,這些網(wǎng)站就構(gòu)成次外圍主題網(wǎng)站層。3.4網(wǎng)絡(luò)生態(tài)鏈的實(shí)證研究為了驗(yàn)證上述分析,我們以汽車主題為例進(jìn)行了實(shí)證研究。首先選取搜狐網(wǎng)汽車頻道①(以下簡稱搜狐汽車)為種子網(wǎng)站,沿友情鏈接逐層擴(kuò)展,用人工方法判定網(wǎng)絡(luò)生態(tài)鏈的主題性質(zhì)。之所以選搜狐汽車為調(diào)研入口,是因其作為搜狐網(wǎng)的主題頻道,站內(nèi)資源豐富,影響力較大,受到網(wǎng)絡(luò)用戶的普遍認(rèn)可,在通用搜索引擎的檢索結(jié)果中排名也比較靠前,因此可認(rèn)定為核心主題網(wǎng)站。選擇友情鏈接是因其廣泛存在,而且便于人工觀察和跟蹤,能一定程度說明問題。網(wǎng)站層級(jí)的劃分是依據(jù)鏈接層數(shù)賦予的,具體算法如下:設(shè)搜狐汽車為第0層,它鏈接的北青網(wǎng)汽車頻道為第1層,北青網(wǎng)汽車鏈出的則為第2層,依次類推;如果北青網(wǎng)汽車反向又鏈接搜狐汽車,則它與搜狐汽車之間存在互為鏈接,應(yīng)視為同一層,其層次屬性也應(yīng)為0,其后鏈接的網(wǎng)站層可隨之改變,見表1。從表1數(shù)據(jù)可以看出,第0層網(wǎng)站與汽車主題具有高度的相關(guān)性,因此可以斷定核心網(wǎng)站層的存在。由核心網(wǎng)站層向下,隨著鏈接層級(jí)的增加主題相關(guān)比由100%降低到5.44%,此所謂“主題漂移”。同時(shí)還可以看出,前三個(gè)層級(jí)的網(wǎng)站在主題網(wǎng)站群中所占比重很大,三層累計(jì)占主題資源的78.55%,究其原因,主要在于類似搜狐汽車、中國汽車網(wǎng),愛卡汽車、車天下等在業(yè)內(nèi)具有較強(qiáng)影響力的網(wǎng)站傾向于相互指引,彼此抱團(tuán),從而形成一組核心主題網(wǎng)站環(huán)鏈;而另一些影響力較弱的汽車類網(wǎng)站及汽車配件、汽車保養(yǎng)、洗車等主題相關(guān)網(wǎng)站則依附于核心網(wǎng)站的周圍。第3層雖然數(shù)量較多,但主題相關(guān)比很低,與其有關(guān)聯(lián)的網(wǎng)站絕大多數(shù)在前三個(gè)層級(jí)中已存在,因此可以認(rèn)為,該層之后的網(wǎng)站層為該主題的網(wǎng)絡(luò)生態(tài)鏈邊緣,其站內(nèi)資源絕大多數(shù)屬于泛主題性質(zhì)。同時(shí),我們還對(duì)財(cái)經(jīng)類、軍事類、教育類、旅游類等主題的網(wǎng)站進(jìn)行了不完全跟蹤統(tǒng)計(jì),分析結(jié)果顯.示,其分布特點(diǎn)與汽車主題基本類似。由此可見,互聯(lián)網(wǎng)資源的分布呈現(xiàn)主題生態(tài)特性,通過網(wǎng)絡(luò)生態(tài)鏈,主題相關(guān)的網(wǎng)站彼此關(guān)聯(lián)形成主群網(wǎng)站群現(xiàn)象,整個(gè)互聯(lián)網(wǎng)絡(luò)可以看作在特定時(shí)空由多個(gè)主題網(wǎng)站群及其硬件環(huán)境所組成的復(fù)合體。4小結(jié)與展望基于網(wǎng)絡(luò)生態(tài)鏈的分析方法
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025標(biāo)準(zhǔn)蔬菜買賣合同范本
- 2025施工現(xiàn)場環(huán)境職業(yè)健康安全管理合同書
- 2025年度教育機(jī)構(gòu)辦學(xué)許可證轉(zhuǎn)讓及人才培養(yǎng)合作合同3篇
- 2025年度農(nóng)村小型水庫防洪減災(zāi)能力提升承包合同
- 2025年度國土綠化行動(dòng)-鄉(xiāng)土樹苗采購與生態(tài)修復(fù)合同
- 二零二五年度排水溝清理與排水設(shè)施智能化改造協(xié)議3篇
- 二零二五年度創(chuàng)意辦公場地租賃與設(shè)計(jì)合同3篇
- 二零二五年度農(nóng)機(jī)租賃與農(nóng)業(yè)廢棄物綜合利用合作合同2篇
- 2025工廠生產(chǎn)承包合同樣本
- 2025年度公廁節(jié)能照明系統(tǒng)承包施工合同范本3篇
- 陳赫賈玲小品《歡喜密探》臺(tái)詞劇本
- 測(cè)角儀規(guī)范要求
- 腦出血入院病歷
- 數(shù)字孿生智慧水利建設(shè)方案
- 焊接工藝流程圖
- 風(fēng)機(jī)基礎(chǔ)大體積混凝土澆筑專項(xiàng)施工方案
- 2023-2024學(xué)年北京市海淀區(qū)六年級(jí)數(shù)學(xué)第一學(xué)期期末達(dá)標(biāo)檢測(cè)試題含答案
- 中國古代文學(xué)史PPT完整PPT完整全套教學(xué)課件
- (完整版)人教版高中物理新舊教材知識(shí)對(duì)比
- 最好用高速公路機(jī)電維修手冊(cè)
- 土默特右旗高源礦業(yè)有限責(zé)任公司高源煤礦2022年度礦山地質(zhì)環(huán)境年度治理計(jì)劃
評(píng)論
0/150
提交評(píng)論