基于網(wǎng)絡(luò)生態(tài)鏈的主題資源分布研究_第1頁
基于網(wǎng)絡(luò)生態(tài)鏈的主題資源分布研究_第2頁
基于網(wǎng)絡(luò)生態(tài)鏈的主題資源分布研究_第3頁
基于網(wǎng)絡(luò)生態(tài)鏈的主題資源分布研究_第4頁
基于網(wǎng)絡(luò)生態(tài)鏈的主題資源分布研究_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

基于網(wǎng)絡(luò)生態(tài)鏈的主題資源分布研究

doi:10.3772/j.issn.1000-0135.2010.05.0051引言Web信息資源已成為各個領(lǐng)域可利用的最大信息資源庫,但其過度增長的規(guī)模已超越了人們傳統(tǒng)的利用能力,且這種態(tài)勢還在進(jìn)一步加強。如何從海量Web資源中快速準(zhǔn)確地獲取主題資源已成為各個領(lǐng)域關(guān)注的重要研究課題,互聯(lián)網(wǎng)信息資源的分布狀況與分布規(guī)律的發(fā)現(xiàn)是其中的關(guān)鍵。本文嘗試以生態(tài)學(xué)的視角分析互聯(lián)網(wǎng)資源的分布狀況,期望從紛繁雜亂的互聯(lián)網(wǎng)資源中發(fā)現(xiàn)蘊含的主題資源分布規(guī)律,以便為主題資源的采集和利用,以及主題網(wǎng)站的建設(shè)與發(fā)展提供新的思路。2以生態(tài)學(xué)視角分析互聯(lián)網(wǎng)資源分布的可行性傳統(tǒng)的觀點認(rèn)為,互聯(lián)網(wǎng)資源是由節(jié)點和超鏈接構(gòu)成的有向圖[1],網(wǎng)頁間的超鏈接成為web信息自動化采集的主要線索。因此,對于通用搜索引擎而言,理論上以隨機(jī)訪問方式就能遍歷整個互聯(lián)網(wǎng)絡(luò);于主題資源而言,其鏈接分布則更傾向于有關(guān)聯(lián)關(guān)系的主題資源。針對這種TopicLocality現(xiàn)象[2],1994年DeBra和Post提出了FishSearch主題資源發(fā)現(xiàn)算法[3];1998年Hersovici等在改進(jìn)FishSearch算法的基礎(chǔ)上又提出了SharkSearch算法[4]。這些算法對主題資源的采集無疑都是有效的,但其局限性在于用網(wǎng)絡(luò)漫游的方式對預(yù)采集目標(biāo)進(jìn)行判斷,而對互聯(lián)網(wǎng)的整體資源分布特性缺乏進(jìn)一步的研究,因而容易導(dǎo)致資源采集的局部化,且在規(guī)模龐大的互聯(lián)網(wǎng)間漫游還容易迷失方向。PageRank等用基于Web超鏈圖評價的方法[5]雖然有助于發(fā)現(xiàn)權(quán)威網(wǎng)站,但卻并不關(guān)注信息資源類別,因而不利于主題信息的發(fā)現(xiàn)。對整個Web鏈接結(jié)構(gòu)的研究已有不少有益的探索。2000年Broder等分析了AltaVista數(shù)據(jù)庫的鏈接結(jié)構(gòu),提出了bow-tie模型[6],將頁面數(shù)據(jù)分為如圖1所示的五大部分。圖1bow-tie模型[6]圖1中,SCC的頁面之間都存在彼此指向的鏈接;OUT是指那些不在SCC中,但可從SCC鏈出的頁面集合;IN則是指SCC中頁面不可直接到達(dá),但卻可鏈入到SCC中的頁面集合;Tendrils指不在IN、OUT或SCC中,而與IN或OUT有鏈接關(guān)系的頁面集合;Disconnected指剩余頁面,這些頁面不以任何方式與其他頁面鏈接。此后,不斷有人以此為基礎(chǔ)進(jìn)行更深入的研究[7~11]。第一項關(guān)于“鏈接-內(nèi)容”的大范圍研究始于2002年,由孟買的印度技術(shù)研究所(IndianInstituteofTechnology,IIT)的研究團(tuán)隊提出,并與一位來自普林斯頓NEC研究機(jī)構(gòu)的研究者合作完成。其研究結(jié)果顯示,某一主題的頁面傾向于引用其他具有相同主題的頁面;交叉主題間的鏈接不是隨機(jī)的,各主題頁面不是均勻地鏈接到其他頁面,而是有偏好的,實驗顯示,頁面鏈接傾向于那些具有相似詞匯的頁面,頁面間的平均詞匯相似度隨著頁面間的鏈接層次的增加而(呈指數(shù)級)降低[12]。對此觀點,Menczer也通過不同的方法和假說給予了證實[13]。Bjrneborn在bow-tie模型的基礎(chǔ)上進(jìn)一步分析了學(xué)術(shù)網(wǎng)站主題間的鏈接關(guān)系,提出了如圖所示的鏈接模型[14]。圖2學(xué)術(shù)網(wǎng)站主題結(jié)構(gòu)圖[14]在圖2中,單個主題的內(nèi)部結(jié)構(gòu)對應(yīng)于bow-tie模型的五個部分,主題與主題之間存在部分交叉與鏈接。至此,對Web鏈接結(jié)構(gòu)和內(nèi)容結(jié)構(gòu)的研究成果已凸現(xiàn)出了互聯(lián)網(wǎng)主題資源分布的生態(tài)特點。從互聯(lián)網(wǎng)的形成與發(fā)展看,它是人類智慧的結(jié)晶,也是人類社會活動的延伸,由此誕生的新型社會——網(wǎng)絡(luò)社會——則是由人類社會進(jìn)化而來的,是從人類社會分化出的一種表面虛擬,其實質(zhì)是人類社會生活的另一種社會形態(tài),它的底層是技術(shù)層面,中層是社會學(xué)層面,上層是人類自身對其終極意義的哲學(xué)追求[15]。正如人與自然環(huán)境所構(gòu)成的生態(tài)系統(tǒng)一樣,網(wǎng)絡(luò)主體與網(wǎng)絡(luò)環(huán)境構(gòu)成了網(wǎng)絡(luò)生態(tài)系統(tǒng),它不是一個僅僅強調(diào)技術(shù)因素的系統(tǒng),而是與網(wǎng)絡(luò)發(fā)展有關(guān)的社會環(huán)境、信息與信息主體組成的龐大系統(tǒng)。因此,從抽象層面看待互聯(lián)網(wǎng)是有局限性的,如果站在上位角度,融入人的因素,將信息的產(chǎn)生、加工處理、傳遞與共享等看做是人與人交互作用的結(jié)果,網(wǎng)站的構(gòu)建、運營、生存及其發(fā)展壯大所采取的合作、競爭等策略在一定程度上則是人的思想的反映,于是,映射到技術(shù)層面上的站點間的關(guān)聯(lián)關(guān)系變化就蘊含了生態(tài)學(xué)的意義。3基于網(wǎng)絡(luò)生態(tài)鏈的主題資源分布分析3.1網(wǎng)絡(luò)生態(tài)鏈含義“網(wǎng)絡(luò)生態(tài)鏈”(NetworkEcologicalChain)是我們分析互聯(lián)網(wǎng)主題資源分布規(guī)律及其形成過程的基本概念。所謂網(wǎng)絡(luò)生態(tài)鏈可定義為:基于主題相關(guān)的網(wǎng)站為了信息共享和生存需要,彼此之間通過超鏈接或內(nèi)容引用而形成的環(huán)環(huán)相扣的鏈條式依存關(guān)系。網(wǎng)絡(luò)生態(tài)鏈?zhǔn)蔷W(wǎng)站主題相對于特定內(nèi)容而表現(xiàn)出的特殊的關(guān)聯(lián)關(guān)系。超鏈接是技術(shù)實現(xiàn)層面的概念,網(wǎng)絡(luò)生態(tài)鏈則與主題內(nèi)容密切相關(guān)。對于前者,處在不同位置的鏈接是平等的,而對于特定的內(nèi)容,不同層次的鏈接其地位、作用及價值等方面則表現(xiàn)為質(zhì)的差異,例如,有些鏈接對于這一主題具有重要的價值,而對于另一主題則可以忽略不計。另外,除超鏈接可形成關(guān)聯(lián)關(guān)系外,站點間內(nèi)容的引用也可構(gòu)成網(wǎng)絡(luò)生態(tài)鏈。3.2主題網(wǎng)站群與主題資源的分布基于上述觀點,從生態(tài)學(xué)視角分析互聯(lián)網(wǎng)站點間的關(guān)聯(lián)關(guān)系,則其分布呈現(xiàn)顯著的網(wǎng)絡(luò)生態(tài)特性。假設(shè)以網(wǎng)站為分析對象,以網(wǎng)站間的鏈接數(shù)、內(nèi)容引用數(shù)及是否相互指向等要素為變量考察網(wǎng)站的分布狀況可以發(fā)現(xiàn),網(wǎng)站間呈現(xiàn)疏密不等的關(guān)系,聚集在一起的網(wǎng)站將自然形成網(wǎng)站群。根據(jù)文獻(xiàn)[2]、文獻(xiàn)[12]~[14]等多項研究成果證實,網(wǎng)頁間的鏈接傾向于在內(nèi)容相似的網(wǎng)頁間建立,由此可以推斷,群內(nèi)的網(wǎng)站在主題上表現(xiàn)出較高的相關(guān)性,這樣,特定時間聚集在一起的網(wǎng)站集合可視為主題網(wǎng)站群(Topic-WebGroup)。進(jìn)一步研究還發(fā)現(xiàn),在主題網(wǎng)站群內(nèi),不同網(wǎng)站的地位和作用是不同的,其中有些網(wǎng)站因其規(guī)模、口碑、權(quán)威性等因素,在群內(nèi)有非常重要的地位和作用,它們影響著整個主題網(wǎng)站群的發(fā)展,成為群內(nèi)的核心網(wǎng)站,核心網(wǎng)站的集合構(gòu)成核心網(wǎng)站層。核心網(wǎng)站的站內(nèi)資源因具有數(shù)量大、更新快、質(zhì)量高、訪問量大等特點而成為該主題的核心資源。另外,還有一些網(wǎng)站則游離于主題網(wǎng)站群的邊緣,作為主題網(wǎng)站群的有益補充,但其影響相對較小,從而形成了外圍網(wǎng)站,外圍網(wǎng)站的集合構(gòu)成外圍網(wǎng)站層。核心網(wǎng)站與外圍網(wǎng)站的地位并不是永恒不變的,有的網(wǎng)站會隨著優(yōu)勢資源的擴(kuò)張逐漸被用戶認(rèn)可而成為核心網(wǎng)站,同時,有些網(wǎng)站則會在競爭的壓力下退出核心網(wǎng)站層。例如,有不少大型門戶網(wǎng)站最初就是從個人網(wǎng)站發(fā)展而來的。如果用空間中的點表示主題網(wǎng)站,用距離表示網(wǎng)站間關(guān)系的緊密程度,用連線表示網(wǎng)站間是否存在網(wǎng)絡(luò)生態(tài)鏈,則可以得出如圖所示的互聯(lián)網(wǎng)主題網(wǎng)站群模型圖。圖3主題網(wǎng)站群模型圖在圖3中,中心區(qū)域表示核心網(wǎng)站層,中間區(qū)域表示外圍網(wǎng)站層,虛線外圍表示與主題網(wǎng)站群有關(guān)聯(lián)關(guān)系的泛主題(BroadTopic)內(nèi)容。主題網(wǎng)站群的分布特征與生態(tài)學(xué)中的生物群落具有驚人的相似性。在自然界中,同類生物聚集在一起形成生物群落,群落內(nèi)部結(jié)構(gòu)松散邊界模糊,群內(nèi)的生物種類及其相互關(guān)系決定了生物群落的結(jié)構(gòu)和生態(tài)功能[16];在互聯(lián)網(wǎng)中,聚焦在一起的網(wǎng)站在內(nèi)容上則具有較高的相關(guān)性,主題相關(guān)的網(wǎng)站彼此抱團(tuán)而形成主題網(wǎng)站群,不同主題網(wǎng)站群間存在一定的交叉與聯(lián)結(jié)關(guān)系。在生物群落中,優(yōu)勢物種控制著種群的能量流動,其數(shù)量、大小及其在食物鏈中的地位強烈影響著其他物種;在主題網(wǎng)站群中,核心網(wǎng)站層的站點類似于生物群落中的優(yōu)勢種,這部分網(wǎng)站在主題網(wǎng)站群中數(shù)量雖少,但因其地位和作用處于網(wǎng)絡(luò)生態(tài)鏈的頂端,它們決定了關(guān)聯(lián)網(wǎng)站群屬于這一主題而非另一主題。沿核心網(wǎng)站層向外擴(kuò)展,會發(fā)現(xiàn)網(wǎng)站的影響力和主題相關(guān)度通常呈遞減之勢,主題網(wǎng)站群邊緣的網(wǎng)站是網(wǎng)絡(luò)生態(tài)鏈的末端,它們或者規(guī)模較??;運行不穩(wěn)定,或者主題特性不明顯,因而較少受到用戶的青睞;反之,由主題網(wǎng)站群邊緣指向核心網(wǎng)站層,其主題相關(guān)性和影響力則呈加強之勢。3.3主題網(wǎng)站群的形成分析主題網(wǎng)站群的形成是一個由多方網(wǎng)絡(luò)參與者互動的結(jié)果。當(dāng)一個新生主題出現(xiàn)時,網(wǎng)站經(jīng)營者預(yù)期該主題具有較強的價值,或者從已有的網(wǎng)站中裂變出新的主題網(wǎng)站或頻道,或者建立新站點。依托原有網(wǎng)站裂變出的新主題借助已有的資源與人氣優(yōu)勢往往容易受到用戶的信賴,而新生主題站點則為了生存,在技術(shù)、資源等方面會相互借力,共享資源,優(yōu)勢互補,共同開辟新的市場和應(yīng)對風(fēng)險。在發(fā)展過程中,有的網(wǎng)站憑借信息資源豐富、質(zhì)量高,更新快、技術(shù)水平高等優(yōu)勢,逐漸受到網(wǎng)絡(luò)用戶的好評,從而吸引更多的網(wǎng)絡(luò)用戶訪問,并贏得商機(jī),在提高自身的人力、物力、財力的前提下,有能力進(jìn)一步提升網(wǎng)站規(guī)模與質(zhì)量,這樣就進(jìn)入了一個良性循環(huán),逐步成長為該主題領(lǐng)域中的核心網(wǎng)站。為了獲得資源的優(yōu)勢互補,核心網(wǎng)站之間也會通過友情鏈接、合作伙伴、內(nèi)容引用等方式彼此建立網(wǎng)絡(luò)生態(tài)鏈,以便獲得共同的進(jìn)化優(yōu)勢,提高生存能力。同時,核心網(wǎng)站還會通過提供免費空間、贈予二級域名等多種形式,吸引更多主題資源建設(shè)者參與其中,由此奠定了核心主題網(wǎng)站群的基礎(chǔ),并使之不斷發(fā)展壯大。另有一些追隨市場參與其中的中小網(wǎng)站,由于網(wǎng)站規(guī)模、品牌聲譽、創(chuàng)新能力等多方面的限制無法成為核心網(wǎng)站。但其中不乏個別具有一定競爭力的,它們依附于核心網(wǎng)站,同時其有價值的資源也會被核心網(wǎng)站所引用,這樣就會與核心網(wǎng)站形成相互轉(zhuǎn)載資源的現(xiàn)象。還有一些中小網(wǎng)站競爭力雖弱,但有一定的創(chuàng)新能力,雖然其主題資源沒能被核心網(wǎng)站認(rèn)可,但卻得到了部分用戶的信任,這些網(wǎng)站就構(gòu)成次外圍主題網(wǎng)站層。3.4網(wǎng)絡(luò)生態(tài)鏈的實證研究為了驗證上述分析,我們以汽車主題為例進(jìn)行了實證研究。首先選取搜狐網(wǎng)汽車頻道①(以下簡稱搜狐汽車)為種子網(wǎng)站,沿友情鏈接逐層擴(kuò)展,用人工方法判定網(wǎng)絡(luò)生態(tài)鏈的主題性質(zhì)。之所以選搜狐汽車為調(diào)研入口,是因其作為搜狐網(wǎng)的主題頻道,站內(nèi)資源豐富,影響力較大,受到網(wǎng)絡(luò)用戶的普遍認(rèn)可,在通用搜索引擎的檢索結(jié)果中排名也比較靠前,因此可認(rèn)定為核心主題網(wǎng)站。選擇友情鏈接是因其廣泛存在,而且便于人工觀察和跟蹤,能一定程度說明問題。網(wǎng)站層級的劃分是依據(jù)鏈接層數(shù)賦予的,具體算法如下:設(shè)搜狐汽車為第0層,它鏈接的北青網(wǎng)汽車頻道為第1層,北青網(wǎng)汽車鏈出的則為第2層,依次類推;如果北青網(wǎng)汽車反向又鏈接搜狐汽車,則它與搜狐汽車之間存在互為鏈接,應(yīng)視為同一層,其層次屬性也應(yīng)為0,其后鏈接的網(wǎng)站層可隨之改變,見表1。從表1數(shù)據(jù)可以看出,第0層網(wǎng)站與汽車主題具有高度的相關(guān)性,因此可以斷定核心網(wǎng)站層的存在。由核心網(wǎng)站層向下,隨著鏈接層級的增加主題相關(guān)比由100%降低到5.44%,此所謂“主題漂移”。同時還可以看出,前三個層級的網(wǎng)站在主題網(wǎng)站群中所占比重很大,三層累計占主題資源的78.55%,究其原因,主要在于類似搜狐汽車、中國汽車網(wǎng),愛卡汽車、車天下等在業(yè)內(nèi)具有較強影響力的網(wǎng)站傾向于相互指引,彼此抱團(tuán),從而形成一組核心主題網(wǎng)站環(huán)鏈;而另一些影響力較弱的汽車類網(wǎng)站及汽車配件、汽車保養(yǎng)、洗車等主題相關(guān)網(wǎng)站則依附于核心網(wǎng)站的周圍。第3層雖然數(shù)量較多,但主題相關(guān)比很低,與其有關(guān)聯(lián)的網(wǎng)站絕大多數(shù)在前三個層級中已存在,因此可以認(rèn)為,該層之后的網(wǎng)站層為該主題的網(wǎng)絡(luò)生態(tài)鏈邊緣,其站內(nèi)資源絕大多數(shù)屬于泛主題性質(zhì)。同時,我們還對財經(jīng)類、軍事類、教育類、旅游類等主題的網(wǎng)站進(jìn)行了不完全跟蹤統(tǒng)計,分析結(jié)果顯.示,其分布特點與汽車主題基本類似。由此可見,互聯(lián)網(wǎng)資源的分布呈現(xiàn)主題生態(tài)特性,通過網(wǎng)絡(luò)生態(tài)鏈,主題相關(guān)的網(wǎng)站彼此關(guān)聯(lián)形成主群網(wǎng)站群現(xiàn)象,整個互聯(lián)網(wǎng)絡(luò)可以看作在特定時空由多個主題網(wǎng)站群及其硬件環(huán)境所組成的復(fù)合體。4小結(jié)與展望基于網(wǎng)絡(luò)生態(tài)鏈的分析方法

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論