引文網(wǎng)絡分析的方法整合研究進展_第1頁
引文網(wǎng)絡分析的方法整合研究進展_第2頁
引文網(wǎng)絡分析的方法整合研究進展_第3頁
引文網(wǎng)絡分析的方法整合研究進展_第4頁
引文網(wǎng)絡分析的方法整合研究進展_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

引文網(wǎng)絡分析的方法整合研究進展

分類號G3061引言科學學是以科學技術(shù)活動為研究對象,以科學文本(如科學論文、手稿、演講稿等,尤其是科學論文)為分析手段探討其發(fā)展規(guī)律的元科學。在科學學的發(fā)展歷程中形成了兩種基本的研究范式[1]:內(nèi)容無涉的客觀文本范式(以下簡稱為客觀文本范式),內(nèi)容有關(guān)的社會認知構(gòu)建范式(以下簡稱為社會認知構(gòu)建范式)。作為科學學重要組成部分的科學計量學研究主要以客觀文本范式為主,較少關(guān)注社會認知構(gòu)建范式;而作為其重要組成部分的引文網(wǎng)絡分析,更是把客觀文本分析范式發(fā)揮到極致。隨著引文網(wǎng)絡分析的深入開展,單純的客觀文本分析范式的發(fā)展空間越來越小,難以適應科學計量學發(fā)展的需要,與其他方法整合共同完善引文網(wǎng)絡分析的方法體系已成為其向縱深演化拓展的重要趨勢。本文試圖對引文網(wǎng)絡分析與其他方法整合的研究現(xiàn)狀進行梳理,為引文網(wǎng)絡分析方法的研究提供新的思路和素材。2引文網(wǎng)絡分析的方法整合需求如圖1所示,引文網(wǎng)絡分析過程是基于此框架進行的:分析人員在一定研究范式的指導下,基于一定的研究目標,選擇合適的數(shù)據(jù)源,然后運用相應的技術(shù)實施數(shù)據(jù)處理,得到分析結(jié)果并對結(jié)果進行解釋說明。在這一過程中,各個環(huán)節(jié)都可能與其他方法進行整合。主要表現(xiàn)在分析范式的改變、數(shù)據(jù)來源的多樣化、分析技術(shù)的集成、結(jié)果展示的可視化等方面。圖1引文網(wǎng)絡分析的分析框架傳統(tǒng)的引文網(wǎng)絡分析一般是文本內(nèi)容無涉的。在內(nèi)容無涉的客觀文本分析范式中,科學文本被當成一種客觀資料。它秉承的基本理念是:科學是依據(jù)事實(如觀察實驗數(shù)據(jù))、規(guī)則(超越個人與社會)的活動,科學語言具有規(guī)則精確性、明晰性、邏輯連貫性特征,因而只要對科學進行文本分析就可以獲得對科學的全部認知,“他們相信,至少就其理想形式而言,科學文本可免于修辭或文學分析之累”[2]。所有這些都源于:①人們對科學語言超然性的過高估計。即科學文本是科學知識的表現(xiàn)外殼,當科學知識視為自然自在的元敘事時,則科學語言表現(xiàn)出一種超然于個人、情感、社會、修辭、勸說等的中立性語言,它便成為連接自然本質(zhì)與元敘事科學知識的媒介,科學文本便成為書寫自然之書;②科學文本書寫過程中的標準性與規(guī)則性。即科學論文具有標準結(jié)構(gòu)格式,使用規(guī)范的學術(shù)術(shù)語,廣泛引證與所述主題有關(guān)的其他研究成果、背景資料,按科學活動的技術(shù)規(guī)則來描述實驗活動(如重復實驗、經(jīng)驗證實、邏輯規(guī)則等);③科學文本評審制度的嚴格性規(guī)范性。即科學文本作為承載科學思想的載體,需要接受科學活動規(guī)則兩方面的審核:論文發(fā)表時的同行評議和論文發(fā)表后的同行引用。正是由于這種雙重審核的存在,保證了文本內(nèi)容的合理性與科學性。盡管引文分析的客觀文本范式取得了很大的成功,但人們對它的質(zhì)疑卻一直沒有停止過。加菲爾德曾指出,“從某種意義上說,引文統(tǒng)計是對科學活動的測度”,“只是對科研工作和興趣的一種反映”,“說明不了科學工作的性質(zhì)、科學工作效用或影響的原因,這些因素只能通過對被引材料的內(nèi)容分析或同行專家評議,才能夠探究清楚”[3]。Mullins在《科學論文的結(jié)構(gòu)分析》中提到,要從科學論文的每一個方面來展開研究,“從標題到參考文獻,從圖表到寫作風格,還有詞的利用,分析論文的每個方面都能得到有價值的信息”[4]。這些都表明,科學計量學單純依靠客觀文本分析范式難以完全把握科學發(fā)展的脈絡,必須把客觀文本分析與認知構(gòu)建分析進行整合,增加對被引材料的內(nèi)容分析或進行專家評議,才能完整地認識引文網(wǎng)絡分析的科學活動規(guī)律。引文網(wǎng)絡分析長期以來使用單一的數(shù)據(jù)來源,包括SCI、SSCI及A&HCI。主要原因在于這些數(shù)據(jù)庫擁有獨家引文數(shù)據(jù),難以找到其他可與之相比的數(shù)據(jù)庫。隨著數(shù)據(jù)庫的發(fā)展,越來越多的數(shù)據(jù)庫具有高質(zhì)量的引文數(shù)據(jù),因而使從多個數(shù)據(jù)源獲取引文數(shù)據(jù)進行對比分析或整合多個數(shù)據(jù)源的引文數(shù)據(jù)進行綜合分析成為可能。其他的難題如:早期的引文網(wǎng)絡分析由于技術(shù)上的限制,主要通過統(tǒng)計分析方法來完成相應的計量工作,對于海量數(shù)據(jù)的處理力不從心,文本挖掘技術(shù)在一定程度上解決了這一難題;對所有文本一視同仁的處理,難以解決細分結(jié)構(gòu)的難題,社會網(wǎng)絡分析技術(shù)對解決這些問題提供了可能;對引文網(wǎng)絡分析的結(jié)果展示,早期主要是通過計算統(tǒng)計指標值結(jié)合統(tǒng)計圖(如餅圖、直方圖等)反映單個指標的分析結(jié)果,沒有或較少反映文獻的關(guān)系,這一難題由于結(jié)合社會網(wǎng)絡分析方法及可視化方法的出現(xiàn)可以更加形象化地展示分析結(jié)果。3引文網(wǎng)絡分析的方法整合研究進展3.1客觀文本范式與認知構(gòu)建范式的整合3.1.1以共引為基礎的共詞和共引整合Braam等人[5-6]以共引分析得到的聚類結(jié)果為基礎,利用引用這些聚類文獻的引文標題詞進行共詞分析。結(jié)果表明,這種整合不僅有助于清晰地標注類名,而且有助于全面和深入地認識學科結(jié)構(gòu)。這是由于共引聚類可以反映特定領域發(fā)展的歷史脈絡,而標志引文內(nèi)容的標題詞可更好地反映領域發(fā)展現(xiàn)狀,歷史與現(xiàn)狀的結(jié)合能夠說明特定領域的發(fā)展態(tài)勢,以此為基礎的預測可靠性更好。我國學者柴省三首先引入了這種新的理論和方法[7],并運用該方法進行了實證研究[8]。侯躍芳等人利用該方法探討“妊娠糖尿病”領域的發(fā)展態(tài)勢并對該方法的可靠性進行了較為深入的探討[9-10]。以共引為基礎的共詞與共引整合雖然開啟了客觀文本分析與認知構(gòu)建分析結(jié)合研究的先河,但其研究數(shù)量較少,研究深度有待進一步拓展,可靠性值得驗證,尤其是該方法的機制機理等問題有待研究。3.1.2以引用為背景的詞—參考文獻整合一個領域或者專業(yè)的研究者一般擁有共同的知識基礎,對參考文獻的選擇和利用反映了這種共同的知識基礎;與此同時,作者在文本內(nèi)容表達過程中選用不同詞匯來表達相應主題概念,這些概念是知識基礎的外化。因此,參考文獻與作者用詞具有整合起來的可能性。Besselaar等人[11]和Heimeriks等人[12]為研究領域主題結(jié)構(gòu)的發(fā)展演化提出了詞一參考文獻共現(xiàn)方法。研究認為,一個研究領域或者專業(yè)可以用包含研究問題和方法的期刊網(wǎng)絡和參考文獻的交叉文獻集合來定義。而用于劃分知識結(jié)構(gòu)的方法無論是共詞和共引都存在不足。共引方法由于受到時滯的影響,反映的是學科的歷史結(jié)構(gòu);共詞由于詞的模糊性以及特征表示方法的不足,得到的知識結(jié)構(gòu)可能沒有實際的意義。為了彌補這些缺陷,作者提出了把詞和參考文獻進行結(jié)合分析的方法。該方法的主要思想如下:首先把科學領域看作是一個交流網(wǎng)絡,利用期刊出版物來描繪該交流系統(tǒng);進行研究時,研究者會同時選擇描述研究主題的詞和參考具體的文獻,參考文獻是詞具體含義的背景信息,有了背景信息的詞分析就減少了詞本身的模糊性;再把與文獻相關(guān)的這兩個屬性結(jié)合起來,共同決定研究專業(yè)的細分結(jié)構(gòu)。作者利用該方法在情報學領域進行了實證分析,結(jié)果表明知識結(jié)構(gòu)的劃分清晰。這種整合方法與前面所述的在共引基礎上再進行共詞分析方法不同,它在分析詞關(guān)系的同時考慮了引用關(guān)系,而且把引用作為背景信息來解決語詞意義的模糊性問題。應該說,這種整合更為徹底,但其效果與機制有待進一步探索。3.1.3基于引文網(wǎng)絡圖與主題詞關(guān)聯(lián)的微觀機理探析引文網(wǎng)絡圖不僅從形式上展示了文獻間的引用關(guān)系,更多地體現(xiàn)了知識概念的繼承與發(fā)展關(guān)系。因此,基于引文網(wǎng)絡圖來研究主題詞的繼承發(fā)展關(guān)系,不僅能夠有效探討科學發(fā)展過程中的微觀機理,而且有可能奠定客觀文本分析與認知構(gòu)建分析整合的理論基礎。Jo等人[13]對引文網(wǎng)絡圖與主題詞關(guān)聯(lián)的微觀機理進行了初步探索。他們的研究假設為引文網(wǎng)絡圖中聯(lián)系緊密的文獻的主題更相關(guān)。對于給定的詞匯A,假設H1表示A和主題相關(guān),假設H0表示A和主題不相關(guān)。觀察A的詞匯引用網(wǎng)絡圖O(GA)在假設H1條件下的概率數(shù)值,和假設H0條件下O(GA)的概率數(shù)值,利用兩個條件概率的差來表示和主題A是否相關(guān),如公式(1)所示。兩種方法本質(zhì)上是相同的,只是著眼點有所不同,分析目標存在差異。Jo的研究是基于引文網(wǎng)絡圖來探討主題詞間的相互關(guān)系,目標是探索在當前的研究領域可能出現(xiàn)的新主題發(fā)展方向;吳清強的研究用詞匯引用圖來驗證文獻引用網(wǎng)絡,目標是探索主題詞標識的優(yōu)化技術(shù)。研究結(jié)果表明,利用引用關(guān)系(引文網(wǎng)絡圖或詞匯引用圖)對數(shù)據(jù)集收斂可以起到知識結(jié)構(gòu)劃分的效果。因此,利用基于引文網(wǎng)絡的詞匯引用圖關(guān)系來識別詞簇主題為主題層面的結(jié)構(gòu)分析(尤其是學科研究前沿及可能的發(fā)展方向)打下了很好的基礎。上述整合客觀文本范式與認知構(gòu)建范式的研究都局限在詞(關(guān)鍵詞或標題詞)與參考文獻的關(guān)系上,并沒有使用文本的所有詞匯,因而其是否可以代表文獻本身與引文的關(guān)系,需要進一步探討。但該方面的發(fā)展代表了引文網(wǎng)絡分析的內(nèi)在發(fā)展要求,實現(xiàn)了客觀文本范式與認知構(gòu)建范式的有機整合,有利于創(chuàng)新引文網(wǎng)絡分析范式。3.2數(shù)據(jù)獲取的多源數(shù)據(jù)整合多數(shù)情況下,科學計量學研究的數(shù)據(jù)來源比較單一,其主要原因在于各數(shù)據(jù)來源的差異比較大,難以完全達到預期研究目標的質(zhì)量要求。隨著數(shù)據(jù)庫和計算機數(shù)據(jù)處理技術(shù)的發(fā)展,多家大型數(shù)據(jù)庫都增加了引文數(shù)據(jù),為使用多源數(shù)據(jù)進行引文網(wǎng)絡分析提供了可能。多源數(shù)據(jù)整合首先需要從不同數(shù)據(jù)庫獲取多個數(shù)據(jù)并把它們合并為一個整體數(shù)據(jù)集進行分析。例如Eom[16]從3個來源獲取分析數(shù)據(jù)研究決策支持系統(tǒng)1971-1990年的知識結(jié)構(gòu)變化;Janssens等人對兩個不同來源的數(shù)據(jù)進行整合從而研究圖書情報領域的知識結(jié)構(gòu)劃分[17]。Synnestved[18]把WoS和Medline中有關(guān)生物醫(yī)學的引用信息通過記錄鏈接方法整合在一起并實現(xiàn)了引用數(shù)據(jù)的可視化表示。研究結(jié)果表明,多個來源數(shù)據(jù)庫的引用信息能夠提高數(shù)據(jù)的質(zhì)量,并增加可視化中的爆發(fā)詞以及關(guān)鍵詞改變的等級排序,減少單一引文數(shù)據(jù)庫造成的偏見,形成更加豐富的信息空間。這種整合首先是通過多源數(shù)據(jù)來擴大數(shù)據(jù)集,并把兩種不同來源的數(shù)據(jù)信息特征進行合并,以提高引文網(wǎng)絡分析的全面性和準確性??梢哉f,基于記錄鏈接方法來整合多源數(shù)據(jù)應該是引文網(wǎng)絡分析在數(shù)據(jù)處理方法上的新嘗試,其可靠性與有效性還有待于更進一步驗證及優(yōu)化。由于不同數(shù)據(jù)庫的結(jié)構(gòu)不同,因而數(shù)據(jù)整合中遇到的問題比較多,如名稱不匹配、數(shù)據(jù)標識方式不同、數(shù)據(jù)存儲格式存在差異等。然而,對于多任務的引文網(wǎng)絡分析來說,從不同數(shù)據(jù)庫整合相應的數(shù)據(jù)資源是必須解決的基礎問題,因此開展數(shù)據(jù)整合方法研究應是今后重要的研究方向。3.3數(shù)據(jù)分析技術(shù)方法的整合3.3.1與數(shù)據(jù)挖掘方法的整合科學文獻的指數(shù)級增長,使得如何從巨大的信息源中快速準確地識別重要和關(guān)鍵信息成為科學研究的關(guān)鍵。傳統(tǒng)計量學方法由于受到數(shù)據(jù)處理方法與技術(shù)手段的限制,只能把分析對象限定在標題、摘要、關(guān)鍵詞及引文等對象上,利用詞頻統(tǒng)計方法和引文方法進行計量學研究。該方法雖然在實踐中被證明是有效的,但這種方法本身存在缺陷,諸如閾值選取的主觀性、選擇高頻詞帶來的信息損失以及忽略詞位置差異而引起的誤差等。而數(shù)據(jù)挖掘技術(shù)的出現(xiàn),為引文網(wǎng)絡分析快速處理海量信息提供了新的方法與技術(shù)。近年來將引文網(wǎng)絡分析與數(shù)據(jù)挖掘技術(shù)整合起來進行引文網(wǎng)絡分析已受到學者們的關(guān)注。Glenisson等人[19]結(jié)合文本挖掘方法和引文平均出版年對2003年ISSI的19篇會議論文結(jié)構(gòu)進行初步分析,結(jié)果表明該方法整合是有效的。他們又利用相同的方法擴大了數(shù)據(jù)集,對2003年Scientometrics的所有論文進行分析,結(jié)果表明利用全文比起利用標題和摘要的方法在揭示知識結(jié)構(gòu)方面更加準確,并使用兩種方法分析同樣的數(shù)據(jù)來證明文本挖掘技術(shù)在引文網(wǎng)絡分析中的有效性[20]。Janssens等人[17]利用數(shù)據(jù)挖掘方法得到詞-文獻矩陣,利用文獻耦合得到參考文獻-文獻矩陣,分別利用相加求平均值和逆卡方方法把從兩個不同角度得到的文獻相似矩陣基于統(tǒng)計方法結(jié)合起來,結(jié)果表明兩種方法都改善了領域主題分類和知識結(jié)構(gòu)的劃分效果。Janssen[21]后來在其博士論文中對數(shù)據(jù)挖掘和文獻耦合的方法整合進行了詳細闡述,并以圖書情報學領域以及生物信息學領域為例進行了實證分析。3.3.2與社會網(wǎng)絡分析技術(shù)的整合早期引文網(wǎng)絡分析方法對數(shù)據(jù)集從總體上進行研究,這樣就難以識別出引文網(wǎng)絡中的細分結(jié)構(gòu),社會網(wǎng)絡分析技術(shù)提供的結(jié)構(gòu)劃分方法為引文網(wǎng)絡分析提供了在簇水平上研究網(wǎng)絡結(jié)構(gòu)的可能性。Marianne等人[22]應用社會網(wǎng)絡技術(shù)方法研究了2002年德國大學與研究所的網(wǎng)絡結(jié)構(gòu),并應用BibTechMon軟件對網(wǎng)絡結(jié)構(gòu)進行了可視化。結(jié)果表明,結(jié)合社會網(wǎng)絡分析技術(shù)的引文網(wǎng)絡分析能更好地展示網(wǎng)絡的細分結(jié)構(gòu)。Schildt等[23]利用Sitkis軟件研究了共引過程中的高密度子網(wǎng)絡,并與兩種對比算法的處理結(jié)果進行了比較,結(jié)果表明整合社會網(wǎng)絡分析技術(shù)和引文網(wǎng)絡分析方法得到的結(jié)果更能從細分結(jié)構(gòu)上獲得研究領域的發(fā)展態(tài)勢。Katarina[24]以太陽能電池研究中的納米技術(shù)應用為例,把共作者方法、共引方法與社會網(wǎng)絡分析技術(shù)結(jié)合起來分析了該領域的知識結(jié)構(gòu)中心,并探討了該領域的研究影響、科學結(jié)構(gòu)與研究產(chǎn)出的測度方法。作者最后指出“以出版物及引文來測度研究產(chǎn)出與影響,反映的是科學作為一個生產(chǎn)系統(tǒng)的視角,而以中心度之類的科學結(jié)構(gòu)測度則反映的是科學作為知識擴散的基礎設施的視角”。另外,文獻[25-27]也在不同程度上把引文網(wǎng)絡分析方法與社會網(wǎng)絡分析技術(shù)有機結(jié)合起來共同探討計量學上的各種問題。3.4結(jié)果展示的可視化方法整合引文網(wǎng)絡分析的可視化一直是研究者們的研究目標。Price最早使用文獻模型來描述引文網(wǎng)絡的拓撲結(jié)構(gòu)[28];Small[29]和Kessler[30]分別開創(chuàng)了用共引方法與文獻耦合方法來分析引用模式的可視化方法;Narin開創(chuàng)了利用期刊引用模式來研究科學結(jié)構(gòu)的可視化方法[31]。著名計量學家加菲爾德博士倡導并開發(fā)的HistCite[TM]是引文網(wǎng)絡分析可視化的重要軟件之一。該軟件基于對文獻間的引用關(guān)系進行分析和解構(gòu),從而界定特定學科的發(fā)展趨勢,歷史重大事件,以及各大學、研究所及作者科研文章的產(chǎn)出數(shù)量,并根據(jù)結(jié)果進一步做出所需拓撲圖表等[32]。加菲爾德用它來進行了大

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論