




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
當下傳統(tǒng)學術評價體系的弊病顯現(xiàn),學術信息在線交流迅速發(fā)展,交流模式也更為多樣化?;诖?,互聯(lián)網(wǎng)社交媒體成為學者在線交流的重要選擇。Mendeley憑借其強大的社交功能和文獻存儲功能,得到學者們的廣泛關注,成為Altmetrics的主要指標??v觀目前國內外對其研究現(xiàn)狀發(fā)現(xiàn),學者對于Mendeley的替代計量學(Altmetrics)指標的閱讀數(shù)研究已經非常成熟,但很少有學者對Mendeley平臺的學者相關信息及學者發(fā)表的文本內容進行分析。因此,本論文選取Mendeley社群信息,對Mendeley平臺學者信息以及社群文本內容進行細致化研究,從學者信息、學者發(fā)表文本內容和文本內容情感傾向3個方面對其文本內容展開研究,希望可以通過對文本內容的深入分析,查看學者的學術跡象,探究學者的研究動機和行為,從而進一步地促進學術交流和科學評價,推動Altmetrics的深入研究。1研究綜述內容分析法是針對內容開展系統(tǒng)、定量和客觀的研究方法,在很多方面不同于傳統(tǒng)的分析方法。它將非定量的內容轉化為定量可測度的數(shù)據(jù),根據(jù)數(shù)據(jù)對材料內容中有意義的詞句進行定量化的事實推斷。相比其他方法,內容分析法對組成內容的結構和因素會探究得更為規(guī)范化和細致化。2013年黃炎寧[1]選取了國內三家傳統(tǒng)新聞媒體的官方微博,采用內容分析法和深度訪談法對其信息的娛樂化進行探究,以此來闡釋社會對數(shù)據(jù)民主的困惑。2017年王鵬飛[2]等人借助文獻研究的方法對國內外Altmetrics相關論文進行系統(tǒng)梳理,提出網(wǎng)絡社交媒體評價論文內容的歸類方式,以此作為開展Altmetrics內容分析的基礎。2018年劉嘉琪[3]等人將微博作為研究對象,從用戶和企業(yè)兩個角度,使用泊松回歸模型對用戶卷入情感和EGC溝通內容等特征開展研究。研究發(fā)現(xiàn)用戶維度里的點贊數(shù)、積極的評論等會推動用戶進行有效轉發(fā);企業(yè)維度里描述服務、產品細節(jié)的內容、有說服力的內容也可以刺激用戶進行轉發(fā)關注。2018年甘春梅[4]等人對獲取的54篇關于網(wǎng)絡用戶行為的論文,使用內容分析和兩階段綜述方法,重點分析論文涉及的研究主題、理論、自變量等。李廣欣[5]采用內容分析、統(tǒng)計分析和大樣本調查等方法,探究科技類期刊所開設的微信公眾號推送文章內容質量特色和推送服務發(fā)展現(xiàn)狀。進行文獻梳理,筆者發(fā)現(xiàn)從Altmetrics內容分析角度分析Mendeley平臺的研究較少,而且文獻也反映出在線學術信息交流已然成為一種學術模式,需要對其內容進行更為系統(tǒng)、透徹的分析。這為筆者開展Altmetrics內容研究提供了一定的契機。鑒于社交媒體學術交流的發(fā)展趨勢[6],以及對Mendeley文本內容探究的不足,本文提出對Mendeley平臺Altmetrics指標文本內容進行細致化研究,推進學術在線交流發(fā)展、改善現(xiàn)行學術影響力評價機制、促進Altmetrics研究和服務的長足發(fā)展。2數(shù)據(jù)處理Mendeley是一個在線學術社交網(wǎng)絡平臺,它可以獲取網(wǎng)頁上的文獻信息,并將其添加到個人圖書館中。利用Python爬取網(wǎng)站中所有群組的外部信息和內部信息作為數(shù)據(jù)樣本,進行論文后續(xù)研究的展開。整個數(shù)據(jù)爬取[7]的流程一共分為兩大步驟:第一步是檢索出所有能被搜索出來的group信息和地址并在數(shù)據(jù)庫層去重,為了提高效率使用多線程的方式來獲取數(shù)據(jù);第二步是使用去重后的group地址,獲取group詳情和所有文本及評論信息。在爬取數(shù)據(jù)過程中遇到的難點有兩個:一個是只有當加載更多顯示在可視范圍內才能真正加載數(shù)據(jù);另一個是IP被屏蔽,需要利用切換代理的方法實現(xiàn)爬取目標。數(shù)據(jù)質量的好壞關乎研究的質量,本文為了探究Mendeley的Altmetrics指標的文本內容情感分析,通過python[8]直接爬取Mendeley的社群文本學術信息數(shù)據(jù),這在一定程度上保障了本研究的科學性、專業(yè)性和嚴謹性。本文在數(shù)據(jù)處理階段,選擇多種工具相結合,以期可以使筆者的數(shù)據(jù)處理過程盡量合理化。3社群分析3.1學者信息分析對Mendeley中106174個群組進行清洗,清洗后得到2112個群組,每個群組都有自己討論的專題,對人數(shù)前10的群組成員和組名進行可視化分析,得到表1,分析發(fā)現(xiàn),人數(shù)排名靠前的對生物、醫(yī)學等學科較為關注,同時論文撰寫、定性研究方法等關于學術研究方法和投稿撰寫論文的較學術的群組也備受成員關注。表1Top10群組人數(shù)及群組名稱通過對Mendeley讀者信息進行分類,所有學科群組的讀者大多是碩士研究生、博士研究生和博士后,但也有其他學者參加。根據(jù)平臺注冊人員的學歷進行分析,平臺用戶一般為學歷較高的高素質學者。3.2學者文本內容分析我們爬取社群中每個用戶在所在的group所發(fā)的每條文本信息,通過統(tǒng)計發(fā)現(xiàn),清洗之后共得到11561條情感文本數(shù)據(jù),筆者利用nltk分詞方法對情感文本數(shù)據(jù)進行分詞處理,然后進行數(shù)據(jù)清洗,去掉冠詞、介詞、代詞等高頻卻沒有意義的詞之后共得到41696條分詞,對分詞進行詞云分析、主題分析和內容分析。對所有文本內容進行詞云可視化分析得到圖1。圖1群組文本內容詞云圖通過對Mendeley群組原文信息進行人工判讀,發(fā)現(xiàn)Mendeley群組原文涉及的學術內容不僅是學術論文,它已經涉及學術產生的整個流程和軌跡,并對它的各個方面加以社會化宣傳。本文將人工判讀結果和現(xiàn)有文獻結合,將其涉及的學術交流內容劃分為三大類,主要包括學術前沿、會議報告及專業(yè)求助,具體內容如表2所示。表2Mendeley群組內容分類3.3文本內容情感分析情感分析是自然語言處理中常見的情況,比如電商平臺[9]商品評價、社交平臺[10]評論評價、社會輿情[11]分析等,本論文對Mendeley平臺社群文本信息進行情感分析,可以幫助我們探究相關用戶對學術信息的認同和喜愛程度,有助于分析社會大眾對于多樣化學術信息的認知是否存在社會風險。本文采用搭建門控循環(huán)單元(GRU)網(wǎng)絡的深度學習方法對群組的討論內容進行情感分析。3.3.1詞向量從本質上講,機器學習和深度學習都是數(shù)字的數(shù)字。用數(shù)學向量的方式表示單詞的所有含義,用向量的數(shù)值和方向來共同表示,詞嵌入是將高維度的詞降維成多個低維度詞的過程,以期構建語言模型,每個單詞或短語都映射到實數(shù)字段中。在底層輸入中,使用詞嵌入來表示詞組的方法極大提升了NLP中語法分析器和文本情感分析等的效果。WordEmbedding(詞嵌入)就是將單詞映射到向量空間里,并用向量來表示。本文的初始詞向量由詞語的索引組成,比如詞組[apple,pink]在程序生成的詞典中對應的索引為1、2,那么[apple,pink]可表示為數(shù)組[1,2],為了將詞語進行更高維度的表示,需要在GRU網(wǎng)絡的第一層加入WordEmbedding層。3.3.2搭建GRU網(wǎng)絡GRU即GatedRecurrentUnit,時長短記憶網(wǎng)絡的一個最好變體。LSTM解決了傳統(tǒng)循環(huán)神經網(wǎng)絡無法很好處理遠距離依賴的問題,GRU和LSTM具有同樣出色的結果,甚至比LSTM效果還要明顯。GRU比LSTM適用范圍更廣,精確度更高,由于GRU的門數(shù)少于LSTM,且參數(shù)較少,因此訓練起來也相對容易,并且可以防止過擬合(訓練樣本少的時候可以使用防止過擬合,訓練樣本多的時候則可以節(jié)省很多訓練時間)。因此GRU是一個非常流行的LSTM變體,保持了LSTM的效果同時又使結構更加簡單,本文使用python的keras模塊搭建GRU網(wǎng)絡。網(wǎng)絡結構中最上層是嵌入層,達到將低維度的詞向量轉為高維度的詞向量表示的效果,GRU層即GRU網(wǎng)絡的主體部分,主要應用于自然語言和時間序列領域,第三層的Dropout層在緩解過擬合問題方面有突出貢獻,Dense層即全連接層,最后網(wǎng)絡的輸出層輸出該內容的情感分類評分,分數(shù)區(qū)間為[0,1],與0越遠,內容更傾向消極;與1越近,內容更傾向積極,本文設置閾值0.3,即[0,0.3]區(qū)間內容被判斷為消極,在[0.3,0.7]區(qū)間內容被判斷為中性,在[0.7,1]區(qū)間中內容被判斷為積極。3.3.3訓練GRU網(wǎng)絡本文使用的訓練數(shù)據(jù)是50000條被標注的tweeter評論,評論被標注為積極和消極,沒有中性評論,為了使用這些數(shù)據(jù),同樣需要進行分詞、去停用詞等數(shù)據(jù)清洗操作,如表3所示。將50000條數(shù)據(jù)分為訓練集和測試集,本文隨機抽取了5000條數(shù)據(jù)進行測試不參與訓練,使用訓練集對網(wǎng)絡迭代40次后,得到的網(wǎng)絡損失值折線圖如圖2,在經過40次訓練后,網(wǎng)絡的正確率已經達到90%以上,但由于只要有足夠參數(shù),神經網(wǎng)絡理論上可以擬合任何函數(shù),所以使用測試集即進行測試,最后得到網(wǎng)絡的精確度為80.04%,證明了網(wǎng)絡的有效性。圖2網(wǎng)絡訓練損失3.4情感分類情感分類是情感分析的核心,情感分類方法包括二分法、三分法和多元情感分類法。其中,二分法包括積極和消極兩種,三分法包括積極、消極和中性3種,多元情感分類法是根據(jù)文本內容和作者分類意圖,可以對情感進行更加多層次細致的劃分,更加清晰的分析文本或者評論的態(tài)度,使文本的主觀性態(tài)度可以利用定量的方式表達出來,最終的結果可以對特定文本中觀點信息進行提取,分析其是支持還是批評。本文筆者在對聊天數(shù)據(jù)進行數(shù)據(jù)清洗和詞向量轉換后,可以輸入GRU網(wǎng)絡中進行情感分類,最后得到的分類如圖3所示。圖3情感傾向分類從圖3可見他們的絕大多數(shù)推文內容(中性內容占87%)都對文章所涉及的問題進行了一般性討論,其中一部分人(6%)根據(jù)文章提供了與之相關的建議。這些因素表明了與非學術受眾互動的真實案例。但是,將近7%的帖子對所討論的問題提出了一些批評。而在學術文章中很少有明確的批評,因此表明Mendeley是表達感情更明確的重要科學活動的平臺。4結束語和展望4.1研究結論本文在對學術影響力評價方式尋求改變的背景下,選擇了Mendeley平臺所有的社群數(shù)據(jù),本文共得到有效個人組建社群信息106174組,有效機構社群信息209組。構成本研究的基礎數(shù)據(jù)集。將Mendeley社群內容劃分為3個維度,分別是社群群組維度、社群群組原文文本維度和社群群組原文文本情感維度。其中:(1)社群群組維度主要探究“誰在使用Mendeley增加學術成果社會影響力價值并積極參與公共事務談論”;(2)社群群組原文文本維度主要分析“群組談論什么內容”;(3)社群群組原文文本情感維度則探討了“個人學術者,學術組織以及游離于學術組織之外的學術參與大眾對于這些學術成果的情感傾向度是怎樣的”。研究發(fā)現(xiàn):Mendeley平臺社群群組關注學術信息;學術信息發(fā)布者呈多元性和專業(yè)化;學術信息內容多樣化和差異化;學術信息網(wǎng)絡輿論導向良好。因此Mendeley平臺傳遞學術信息有質量保障,具有可用性,促進了網(wǎng)絡學術共同體的成立,有效提升學術成果的社會價值和學術價值,在一定程度上降低了知識鴻溝現(xiàn)象,有利于知識信息的民主化。4.2研究不足本文的不足主要有以下4點:(1)本文的研究雖然選取了較全面的Mendeley社群群組學術信息數(shù)據(jù),但是因為網(wǎng)站數(shù)據(jù)爬取受限制,涉及的指標群組外部信息維度較少,只有群組名稱,群組介紹、群組成員,如果技術突破,爬取到更多的外部信息的話,分析得會更加客觀全面。(2)筆者在對Mendeley用戶原文涉及的內容進行分類時采用了人工閱讀的方法。人工判讀的方式對內容進行分析,不可避免地會造成一定程度上的誤差。雖然本論文采用了兩人同時判讀的方式來預防和遏制這些可能存在的誤差,但還是會有小概率的歧義問題。未來的研究中,我們需要尋求更為客觀科學的方法來應對可能產生的歧義問題。(3)社群文本內容采用計算機語言和軟件對情感色彩進行判斷,軟件只能分析出研究主體情感的積極性、消極性、中性,文本內容對主體的作用和意義暫時都沒有辦法進行探究。對情感傾向更為細粒度的研究和分析,也是之后研究的方向,借助其他學科實現(xiàn)文本內容的細粒度劃分。(4)Mendeley雖然是學者在線學術交流的良好平臺,但是其自身的易控性,也可能帶來影響力造假,還可以進行商業(yè)性的水軍閱讀和轉發(fā),這些都是人為操作而出現(xiàn)的社會關注度,這里面不涉及學術信息的交流和理性思考,這不是學術影響力而僅是相關信息的推廣力度。本文的研究并未能深入到此,這也將是筆者之后研究的重點。4.3研究展望本文緊跟計量學發(fā)展新趨勢和學術交流在線化步伐,以Mendeley平臺的官方數(shù)據(jù)為研究出發(fā)點,利用Python、Selenium、分詞模塊等工具,采用文獻分析法、內容分析法和情感傾向分析法等,對Mendeley的社群群組展開內容研究,探究其研究內涵和價值。本論文的研究水平和研究時間有限,內容會存在某些局限性,之后對Mendeley的Altmetrics指標的文本研究可以從以下3個方面開展:(1)Mendeley的Altmetrics指標傳遞出的學術信息評價標準。既然希望通過學術成果的社會影響力改善現(xiàn)有的學術評價機制,那我們就有必要對網(wǎng)絡化的學術信息
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 必修2有機實驗總結模版
- 辦公室搬遷總結模版
- 2025年春開學典禮畢業(yè)班教師代表發(fā)言稿模版
- 新質文化生產力
- 訓動員大會心得體會
- 2025年幼兒園大班班主任個人總結模版
- 新員工周工作總結模版
- 初三數(shù)學工作總結模版
- 一級下冊十幾減九教學設計
- 低保工作個人總結模版
- 2025年云南迪慶新華書店有限公司招聘筆試參考題庫含答案解析
- 【大學課件】單片機的基本結構
- 醫(yī)療糾紛處理承諾書
- 辦理個人車稅委托書模板
- DB33T 1337-2023 河湖水庫清淤技術規(guī)程
- 傳感器技術知到智慧樹章節(jié)測試課后答案2024年秋武漢科技大學
- 2025年贛州旅投招聘筆試參考題庫含答案解析
- 中國食物成分表2020年權威完整改進版
- 2024年山東省聊城市中考英語真題含解析
- 物業(yè)安全隱患排查制度范本
- 【MOOC】光影律動校園健身操舞-西南交通大學 中國大學慕課MOOC答案
評論
0/150
提交評論