大學(xué)生心理健康輿情分析系統(tǒng)實(shí)現(xiàn)_第1頁(yè)
大學(xué)生心理健康輿情分析系統(tǒng)實(shí)現(xiàn)_第2頁(yè)
大學(xué)生心理健康輿情分析系統(tǒng)實(shí)現(xiàn)_第3頁(yè)
大學(xué)生心理健康輿情分析系統(tǒng)實(shí)現(xiàn)_第4頁(yè)
大學(xué)生心理健康輿情分析系統(tǒng)實(shí)現(xiàn)_第5頁(yè)
已閱讀5頁(yè),還剩34頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

摘要近年我國(guó)高等教育急速發(fā)展,競(jìng)爭(zhēng)壓力越來(lái)越激烈,大學(xué)生的心理健康問(wèn)題也明顯增加,因心理健康問(wèn)題導(dǎo)致的大學(xué)生自殺等令人惋惜的沉痛事件時(shí)有發(fā)生。根據(jù)對(duì)北京23所高校的調(diào)查,16%的學(xué)生存在心理問(wèn)題,達(dá)到嚴(yán)重程度的占3%到5%,這使大學(xué)生的心理健康問(wèn)題成為社會(huì)焦點(diǎn)。大學(xué)作為培養(yǎng)全面發(fā)展高素質(zhì)人才,更應(yīng)該承擔(dān)起大學(xué)生心理健康相關(guān)任務(wù)。傳統(tǒng)的心理輔導(dǎo)教育過(guò)程,包括線(xiàn)下對(duì)學(xué)生進(jìn)行心理測(cè)試,根據(jù)心理測(cè)試結(jié)果和談話(huà)方向建立心理檔案,這不僅對(duì)部分同學(xué)來(lái)說(shuō)有壓力,對(duì)于心理輔導(dǎo)員同樣是很大的工作量。而借助網(wǎng)絡(luò)進(jìn)行心理健康教育作為一種新的心理教育方式,越來(lái)越受到導(dǎo)師和學(xué)生們的喜愛(ài),網(wǎng)絡(luò)的形式使心理教育過(guò)程擁有更好的私密性,同時(shí)也能讓導(dǎo)師花費(fèi)更少的精力獲取更多的信息。本文從大學(xué)生心理健康狀況的實(shí)際出發(fā),結(jié)合所學(xué)習(xí)的軟件開(kāi)發(fā)的知識(shí),設(shè)計(jì)出相對(duì)比較適合當(dāng)前發(fā)展需要的大學(xué)生心理健康管理平臺(tái)。本文重點(diǎn)分為兩部分,第一部分以《SCL-90癥狀自評(píng)量表》為測(cè)量工具,對(duì)學(xué)生進(jìn)行心理測(cè)試,作為對(duì)學(xué)生心理狀況的初步了解,從各個(gè)維度評(píng)判學(xué)生狀態(tài),找出學(xué)生心理異常的側(cè)重點(diǎn)。第二部分則對(duì)于第一部分心理測(cè)試成績(jī)不理想的同學(xué)進(jìn)行進(jìn)一步的社交狀態(tài)考察,本文以微博為例,利用python爬蟲(chóng)對(duì)某同學(xué)的特定的微博文本進(jìn)行爬取保存;而后對(duì)原文本運(yùn)用jieba工具進(jìn)行中文分詞和詞頻統(tǒng)計(jì),使之更容易為后續(xù)的文本分析所用;最后用wordcloud和snowNLP對(duì)分割的詞語(yǔ)進(jìn)行情感分類(lèi),以詞云的形式輸出消極方面的詞語(yǔ)和積極方面的詞語(yǔ),幫助導(dǎo)師找到可能導(dǎo)致學(xué)生心理狀態(tài)異常的相關(guān)信息。關(guān)鍵詞:大學(xué)生心理健康;輿情分析;情感分析;中文分詞

AbstractInrecentyears,withtherapiddevelopmentofhighereducationinourcountry,thepressureofcompetitionismoreandmoreintense,andthementalhealthproblemsofcollegestudentsarealsosignificantlyincreased.Becauseofthementalhealthproblems,droppingoutofschoolorevensuicidesoftenoccur.Accordingtothesurveyof23collegesanduniversitiesinBeijing,16%ofthestudentshavepsychologicalproblems,accountingfor3%to5%oftheseriousdegree,whichmakesthementalhealthproblemsofcollegestudentsbecomethesocialfocus.Asthetrainingofall-rounddevelopmentofhigh-qualitytalents,universitiesshouldundertakethetasksrelatedtocollegestudents'mentalhealth.Asanewwayofpsychologicaleducation,mentalhealtheducationwiththehelpofnetworkismoreandmorepopularwithteachersandstudents.Theformofnetworkmakestheprocessofpsychologicaleducationhavebetterprivacy,atthesametime,itcanalsomaketeachersspendlessenergytogetmoreinformation.BasedontherealityofCollegeStudents'mentalhealthandtheknowledgeofsoftwaredevelopment,thispaperdesignsamanagementplatformforcollegestudents'mentalhealthwhichisrelativelysuitableforthecurrentdevelopmentneeds.Thispaperisdividedintotwoparts.Inthefirstpart,theSCL-90symptomchecklistisusedasameasurementtooltotestthestudents'psychology,asapreliminaryunderstandingofthestudents'psychologicalstate,tojudgethestudents'statefromvariousdimensionsandfindoutthekeypointsofstudents'psychologicalabnormality.Inthesecondpart,thestudentswhosescoresinthefirstpartofpsychologicaltestarenotidealarefurtherinvestigatedonsocialstatus.Thispapertakesmicroblogasanexample,usesPythoncrawlertocrawlandsavethespecificmicroblogtextofacertainstudent;thenusesthejeebatooltomakeChinesewordsegmentationandwordfrequencystatisticsfortheoriginaltext,makingiteasierforsubsequenttextanalysis;finallyuseswordcloudandSnOwnlpclassifiesthesegmentedwordsbyemotion,andoutputsthenegativewordsandthepositivewordsintheformofwordcloudtohelpthetutorfindtheinformationthatmayleadtotheabnormalmentalstateofstudents.Keywords:CollegeStudents'mentalhealth;publicopinionanalysis;emotionalanalysis;Chineseparticiple第1章引言1.1選題的目的及意義大學(xué)生即將踏入社會(huì),一面為以后的工作生活積累經(jīng)驗(yàn),一面還留在最后的校園保持著天真的學(xué)生氣息,兩方面的輿論信息同時(shí)對(duì)學(xué)生的思想和心理進(jìn)行沖擊,很容易導(dǎo)致學(xué)生自己無(wú)法消化產(chǎn)生消極和錯(cuò)誤的想法,讓一些心理防線(xiàn)本就脆弱或偏激的學(xué)生做出無(wú)法挽回的舉動(dòng)[7]。這不僅對(duì)個(gè)人的生活產(chǎn)生影響,也給學(xué)校相關(guān)方面帶來(lái)隱患,甚至在他們走向社會(huì)的時(shí)候給社會(huì)穩(wěn)定和國(guó)家安全帶來(lái)隱患。探究大學(xué)生受社會(huì)輿情影響的心理變化,把握高校輿情危機(jī)的內(nèi)在特點(diǎn)與外在影響因素,構(gòu)建系統(tǒng)的高校網(wǎng)絡(luò)輿情危機(jī)應(yīng)對(duì)機(jī)制,更有利于了解大學(xué)生在應(yīng)對(duì)社會(huì)輿情時(shí)可能做出的反應(yīng),便于學(xué)校心理輔導(dǎo)員與需要幫助的同學(xué)及時(shí)聯(lián)系、解決問(wèn)題,在幫助大學(xué)生正確看待社會(huì)問(wèn)題的方面具有很大的促進(jìn)作用,從而更好的維護(hù)高校的良好形象,保障大學(xué)生的身心健康[8]。1.2國(guó)內(nèi)外研究現(xiàn)狀在許多的西方國(guó)家,從孩子開(kāi)始學(xué)業(yè)就創(chuàng)建了他們自己的心理檔案,學(xué)校里也有心理工作者對(duì)孩子進(jìn)行觀察與評(píng)估,定期的為學(xué)生進(jìn)行日常心理輔導(dǎo)、心理診斷、心理咨詢(xún)、心理評(píng)估和心理干預(yù)。學(xué)生的檔案保存在網(wǎng)上,可供學(xué)生個(gè)人或?qū)iT(mén)的心理人員查閱,但同時(shí)遵循保密原則,無(wú)關(guān)人員無(wú)法查看。綜上,國(guó)外許多國(guó)家對(duì)于心理相關(guān)問(wèn)題相當(dāng)重視,也建立了相對(duì)完善的管理體系,這些對(duì)我國(guó)學(xué)校心理健康教育有很大啟發(fā)意義。相比而言,根據(jù)中國(guó)青少年研究中心2010年對(duì)大學(xué)生心理問(wèn)題的研究,大多數(shù)大學(xué)生在出現(xiàn)較常見(jiàn)的心理問(wèn)題時(shí),更傾向于向自己的朋友、家人甚至素未謀面的網(wǎng)友進(jìn)行傾訴,卻很少人選擇專(zhuān)業(yè)的心理機(jī)構(gòu)進(jìn)行正規(guī)的心理輔導(dǎo)。大眾對(duì)于心理輔導(dǎo)的傳統(tǒng)印象也是更偏于負(fù)面的、無(wú)用的,這種刻板的印象可能會(huì)導(dǎo)致一些想要進(jìn)行心理輔導(dǎo)的人選擇放棄。大學(xué)生可以接觸到的心理知識(shí),主要來(lái)源于網(wǎng)絡(luò)和各類(lèi)心理講座,接觸途徑少,導(dǎo)致學(xué)生不能很好的判斷自己的心理健康情況,也無(wú)法及時(shí)的做出自我診治與求助,致使許多悲劇發(fā)生。如今隨著信息化的發(fā)展,為大學(xué)生建立一個(gè)心理健康系統(tǒng)平臺(tái)以保證學(xué)生能擁有更好的心理狀態(tài)成為心理問(wèn)題一條有效的解決途徑。網(wǎng)絡(luò)平臺(tái)可以通過(guò)專(zhuān)業(yè)的心理測(cè)試以便導(dǎo)師和學(xué)生自己了解每個(gè)學(xué)生的狀況,也通過(guò)輿情分析幫助導(dǎo)師及時(shí)發(fā)現(xiàn)學(xué)生可能存在的問(wèn)題。有關(guān)文章中表示:“加強(qiáng)復(fù)雜環(huán)境下大學(xué)生心理健康輿情信息的搜集、整理、追蹤、引導(dǎo)、服務(wù),提供教育工作具有針對(duì)性的決策保障,是新時(shí)期學(xué)生思想政治工作和大學(xué)生管理服務(wù)工作的新課題?!庇纱丝梢钥闯龃髮W(xué)生心理健康輿情引導(dǎo)的意義與價(jià)值,值得我們更多人關(guān)注與參與到其相關(guān)的工作方面中去[6]。1.3主要研究?jī)?nèi)容輿情分析是根據(jù)具體問(wèn)題的需要,對(duì)輿情進(jìn)行深入思考、分析和研究,推導(dǎo)出相關(guān)結(jié)論的過(guò)程。隨著多元化發(fā)展,越來(lái)越復(fù)雜的社會(huì)環(huán)境影響著學(xué)校環(huán)境,也對(duì)大學(xué)生心理產(chǎn)生了許多隱蔽的影響,因此輿情分析系統(tǒng)越來(lái)越多的被應(yīng)用于大學(xué)生心理健康分析相關(guān)領(lǐng)域[3]。本文從當(dāng)前相關(guān)研究狀況出發(fā),主要考慮以下幾個(gè)方面的問(wèn)題:(1)數(shù)據(jù)采集與預(yù)處理。選擇學(xué)校心理測(cè)試結(jié)果和微博平臺(tái)數(shù)據(jù)作為數(shù)據(jù)集,運(yùn)用微博API和數(shù)據(jù)爬蟲(chóng)實(shí)現(xiàn)對(duì)微博數(shù)據(jù)的實(shí)時(shí)采集,去除無(wú)關(guān)數(shù)據(jù)和噪聲數(shù)據(jù),處理空缺值,為后期數(shù)據(jù)分析提供準(zhǔn)確簡(jiǎn)潔的數(shù)據(jù)集。(2)對(duì)數(shù)據(jù)文本進(jìn)行關(guān)鍵詞檢索。利用分詞工具對(duì)微博文本進(jìn)行文本分詞、停用詞過(guò)濾、特征提取,檢索文本數(shù)據(jù)中有關(guān)焦慮、抑郁等關(guān)鍵詞信息,結(jié)合心理測(cè)試結(jié)果,得到心理狀態(tài)異常的相關(guān)學(xué)生信息。(3)對(duì)于心理異常學(xué)生的相關(guān)數(shù)據(jù)進(jìn)行檢索,找到可能影響學(xué)生心理狀態(tài)的事件與原因,方便教師與學(xué)生交流。

第2章相關(guān)技術(shù)分析2.1數(shù)據(jù)采集技術(shù)數(shù)據(jù)收集是輿情分析的第一步。能否及時(shí)、全面地獲取數(shù)據(jù),直接影響到輿情分析的后續(xù)工作。本系統(tǒng)運(yùn)用兩種工具來(lái)進(jìn)行數(shù)據(jù)采集,一種是網(wǎng)絡(luò)爬蟲(chóng)技術(shù),另一種是對(duì)外開(kāi)放的微博API。2.1.1網(wǎng)絡(luò)爬蟲(chóng)網(wǎng)絡(luò)爬蟲(chóng)是一個(gè)能夠根據(jù)檢索要求自動(dòng)抓取互聯(lián)網(wǎng)信息的程序,它通過(guò)訪(fǎng)問(wèn)互聯(lián)網(wǎng)中的鏈接地址,按照一定的策略,在Internet中搜索并收集需要檢索的內(nèi)容。網(wǎng)絡(luò)爬蟲(chóng)是搜索引擎的重要組成,它能以特定的關(guān)鍵詞查找并返回所找到的信息的資料清單,搜索引擎對(duì)原始網(wǎng)頁(yè)的信息進(jìn)行重新組織,建立信息庫(kù),再由關(guān)鍵詞查找到相關(guān)文件,并對(duì)文件進(jìn)行整理排序,將整合完成的結(jié)果返回給用戶(hù)。大部分網(wǎng)絡(luò)爬蟲(chóng)的通用框架如圖所示:網(wǎng)絡(luò)爬蟲(chóng)作為應(yīng)用程序是十分脆弱的,因?yàn)樗婕暗綌?shù)以萬(wàn)計(jì)的web服務(wù)器和許多域名服務(wù)器的交互,而這些內(nèi)容都遠(yuǎn)遠(yuǎn)超過(guò)了系統(tǒng)的控制范圍。網(wǎng)站爬行速度是由自身的Internet連接速度和爬行的站點(diǎn)的速度共同決定的。特別是當(dāng)一個(gè)站點(diǎn)從多個(gè)服務(wù)器抓取數(shù)據(jù),且多個(gè)下載并行時(shí),總抓取時(shí)間可以顯著減少。盡管有許多的網(wǎng)絡(luò)爬蟲(chóng)程序,但它們的核心本質(zhì)上都是一樣的,以下為網(wǎng)絡(luò)爬蟲(chóng)的工作流程:下載網(wǎng)頁(yè)。解析下載的網(wǎng)頁(yè)并檢索所有鏈接。對(duì)于每個(gè)檢索的鏈接,重復(fù)上述過(guò)程。由此,我們可以將所有網(wǎng)頁(yè)分為五個(gè)部分:(1)已經(jīng)被下載還沒(méi)有過(guò)期的網(wǎng)頁(yè)。(2)已經(jīng)被下載但已經(jīng)過(guò)期的網(wǎng)頁(yè):得到的頁(yè)面事實(shí)上是檢索到的內(nèi)容的復(fù)制,Internet上的網(wǎng)站是不斷變化的,下載網(wǎng)站的許多內(nèi)容產(chǎn)生了變化,這些網(wǎng)站就是已經(jīng)過(guò)期的。(3)正在等待下載的網(wǎng)頁(yè):也就是下一步需要檢索并爬取的網(wǎng)頁(yè)。(4)可知網(wǎng)頁(yè):還沒(méi)有進(jìn)行檢索,也沒(méi)有在待檢索列表,但是對(duì)已檢索的頁(yè)面進(jìn)行分析可以得到的這些頁(yè)面,稱(chēng)之為可知頁(yè)面。(5)不可知頁(yè)面:除了上述幾種類(lèi)型,還有一些網(wǎng)站網(wǎng)絡(luò)爬蟲(chóng)無(wú)法檢索爬取,于是稱(chēng)之為不可知頁(yè)面。在網(wǎng)絡(luò)爬蟲(chóng)中,待檢索網(wǎng)頁(yè)列表是最為關(guān)鍵的一部分。在這些網(wǎng)頁(yè)中決定先對(duì)哪個(gè)進(jìn)行抓取,后對(duì)哪個(gè)進(jìn)行抓取的排列順序也是極為重要的,這極大的影響著網(wǎng)絡(luò)爬蟲(chóng)的工作效率,因此針對(duì)不同類(lèi)型的抓取對(duì)象,需要合適抓取策略。以下為幾種常見(jiàn)的抓取策略:(1)深度優(yōu)先遍歷策略根據(jù)深度按照從低到高的順序依次檢索下一級(jí)網(wǎng)頁(yè),直到檢索到最深層網(wǎng)頁(yè)為止。完成一個(gè)爬行分支后,網(wǎng)絡(luò)爬蟲(chóng)返回到上一層網(wǎng)頁(yè)節(jié)點(diǎn)以繼續(xù)搜索其他網(wǎng)頁(yè)。當(dāng)所有網(wǎng)頁(yè)都被檢索后,此次爬取過(guò)程結(jié)束。深度優(yōu)先遍歷可以遍歷一個(gè)網(wǎng)站深層嵌套的所有內(nèi)容,但當(dāng)網(wǎng)站層次過(guò)于深時(shí),可能造成爬蟲(chóng)陷入無(wú)法返回的情況,會(huì)對(duì)資源造成巨大的浪費(fèi)。(2)廣度優(yōu)先遍歷策略該策略根據(jù)內(nèi)容目錄的深度來(lái)對(duì)頁(yè)面進(jìn)行抓取,首先選擇抓取的是目錄層次較淺的網(wǎng)頁(yè)。當(dāng)同一級(jí)別的所有網(wǎng)頁(yè)都抓取完成后,爬蟲(chóng)再進(jìn)入更深一層的網(wǎng)頁(yè)進(jìn)行抓取。廣度優(yōu)先遍歷可以避免在遇到網(wǎng)站過(guò)深時(shí)爬蟲(chóng)陷入無(wú)法返回的問(wèn)題,同時(shí)在同一層次抓取完畢后才進(jìn)入下一層次使其無(wú)需存儲(chǔ)中間節(jié)點(diǎn)等待回讀,節(jié)省空間,但一層一層檢索會(huì)造成爬取到深層次頁(yè)面的時(shí)間過(guò)長(zhǎng)。(3)最佳優(yōu)先搜索策略該策略是網(wǎng)絡(luò)爬蟲(chóng)利用網(wǎng)頁(yè)分析算法對(duì)待爬取的頁(yè)面和目標(biāo)頁(yè)面之間的相似程度,或者主題的相關(guān)程度進(jìn)行計(jì)算,選擇相關(guān)度最佳的網(wǎng)頁(yè)進(jìn)行爬取。這種策略是往往是常被使用的搜索策略,但這種策略是一種局部?jī)?yōu)化,網(wǎng)絡(luò)爬蟲(chóng)可能會(huì)因此略過(guò)其他相關(guān)頁(yè)面。在實(shí)際應(yīng)用中應(yīng)根據(jù)具體需要進(jìn)行優(yōu)化。2.1.2微博APIAPI,即應(yīng)用程序編程接口,是一個(gè)抽象的概念。它通過(guò)提供一些接口,使應(yīng)用程序或者相關(guān)開(kāi)發(fā)人員無(wú)需訪(fǎng)問(wèn)源代碼,或理解其框架內(nèi)部工作細(xì)節(jié),直接為他們提供訪(fǎng)問(wèn)一組例程的能力。開(kāi)放一直是互聯(lián)網(wǎng)的核心要義。由于網(wǎng)絡(luò)水平的進(jìn)步,用戶(hù)對(duì)軟件的要求也有來(lái)越苛刻,對(duì)于單一互聯(lián)網(wǎng)企業(yè)來(lái)講,只憑借自身力量很難滿(mǎn)足用戶(hù)各方面各層次的需求,所以越來(lái)越多的企業(yè)選擇開(kāi)放之路,以憑借第三方力量不斷完善自己的作品,在互聯(lián)網(wǎng)市場(chǎng)站穩(wěn)腳跟,于是向第三方開(kāi)發(fā)者提供可以訪(fǎng)問(wèn)自家應(yīng)用的API接口也成為大勢(shì)所趨。新浪微博API正是如此。新浪服務(wù)商將一部分平臺(tái)服務(wù)進(jìn)行封裝并對(duì)第三方開(kāi)發(fā)者無(wú)條件開(kāi)放,使之可以利用微博API得到相應(yīng)的服務(wù),這也使得新浪微博無(wú)成本的取得了更多用戶(hù)的使用和關(guān)注,從而降低運(yùn)營(yíng)成本。2.2文本預(yù)處理技術(shù)文本預(yù)處理需要為后續(xù)的文本分析做好預(yù)備工作,通過(guò)對(duì)文本進(jìn)行預(yù)處理,將大段的文本內(nèi)容處更容易被計(jì)算機(jī)所識(shí)別利用的形式。文本預(yù)處理通常包括中文文本分詞和去停用詞兩項(xiàng)操作。2.2.1中文文本分詞不同于英文句子每個(gè)詞之間以空格間隔,可以很方便的對(duì)詞語(yǔ)進(jìn)行分割,中文句子中沒(méi)有明顯的可分割標(biāo)志,這就使中文文本分詞的難度大大增加。因此,能否對(duì)中文文本進(jìn)行自然準(zhǔn)確的分割,是整個(gè)中文信息處理的關(guān)鍵?,F(xiàn)有的中文分詞算法可分為三大類(lèi):基于字符串匹配的分詞方法、基于統(tǒng)計(jì)的分詞方法以及基于理解的分詞方法。(1)基于字符串匹配的方法字符匹配又叫做機(jī)械分詞方法,它是以某種策略將要分析的中文字符串與一個(gè)預(yù)設(shè)好的詞典中的詞語(yǔ)逐條進(jìn)行匹配,如果在詞典中能夠找到這個(gè)字符串,則為匹配成功。依據(jù)不同的掃描方向,字符串匹配方法可分為正向匹配和逆向匹配;依據(jù)優(yōu)先匹配的長(zhǎng)度不同,可以分為最長(zhǎng)匹配和最短匹配;(2)基于統(tǒng)計(jì)的方法在整篇文章中,相鄰的字同時(shí)出現(xiàn)的頻率越高,它們組成一個(gè)詞的可能性就越大,因此相鄰的字同時(shí)出現(xiàn)的頻率或者概率能比較好的反映它們成為一個(gè)詞組的信度。對(duì)文本中相鄰的字同時(shí)出現(xiàn)構(gòu)成的詞組出現(xiàn)的頻率進(jìn)行統(tǒng)計(jì),計(jì)算它們同時(shí)出現(xiàn)的信息。定義兩個(gè)字同時(shí)出現(xiàn)的信息,計(jì)算這兩個(gè)字的相鄰且同時(shí)出現(xiàn)的概率。這種信息體現(xiàn)了字與字之間結(jié)合的緊密程度。當(dāng)緊密程度大于某個(gè)臨界值時(shí),便判定這兩個(gè)字可能組成了一個(gè)詞組。統(tǒng)計(jì)方法只對(duì)文本中字與字之間的頻率進(jìn)行統(tǒng)計(jì),不需要機(jī)器詞典,因此又叫無(wú)詞典分詞。但此方法也有一些缺點(diǎn),可能有一些字與字之間相鄰且同時(shí)出現(xiàn)的頻率較高,但不是詞組,造成混淆,并且這種方法對(duì)常用詞的識(shí)別精度較差。(3)基于理解的方法這種分詞方法就是基于模仿人類(lèi)對(duì)句子的理解,使計(jì)算機(jī)識(shí)別中文詞組,達(dá)到切分的效果。即對(duì)文本進(jìn)行句法語(yǔ)義分析,利用分析得到的句法語(yǔ)義信息對(duì)文本分詞同時(shí)處理歧義。它一般由分詞子系統(tǒng)、句法語(yǔ)義子系統(tǒng)和總控三部分組成。分詞子系統(tǒng)在總控部分的指揮下,可以獲取詞和句子的句法語(yǔ)義信息來(lái)判斷分詞是否歧義,由此達(dá)到模擬人類(lèi)對(duì)句子的理解過(guò)程的目的。但這種基于理解的方法需要大量的相關(guān)語(yǔ)法知識(shí)和大量信息,而中文語(yǔ)法知識(shí)本就相對(duì)龐大、復(fù)雜,計(jì)算機(jī)很難以此方式理解中文本文,更難以將其翻譯為可以直接利用的形式,因此此方法用的并不是很多,還在完善階段。雖然有關(guān)算法研究正在不斷進(jìn)步,但就目前而言,中文文本分詞還存在著以下幾個(gè)主要問(wèn)題:未登錄詞問(wèn)題隨著社會(huì)發(fā)展,越來(lái)越多的新詞匯被創(chuàng)造出來(lái),還有許多人名、地名、企業(yè)名以及新發(fā)展的專(zhuān)有名詞,詞匯的數(shù)量越來(lái)越龐大,組合也愈加復(fù)雜,但是這些詞卻必須在分詞中被單獨(dú)切分出來(lái),否則會(huì)影響其他數(shù)據(jù)的質(zhì)量,對(duì)后續(xù)的文本分析產(chǎn)生惡劣影響。想要實(shí)現(xiàn)對(duì)未登錄詞的自動(dòng)識(shí)別,目前來(lái)說(shuō)難度還較大,解決這類(lèi)問(wèn)題大多時(shí)候是靠人們對(duì)分詞水平和語(yǔ)言構(gòu)造的更深層次的了解。(2)歧義問(wèn)題對(duì)于中文文本中的某一段文字,時(shí)常會(huì)出現(xiàn)多種切分方法的情況,這種情況叫做切分歧義現(xiàn)象。中文文本分詞的過(guò)程并不是從文本中找詞語(yǔ)的過(guò)程,由于每個(gè)字與字之間都有多種切分可能,中文分詞需要選擇一個(gè)可能性最高、最符合實(shí)際情況的字與字組成詞語(yǔ),進(jìn)行切分。歧義切分是中文文本分詞中經(jīng)常會(huì)遇到的問(wèn)題,能否較好的處理歧義切分的問(wèn)題,是中文文本分詞中的關(guān)鍵一步。2.2.2文本去停用詞在信息搜索中,為了節(jié)約存儲(chǔ)空間,增加檢索水平,在處理文本時(shí),會(huì)過(guò)濾某些字詞,這些被過(guò)濾的詞就叫做停用詞。停用詞一共有兩種,一種是這些字詞本身沒(méi)有什么實(shí)際意義,只有在完整的句子中才有一定作用,因此去掉后不會(huì)對(duì)原文本的意思表達(dá)有太大影響,如語(yǔ)氣詞、連接詞、限定詞、擬聲詞等;還有一種詞使用范圍較為廣泛,若進(jìn)行檢索可能檢索到大量無(wú)用數(shù)據(jù),對(duì)這樣的詞計(jì)算機(jī)無(wú)法給出真正相關(guān)的檢索結(jié)果,難以縮小檢索范圍,造成檢索結(jié)果混亂,降低檢索效率,所以通常把這類(lèi)詞從文本中剔除,以提高檢索性能。停用詞的識(shí)別依據(jù)主要是停用詞表,而停用詞表是由人工輸入的、而非自動(dòng)形成的,因此如果使用的停用詞表不同,進(jìn)行分詞的結(jié)果可能造成一些不同。若針對(duì)具體業(yè)務(wù),可按照業(yè)務(wù)需要,專(zhuān)門(mén)整理出對(duì)此業(yè)務(wù)沒(méi)有意義的詞,以提高準(zhǔn)確率??偠灾ネS迷~需要根據(jù)目的決定哪些詞作為停用詞,理論上任何詞語(yǔ)都可以被選擇為停用詞,關(guān)鍵在于選中的詞匯是否對(duì)文本有實(shí)質(zhì)性的幫助。2.3文本分析技術(shù)2.3.1文本情感分析文本情感分析又叫做意見(jiàn)挖掘。通俗地講,就是對(duì)于給定的文本進(jìn)行有關(guān)情感偏向的分析,確定文本作者對(duì)所描述的事物持有的態(tài)度是積極態(tài)度還是消極態(tài)度。人們每天都要在社交網(wǎng)站或電商平臺(tái)上發(fā)表大量信息和帶有主觀色彩的評(píng)價(jià),對(duì)于新聞熱點(diǎn)、某件商品、某些服務(wù)的觀點(diǎn),潛在的表現(xiàn)出他們的好惡。而對(duì)于一些企業(yè)來(lái)說(shuō),通過(guò)人們帶有情感色彩的各項(xiàng)言論來(lái)了解大眾輿論對(duì)于他們自身產(chǎn)品的看法可以幫助他們更好的修正作品,增加用戶(hù)對(duì)產(chǎn)品的好感度,使其對(duì)產(chǎn)品信賴(lài)程度增加。較為常用的文本分析技術(shù)可以分為四類(lèi):關(guān)鍵詞識(shí)別、詞匯關(guān)聯(lián)、統(tǒng)計(jì)方法、概念級(jí)技術(shù)。關(guān)鍵詞識(shí)別是通過(guò)對(duì)文本中明確帶有情感偏向的影響詞的定位來(lái)進(jìn)行的,影響詞如高興、悲傷、憤怒、恐懼、焦灼等,是直接與情感相關(guān)的形容詞。詞匯關(guān)聯(lián)除了以上對(duì)關(guān)鍵詞的識(shí)別,還著力于尋找詞語(yǔ)和某種情緒之間的關(guān)聯(lián),即使這個(gè)詞語(yǔ)不帶有明顯的感情色彩,但如果它和某種情緒表達(dá)往往一同出現(xiàn),就表明該詞匯可能也帶有情感偏向。統(tǒng)計(jì)方法通過(guò)調(diào)用機(jī)器學(xué)習(xí)中的元素,如潛在語(yǔ)義分析、支持向量機(jī)等,用統(tǒng)計(jì)的方法對(duì)文本進(jìn)行綜合分析,探索詞語(yǔ)之間的深層結(jié)構(gòu)含義,得到與目標(biāo)關(guān)鍵詞語(yǔ)義相近的詞語(yǔ)。對(duì)于不同的語(yǔ)境,也許相同的詞語(yǔ)表現(xiàn)得含義也不盡相同,一些更智能的算法試圖模擬人們?cè)谥付ㄇ榫跋聦?duì)于某件事物的情感傾向,想要探索這種更高級(jí)的模式,需要對(duì)中文語(yǔ)法之間的關(guān)系有深入理解,語(yǔ)法之間的關(guān)聯(lián)性也需要更深度的剖析文本關(guān)系才能獲得。與上述簡(jiǎn)單的關(guān)鍵詞查找關(guān)聯(lián)不同,概念級(jí)的算法添加了知識(shí)表達(dá)的部分,如知識(shí)本體、語(yǔ)義網(wǎng)絡(luò),因此許多較為微妙的情感色彩可以由此被探索出來(lái)。

第3章需求分析3.1系統(tǒng)設(shè)計(jì)目標(biāo)結(jié)合實(shí)際需求和大學(xué)生心理健康的具體情況,利用計(jì)算機(jī)網(wǎng)絡(luò)技術(shù),設(shè)計(jì)一個(gè)符合心理健康教育的輔助教育網(wǎng)絡(luò)平臺(tái),系統(tǒng)將通過(guò)建立學(xué)生的心理健康檔案,動(dòng)態(tài)跟蹤學(xué)生的學(xué)習(xí)行為,健全心理危機(jī)干預(yù)機(jī)制,及早發(fā)現(xiàn)、干預(yù)和有效控制有嚴(yán)重心理障礙的學(xué)生。使心理健康教育與管理達(dá)到系統(tǒng)化、規(guī)范化,提高工作效率。3.2系統(tǒng)功能模塊分析根據(jù)系統(tǒng)主要設(shè)計(jì)目標(biāo),系統(tǒng)整體用例圖如下:心理測(cè)試數(shù)據(jù)采集心理測(cè)試數(shù)據(jù)采集學(xué)生學(xué)生心理評(píng)估測(cè)試分析心理評(píng)估測(cè)試分析心理測(cè)試心理測(cè)試數(shù)據(jù)采集數(shù)據(jù)采集微博文本微博文本數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理導(dǎo)師導(dǎo)師心理評(píng)估測(cè)試分析心理評(píng)估測(cè)試分析詞云可視化分析詞云可視化分析3.2.1數(shù)據(jù)采集模塊(1)心理測(cè)試數(shù)據(jù)采集:采用《SCL-90癥狀自評(píng)量表》作為心理衛(wèi)生評(píng)定工具收集心理測(cè)試數(shù)據(jù)。(2)微博數(shù)據(jù)采集:利用爬蟲(chóng)技術(shù)獲取輿情數(shù)據(jù)。(3)數(shù)據(jù)清理:重新審查校驗(yàn)數(shù)據(jù),清洗臟數(shù)據(jù),刪除重復(fù)信息和無(wú)效值,確立缺省值,保證數(shù)據(jù)一致性。(4)數(shù)據(jù)集成:針對(duì)不同的數(shù)據(jù)挖掘過(guò)程或目的形成特定的數(shù)據(jù)集。心理測(cè)試數(shù)據(jù)學(xué)生心理測(cè)試數(shù)據(jù)學(xué)生數(shù)據(jù)采集模塊數(shù)據(jù)采集模塊微博數(shù)據(jù)導(dǎo)師微博數(shù)據(jù)導(dǎo)師3.2.2數(shù)據(jù)預(yù)處理模塊(1)中文分詞:將大段的中文文本按照一定規(guī)則切分為詞語(yǔ)。(2)去停用詞:過(guò)濾去除沒(méi)有實(shí)際意義的功能詞,增加檢索效率。中文分詞中文分詞導(dǎo)師數(shù)據(jù)預(yù)處理模塊導(dǎo)師數(shù)據(jù)預(yù)處理模塊去停用詞去停用詞3.2.3測(cè)試分析模塊(1)數(shù)據(jù)采集:學(xué)生通過(guò)SCL-90癥狀自評(píng)量表測(cè)量心理健康狀況。(2)心理評(píng)估:根據(jù)心理測(cè)試得到的結(jié)果對(duì)當(dāng)前數(shù)據(jù)進(jìn)行評(píng)估。數(shù)據(jù)采集數(shù)據(jù)采集學(xué)生學(xué)生心理評(píng)估測(cè)試分析模塊心理評(píng)估測(cè)試分析模塊導(dǎo)師導(dǎo)師得出心理健康情況得出心理健康情況3.2.4可視化分析模塊(1)文本情感分析:對(duì)于給定的文本進(jìn)行情感偏向的分析,確定文本作者對(duì)描述的事物所持有的態(tài)度為積極態(tài)度還是消極態(tài)度。(2)詞云:用不同顏色、不同大小的表現(xiàn)類(lèi)型,直觀的表現(xiàn)出文本中出現(xiàn)頻率較高的關(guān)鍵詞與其詞頻高低。文本情感分析文本情感分析可視化分析模塊導(dǎo)師可視化分析模塊導(dǎo)師詞云詞云3.3其他需求3.3.1性能需求大學(xué)生心理健康輿情分析系統(tǒng)需要采集大量數(shù)據(jù),能夠滿(mǎn)足300名用戶(hù)同時(shí)訪(fǎng)問(wèn)。3.3.2設(shè)計(jì)約束心理健康作為培養(yǎng)大學(xué)生整體素質(zhì)的關(guān)鍵,需要嚴(yán)格符合國(guó)家標(biāo)準(zhǔn)。尤其是心理測(cè)試條目,本系統(tǒng)主要是對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)管理分析,所有心理測(cè)試平臺(tái)需要嚴(yán)格進(jìn)行篩選。

第4章大學(xué)生心理健康輿情分析系統(tǒng)設(shè)計(jì)本章首先給出系統(tǒng)的整體設(shè)計(jì),包括大學(xué)生心理輿情分析系統(tǒng)的處理流程和組織構(gòu)架。隨后介紹每個(gè)具體功能模塊的的設(shè)計(jì)方案,包括數(shù)據(jù)采集方案、測(cè)試分析方案、文本預(yù)處理方案、可視化分析方案。4.1系統(tǒng)整體設(shè)計(jì)4.1.1處理流程數(shù)據(jù)采集數(shù)據(jù)采集數(shù)據(jù)采集數(shù)據(jù)清洗文本預(yù)處理中文分詞停用詞過(guò)濾特征提取文本表示可視化分析情感分析可視化測(cè)試分析心理評(píng)估4.1.2組織構(gòu)架問(wèn)卷調(diào)查、微博數(shù)據(jù)問(wèn)卷調(diào)查、微博數(shù)據(jù)數(shù)據(jù)采集模塊數(shù)據(jù)預(yù)處理模塊可視化分析模塊數(shù)據(jù)庫(kù)詞云展示測(cè)試分析模塊心理評(píng)估大學(xué)生心理健康輿情分析系統(tǒng)可分為三個(gè)層次:存儲(chǔ)層、中間層、展示層。存儲(chǔ)層的主要構(gòu)成為數(shù)據(jù)庫(kù),任務(wù)就是儲(chǔ)存經(jīng)過(guò)數(shù)據(jù)采集的源數(shù)據(jù)及數(shù)據(jù)預(yù)處理的處理結(jié)果;中間層則是各個(gè)功能模塊,是系統(tǒng)的主要運(yùn)行部分;展示層則是直接面向用戶(hù)的層面,負(fù)責(zé)收集信息,展示結(jié)果。4.2數(shù)據(jù)采集方案本文數(shù)據(jù)采集的方法主要有三種,心理測(cè)試調(diào)查、網(wǎng)絡(luò)爬蟲(chóng)和微博API。心理測(cè)試采用《SCL-90癥狀自評(píng)量表》作為調(diào)查數(shù)據(jù)來(lái)源。本測(cè)試以16歲以上成人為測(cè)試目標(biāo),從軀體感覺(jué)、精神狀態(tài)、人際情感、思維意識(shí)、異常行為及睡眠飲食等多方面評(píng)定被測(cè)試者是否有某種心理問(wèn)題及其嚴(yán)重程度如何。本測(cè)試可以很好地區(qū)分被測(cè)試者是否存在心理障礙或是否處于心理障礙邊緣,對(duì)于檢測(cè)人群中可能有心理異常的人及其具體嚴(yán)重程度如何較為適用。若被測(cè)試者分?jǐn)?shù)較高,可能在某些方面有心理障礙,需要進(jìn)一步篩查確定,采取措施。4.3測(cè)試分析模塊測(cè)試一共90道題目,分為10個(gè)方向,包括軀體化癥狀表現(xiàn)、強(qiáng)迫癥狀表現(xiàn)、人際關(guān)系敏感癥狀表現(xiàn)、抑郁癥狀表現(xiàn)、焦慮癥狀表現(xiàn)、敵對(duì)癥狀表現(xiàn)、恐怖癥狀表現(xiàn)、偏執(zhí)癥狀表現(xiàn)、精神病性癥狀表現(xiàn)和其他癥狀表現(xiàn)。(1)軀體化癥狀:1題,4題,12題,27題,40題,42題,48題,49題,52題,53題,56題和58題,共12項(xiàng)。該項(xiàng)主要反映被測(cè)試者是否有主觀意識(shí)上的身體不適感。(2)強(qiáng)迫癥狀:3題,9題,10題,28題,38題,45題,46題,51題,55題和65題,共10項(xiàng)。該項(xiàng)主要反映被測(cè)試者是否有思維強(qiáng)迫和行為強(qiáng)迫的臨床表現(xiàn)。(3)人際關(guān)系敏感癥狀:6題,21題,34題,36題,37題,41題,61題,69題和73題,共9項(xiàng)。該項(xiàng)主要反映被測(cè)試者能否正確處理個(gè)人與他人關(guān)系,是否在人群中無(wú)法適應(yīng)。(4)抑郁癥狀:5題,14題,15題,20題,22題,26題,29題,30題,31題,32題,54題,71題和79題,共13項(xiàng)。該項(xiàng)主要反映被測(cè)試者是否負(fù)面情緒增加,情緒過(guò)于低沉,對(duì)自我價(jià)值評(píng)定過(guò)低。(5)焦慮癥狀:2題,17題,23題,33題,39題,57題,72題,78題,80題和86題,共10個(gè)項(xiàng)目。該項(xiàng)主要反映被測(cè)試者是否對(duì)未發(fā)生或已發(fā)生的事情產(chǎn)生莫名的擔(dān)憂(yōu)和煩躁情緒。(6)敵對(duì)癥狀:11題,24題,63題,67題,74題和81題,共6項(xiàng)。該項(xiàng)主要反映被測(cè)試者是否陷入與他人不相容的敵視、對(duì)抗他人的心理狀態(tài)中。(7)恐怖癥狀:13題,25題,47題,50題,70題,75題和82題,共7項(xiàng)。該項(xiàng)主要反映被測(cè)試者是否對(duì)特定情境產(chǎn)生強(qiáng)烈且莫名的恐怖心理。(8)偏執(zhí)癥狀:8題,18題,43題,68題,76題和83題,共6項(xiàng)。該項(xiàng)主要反映被測(cè)試者是否有曲解他人行為、懷疑為人利用、產(chǎn)生病態(tài)嫉妒等傾向。(9)精神病性:7題,16題,35題,62題,77題,84題,85題,87題,88題和90題,共10項(xiàng)。該項(xiàng)主要反映被測(cè)試者是否在環(huán)境影響下導(dǎo)致認(rèn)知發(fā)生障礙等精神問(wèn)題相關(guān)癥狀。(10)19題,44題,59題,60題,64題,66題及89題共7個(gè)項(xiàng)目,未能歸入上述因子,這些題目主要反映是否失眠、是否厭食等情況,不再另做分類(lèi),將之歸為10“其他”。從以上十個(gè)方面評(píng)估學(xué)生的心理狀態(tài),得出學(xué)生的心理健康情況。4.4數(shù)據(jù)預(yù)處理方案(1)分詞工具本文選擇jieba分詞系統(tǒng)作為分詞工具。jieba分詞是國(guó)內(nèi)環(huán)境中較為優(yōu)秀且較為常用的中文分詞工具,它支持三種模式:①精確模式:將句子中的詞語(yǔ)精準(zhǔn)的分割,每個(gè)詞語(yǔ)只會(huì)有一種分割形式,無(wú)冗余詞匯。②全模式:將句子中每個(gè)詞以盡可能多的可能性劃分出來(lái),每個(gè)詞用到不止一次,存在冗余。③搜索引擎模式:對(duì)于全模式的各種可能性以某種順序進(jìn)行排列,使分詞結(jié)果更有次序。jieba分詞主要運(yùn)用以下幾種算法:①利用詞典快速進(jìn)行掃描,找出文本中所有可能構(gòu)成詞語(yǔ)的情況,構(gòu)造一個(gè)有向無(wú)環(huán)圖。②基于動(dòng)態(tài)規(guī)劃查詢(xún)概率最大的路徑,找出根據(jù)詞頻高低決定的最大切分組合。③對(duì)于未登錄詞,選擇以中文構(gòu)詞能力為基礎(chǔ)的HMM模型,同時(shí)采用Viterbi算法對(duì)文本進(jìn)行運(yùn)算。④利用Viterbi算法對(duì)分詞后的詞語(yǔ)進(jìn)行詞性標(biāo)注;⑤利用tf-idf技術(shù)和textrank模型對(duì)關(guān)鍵詞進(jìn)行抽?。唬?)停用詞過(guò)濾同時(shí)考慮微博文本特點(diǎn)和輿情分析實(shí)際需要兩方面,本文決定采用以下去停用詞策略:·基于詞性·基于長(zhǎng)度·基于內(nèi)容4.5可視化分析模塊本文運(yùn)用snowNLP進(jìn)行情感分類(lèi)。大部分語(yǔ)言處理庫(kù)都對(duì)英文進(jìn)行處理,SnowNLP是用python編寫(xiě)的一個(gè)針對(duì)中文處理的類(lèi)庫(kù),方便對(duì)中文文本內(nèi)容進(jìn)行處理,這個(gè)類(lèi)庫(kù)是受到了TextBlob的啟發(fā)而寫(xiě)的,但和textblob不同,snowNLP沒(méi)有用到NLTK。運(yùn)用SnowNLP庫(kù)對(duì)分詞后的文本進(jìn)行情感分類(lèi),情感>0.96判為積極詞,情感<0.06判為消極詞。

第5章大學(xué)生心理健康輿情分析系統(tǒng)實(shí)現(xiàn)5.1學(xué)生功能模塊進(jìn)入系統(tǒng)首先需要登錄,輸入正確的賬號(hào)密碼后,選擇學(xué)生端登錄。5.1.1心理測(cè)試模塊學(xué)生進(jìn)行登錄后,可進(jìn)入心理測(cè)試模塊進(jìn)行《SCL-90癥狀自評(píng)量表》的心理測(cè)試,每個(gè)項(xiàng)目采取1-5級(jí)評(píng)分,從無(wú)為0分,很輕為1分,中等為2分,偏重為3分,嚴(yán)重為4分,最后根據(jù)測(cè)試標(biāo)準(zhǔn)判定測(cè)試結(jié)果。完成全部試題后點(diǎn)擊提交。5.1.2測(cè)試結(jié)果模塊學(xué)生完成測(cè)試確認(rèn)提交后,即可進(jìn)入測(cè)試結(jié)果模塊查看自己的測(cè)試結(jié)果,測(cè)試結(jié)果分為各項(xiàng)項(xiàng)癥狀評(píng)定和總分評(píng)定。根據(jù)《SCL-90癥狀自評(píng)量表》測(cè)試標(biāo)準(zhǔn),軀體化部分得分為12-60,分?jǐn)?shù)<24癥狀表現(xiàn)不明顯,≥36有較為明顯癥狀;強(qiáng)迫部分得分為10-50,分?jǐn)?shù)<20癥狀表現(xiàn)不明顯,≥30有較為明顯癥狀;人際關(guān)系部分得分為9-45,分?jǐn)?shù)<18癥狀表現(xiàn)不明顯,≥27有較為明顯癥狀;抑郁部分得分為13-65,分?jǐn)?shù)<26癥狀表現(xiàn)不明顯,≥39有較為明顯癥狀;焦慮部分得分為10-50,分?jǐn)?shù)<20癥狀表現(xiàn)不明顯,≥30有較為明顯癥狀;敵對(duì)部分得分為6-30,分?jǐn)?shù)<12癥狀表現(xiàn)不明顯,≥18有較為明顯癥狀;恐怖部分得分為7-35,分?jǐn)?shù)<14癥狀表現(xiàn)不明顯,≥21有較為明顯癥狀;偏執(zhí)部分得分為6-30,分?jǐn)?shù)<12癥狀表現(xiàn)不明顯,≥18有較為明顯癥狀;精神病性部分得分為10-50,分?jǐn)?shù)<20癥狀表現(xiàn)不明顯,≥30有較為明顯癥狀;其他部分得分為7-35,分?jǐn)?shù)<14癥狀表現(xiàn)不明顯,≥21有較為明顯癥狀。若總分分?jǐn)?shù)<160,心理狀態(tài)較為健康;若總分分?jǐn)?shù)≥160,則存在一定的心理問(wèn)題,需要進(jìn)行進(jìn)一步的心理輔導(dǎo)。5.2導(dǎo)師功能模塊輸入正確的賬號(hào)密碼后,選擇教師端登錄。5.2.1測(cè)試結(jié)果統(tǒng)計(jì)模塊導(dǎo)師進(jìn)行登錄后直接進(jìn)入測(cè)試結(jié)果統(tǒng)計(jì)模塊,此模塊可查看參與測(cè)試的總?cè)藬?shù)與未合格人數(shù),所有參與測(cè)試的學(xué)生的測(cè)試結(jié)果以各項(xiàng)屬性分別展示,同時(shí)按照總分降序的順序展現(xiàn),使導(dǎo)師能對(duì)心理問(wèn)題較嚴(yán)重的學(xué)生優(yōu)先關(guān)注。5.2.2數(shù)據(jù)獲取模塊對(duì)于心理測(cè)試不合格的同學(xué),導(dǎo)師可以通過(guò)搜索其微博ID對(duì)其微博文本內(nèi)容及相關(guān)信息進(jìn)行爬取查看。此部分運(yùn)用python爬蟲(chóng)技術(shù)爬取該同學(xué)18年1月1日至今所有公開(kāi)原創(chuàng)微博。5.2.3詞頻統(tǒng)計(jì)模塊對(duì)于爬取到的微博原文本,需要先利用jieba分詞工具對(duì)文本進(jìn)行中文分詞并統(tǒng)計(jì)詞頻,并保存為csv文件。5.2.4可視化模塊對(duì)于分詞后得到的內(nèi)容,運(yùn)用wordcloud工具進(jìn)行可視化加工,以詞云的形式展示給導(dǎo)師,方面導(dǎo)師更直觀地了解此學(xué)生微博文本的關(guān)鍵詞與詞頻。5.2.5情感分類(lèi)模塊對(duì)于分詞后的內(nèi)容還可以利用snowNLP進(jìn)行情感分類(lèi),snowNLP是一個(gè)人為建立的python情感庫(kù),根據(jù)情感>0.96判為積極詞,情感<0.06判為消極詞的判定標(biāo)準(zhǔn)對(duì)詞語(yǔ)進(jìn)行自動(dòng)分類(lèi),但此庫(kù)現(xiàn)在的訓(xùn)練數(shù)據(jù)主要是電商方面的評(píng)價(jià),所以對(duì)其他方面可能效果不是很好。最后同樣以詞云的形式分別輸出消極詞語(yǔ)與積極詞語(yǔ)。5.3開(kāi)發(fā)與運(yùn)行環(huán)境配置(1)開(kāi)發(fā)環(huán)境開(kāi)發(fā)工具:visualstadio.net2013/python2.7開(kāi)發(fā)語(yǔ)言:c#語(yǔ)言/python數(shù)據(jù)庫(kù)環(huán)境:sqlsever(2)運(yùn)行環(huán)境操作系統(tǒng):Windows7遵守協(xié)議:UDP、TCP/IP信息服務(wù)管理器:IIS7.0

結(jié)語(yǔ)隨著社會(huì)的發(fā)展和進(jìn)步,心理素質(zhì)越發(fā)重要,而大學(xué)生作為社會(huì)和國(guó)家未來(lái)的主力軍,其更需要擁有一個(gè)良好的心理素質(zhì)。本文正是以其為出發(fā)點(diǎn),設(shè)計(jì)大學(xué)生心理健康輿情分析系統(tǒng),試圖能夠輔助心理輔導(dǎo)人員處理好大學(xué)生的心理健康問(wèn)題。本文是在查閱大量的國(guó)內(nèi)外數(shù)據(jù)挖掘技術(shù)在心理健康問(wèn)題中應(yīng)用的相關(guān)文獻(xiàn)資料的基礎(chǔ)上,設(shè)計(jì)了一個(gè)大學(xué)生心理健康輿情分析系統(tǒng)。其中的主要工作內(nèi)容如下:(1)該系統(tǒng)運(yùn)用問(wèn)卷、爬蟲(chóng)和微博API收集了大量的大學(xué)生心理測(cè)試相關(guān)數(shù)據(jù),并用分詞、停用詞過(guò)濾等技術(shù)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理;(2)系統(tǒng)采用文本情感分析和聚類(lèi)算法對(duì)這些數(shù)據(jù)進(jìn)行詳細(xì)分析,由此判斷每個(gè)大學(xué)生的心理健康狀況。對(duì)于今后的工作,主要從以下幾方面進(jìn)行擴(kuò)展:(1)更加深入地了解輿情分析工作,選擇有針對(duì)性的優(yōu)化網(wǎng)絡(luò)爬蟲(chóng)的算法,提高其抽取信息精確度。(2)可以研究主題爬蟲(chóng)在輿情信息采集過(guò)程的應(yīng)用問(wèn)題,使用中文分詞、本體庫(kù)分析等技術(shù),可以提高對(duì)輿情信息的識(shí)別率和有效采集率。(3)可采用關(guān)聯(lián)規(guī)則算法挖掘心理問(wèn)題與每個(gè)屬性之間的內(nèi)在的關(guān)聯(lián),從而為決策者提供比較可靠的依據(jù)。

捷鍵與一些電腦小技巧HYPERLINKwinkey+d:

這是高手最常用的第一快捷組合鍵。這個(gè)快捷鍵組合可以將桌面上的所有窗口瞬間最小化,無(wú)論是聊天的窗口還是游戲的窗口……只要再次按下這個(gè)組合鍵,剛才的所有窗口都回來(lái)了,而且激活的也正是你最小化之前在使用的窗口!

--這個(gè)就是winkeywinkey+f:

不用再去移動(dòng)鼠標(biāo)點(diǎn)“開(kāi)始→搜索→文件和文件夾”了,在任何狀態(tài)下,只要一按winkey+f就會(huì)彈出搜索窗口。

winkey+r:

在我們的文章中,你經(jīng)常會(huì)看到這樣的操作提示:“點(diǎn)擊‘開(kāi)始→運(yùn)行’,打開(kāi)‘運(yùn)行’對(duì)話(huà)框……”。其實(shí),還有一個(gè)更簡(jiǎn)單的辦法,就是按winkey+r!

alt+tab:

如果打開(kāi)的窗口太多,這個(gè)組合鍵就非常有用了,它可以在一個(gè)窗口中顯示當(dāng)前打開(kāi)的所有窗口的名稱(chēng)和圖標(biāo)●,選中自己希望要打開(kāi)的窗口,松開(kāi)這個(gè)組合鍵就可以了。而alt+tab+shift鍵則可以反向顯示當(dāng)前打開(kāi)的窗口。

winkey+e:

當(dāng)你需要打開(kāi)資源管理器找文件的時(shí)候,這個(gè)快捷鍵會(huì)讓你感覺(jué)非?!八?!再也不用騰出一只手去摸鼠標(biāo)了!

小提示:

winkey指的是鍵盤(pán)上刻有windows徽標(biāo)的鍵●。winkey主要出現(xiàn)在104鍵和107鍵的鍵盤(pán)中。104鍵盤(pán)又稱(chēng)win95鍵盤(pán),這種鍵盤(pán)在原來(lái)101鍵盤(pán)的左右兩邊、ctrl和alt鍵之間增加了兩個(gè)windwos鍵和一個(gè)屬性關(guān)聯(lián)鍵。107鍵盤(pán)又稱(chēng)為win98鍵盤(pán),比104鍵多了睡眠、喚醒、開(kāi)機(jī)等電源管理鍵,這3個(gè)鍵大部分位于鍵盤(pán)的右上方。

再補(bǔ)充點(diǎn)

F1顯示當(dāng)前程序或者windows的幫助內(nèi)容。

F2當(dāng)你選中一個(gè)文件的話(huà),這意味著“重命名”

F3當(dāng)你在桌面上的時(shí)候是打開(kāi)“查找:所有文件”對(duì)話(huà)框

F10或ALT激活當(dāng)前程序的菜單欄

windows鍵或CTRL+ESC打開(kāi)開(kāi)始菜單

CTRL+ALT+DELETE在win9x中打開(kāi)關(guān)閉程序?qū)υ?huà)框

DELETE刪除被選擇的選擇項(xiàng)目,如果是文件,將被放入回收站

SHIFT+DELETE刪除被選擇的選擇項(xiàng)目,如果是文件,將被直接刪除而不是

放入回收站

CTRL+N新建一個(gè)新的文件

CTRL+O打開(kāi)“打開(kāi)文件”對(duì)話(huà)框

CTRL+P打開(kāi)“打印”對(duì)話(huà)框

CTRL+S保存當(dāng)前操作的文件

CTRL+X剪切被選擇的項(xiàng)目到剪貼板

CTRL+INSERT或CTRL+C復(fù)制被選擇的項(xiàng)目到剪貼板

SHIFT+INSERT或CTRL+V粘貼剪貼板中的內(nèi)容到當(dāng)前位置

ALT+BACKSPACE或CTRL+Z撤銷(xiāo)上一步的操作

ALT+SHIFT+BACKSPACE重做上一步被撤銷(xiāo)的操作

Windows鍵+D:最小化或恢復(fù)windows窗口

Windows鍵+U:打開(kāi)“輔助工具管理器”

Windows鍵+CTRL+M重新將恢復(fù)上一項(xiàng)操作前窗口的大小和位置

Windows鍵+E打開(kāi)資源管理器

Windows鍵+F打開(kāi)“查找:所有文件”對(duì)話(huà)框

Windows鍵+R打開(kāi)“運(yùn)行”對(duì)話(huà)框

Windows鍵+BREAK打開(kāi)“系統(tǒng)屬性”對(duì)話(huà)框

Windows鍵+CTRL+F打開(kāi)“查找:計(jì)算機(jī)”對(duì)話(huà)框

SHIFT+F10或鼠標(biāo)右擊打開(kāi)當(dāng)前活動(dòng)項(xiàng)目的快捷菜單

SHIFT在放入CD的時(shí)候按下不放,可以跳過(guò)自動(dòng)播放CD。在打開(kāi)wo

rd的時(shí)候按下不放,可以跳過(guò)自啟動(dòng)的宏

ALT+F4關(guān)閉當(dāng)前應(yīng)用程序

ALT+SPACEBAR打開(kāi)程序最左上角的菜單

ALT+TAB切換當(dāng)前程序

ALT+ESC切換當(dāng)前程序

ALT+ENTER將windows下運(yùn)行的MSDOS窗口在窗口和全屏幕狀態(tài)間切換

PRINTSCREEN將當(dāng)前屏幕以圖象方式拷貝到剪貼板

ALT+PRINTSCREEN將當(dāng)前活動(dòng)程序窗口以圖象方式拷貝到剪貼板

CTRL+F4關(guān)閉當(dāng)前應(yīng)用程序中的當(dāng)前文本(如word中)

CTRL+F6切換到當(dāng)前應(yīng)用程序中的下一個(gè)文本(加shift可以跳到前

一個(gè)窗口)

在IE中:

ALT+RIGHTARROW顯示前一頁(yè)(前進(jìn)鍵)

ALT+LEFTARROW顯示后一頁(yè)(后退鍵)

CTRL+TAB在頁(yè)面上的各框架中切換(加shift反向)

F5刷新

CTRL+F5強(qiáng)行刷新1.打開(kāi)“我的電腦”-“工具”-“文件夾選項(xiàng)”-“查看”-在“顯示所有文件和文件夾”選項(xiàng)前打勾-“確定”

2.刪除以下文件夾中的內(nèi)容:

x:\DocumentsandSettings\用戶(hù)名\Cookies\下的所有文件(保留index文件)

x:\DocumentsandSettings\用戶(hù)名\LocalSettings\Temp\下的所有文件(用戶(hù)臨時(shí)文件)

x:\DocumentsandSettings\用戶(hù)名\LocalSettings\TemporaryInternetFiles\下的所有文件(頁(yè)面文件)

x:\DocumentsandSettings\用戶(hù)名\LocalSettings\History\下的所有文件(歷史紀(jì)錄)

x:\DocumentsandSettings\用戶(hù)名\Recent\下的所有文件(最近瀏覽文件的快捷方式)

x:\WINDOWS\Temp\下的所有文件(臨時(shí)文件)

x:\WINDOWS\ServicePackFiles(升級(jí)sp1或sp2后的備份文件)

x:\WINDOWS\DriverCache\i386下的壓縮文件(驅(qū)動(dòng)程序的備份文件)

x:\WINDOWS\SoftwareDistribution\download下的所有文件

3.如果對(duì)系統(tǒng)進(jìn)行過(guò)windoesupdade升級(jí),則刪除以下文件:x:\windows\下以$u...開(kāi)頭的隱藏文件

4.然后對(duì)磁盤(pán)進(jìn)行碎片整理,整理過(guò)程中請(qǐng)退出一切正在運(yùn)行的程序

5.碎片整理后打開(kāi)“開(kāi)始”-“程序”-“附件”-“系統(tǒng)工具”-“系統(tǒng)還原”-“創(chuàng)建一個(gè)還原點(diǎn)”(最好以當(dāng)時(shí)的日期作為還原點(diǎn)的名字)

6.打開(kāi)“我的電腦”-右鍵點(diǎn)系統(tǒng)盤(pán)-“屬性”-“磁盤(pán)清理”-“其他選項(xiàng)”-單擊系統(tǒng)還原一欄里的“清理”-選擇“是”-ok了

7、在各種軟硬件安裝妥當(dāng)之后,其實(shí)XP需要更新文件的時(shí)候就很少了。刪除系統(tǒng)備份文件吧:開(kāi)始→運(yùn)行→sfc.exe/purgecache近3xxM。(該命令的作用是立即清除"Windows文件保護(hù)"文件高速緩存,釋放出其所占據(jù)的空間)

8、刪掉\windows\system32\dllcache下dll檔(減去200——300mb),這是備用的dll檔,只要你已拷貝了安裝文件,完全可以這樣做。

9、XP會(huì)自動(dòng)備份硬件的驅(qū)動(dòng)程序,但在硬件的驅(qū)動(dòng)安裝正確后,一般變動(dòng)硬件的可能性不大,所以也可以考慮將這個(gè)備份刪除,文件位于\windows\drivercache\i386目錄下,名稱(chēng)為driver.cab,你直接將它刪除就可以了,通常這個(gè)文件是74M。

10、刪除不用的輸入法:對(duì)很多網(wǎng)友來(lái)說(shuō),WindowsXPt系統(tǒng)自帶的輸入法并不全部都合適自己的使用,比如IMJP8_1日文輸入法、IMKR6_1韓文輸入法這些輸入法,如果用不著,我們可以將其刪除。輸入法位于\windows\ime\文件夾中,全部占用了88M的空間。

11、升級(jí)完成發(fā)現(xiàn)windows\多了許多類(lèi)似$NtUninstallQ311889$這些目錄,都干掉吧,1x-3xM

12、另外,保留著\windows\help目錄下的東西對(duì)我來(lái)說(shuō)是一種傷害,呵呵。。。都干掉!

13、關(guān)閉系統(tǒng)還原:系統(tǒng)還原功能使用的時(shí)間一長(zhǎng),就會(huì)占用大量的硬盤(pán)空間。因此有必要對(duì)其進(jìn)行手工設(shè)置,以減少硬盤(pán)占用量。打開(kāi)"系統(tǒng)屬性"對(duì)話(huà)框,選擇"系統(tǒng)還原"選項(xiàng),選擇"在所有驅(qū)動(dòng)器上關(guān)閉系統(tǒng)還原"復(fù)選框以關(guān)閉系統(tǒng)還原。也可僅對(duì)系統(tǒng)所在的磁盤(pán)或分區(qū)設(shè)置還原。先選擇系統(tǒng)所在的分區(qū),單擊"配置"按鈕,在彈出的對(duì)話(huà)框中取消"關(guān)閉這個(gè)驅(qū)動(dòng)器的系統(tǒng)還原"選項(xiàng),并可設(shè)置用于系統(tǒng)還原的磁盤(pán)空間大小。

14、休眠功能會(huì)占用不少的硬盤(pán)空間,如果使用得少不妨將共關(guān)閉,關(guān)閉的方法是的:打開(kāi)"控制面板",雙擊"電源選項(xiàng)",在彈出的"電源選項(xiàng)屬性"對(duì)話(huà)框中選擇"休眠"選項(xiàng)卡,取消"啟用休眠"復(fù)選框。

15、卸載不常用組件:XP默認(rèn)給操作系統(tǒng)安裝了一些系統(tǒng)組件,而這些組件有很大一部分是你根本不可能用到的,可以在"添加/刪除Windows組件"中將它們卸載。但其中有一些組件XP默認(rèn)是隱藏的,在"添加/刪除Windows組件"中找不到它們,這時(shí)可以這樣操作:用記事本打開(kāi)\windows\inf\sysoc.inf這個(gè)文件,用查找/替換功能把文件中的"hide"字符全部替換為空。這樣,就把所有組件的隱藏屬性都去掉了,存盤(pán)退出后再運(yùn)行"添加-刪除程序",就會(huì)看見(jiàn)多出不少你原來(lái)看不見(jiàn)的選項(xiàng),把其中那些你用不到的組件刪掉(記住存盤(pán)的時(shí)候要保存為sysoc.inf,而不是默認(rèn)的sysoc.txt),如Internat信使服務(wù)、傳真服務(wù)、Windowsmessenger,碼表等,大約可騰出近50MB的空間。

16、清除系統(tǒng)臨時(shí)文件:系統(tǒng)的臨時(shí)文件一般存放在兩個(gè)位置中:一個(gè)Windows安裝目錄下的Temp文件夾;另一個(gè)是x:\DocumentsandSettings"用戶(hù)名"\LocalSettings\Temp文件夾(Y:是系統(tǒng)所在的分區(qū))。這兩個(gè)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論