基于互聯(lián)網(wǎng)信息的游客網(wǎng)絡(luò)局部社區(qū)挖掘_第1頁(yè)
基于互聯(lián)網(wǎng)信息的游客網(wǎng)絡(luò)局部社區(qū)挖掘_第2頁(yè)
基于互聯(lián)網(wǎng)信息的游客網(wǎng)絡(luò)局部社區(qū)挖掘_第3頁(yè)
基于互聯(lián)網(wǎng)信息的游客網(wǎng)絡(luò)局部社區(qū)挖掘_第4頁(yè)
基于互聯(lián)網(wǎng)信息的游客網(wǎng)絡(luò)局部社區(qū)挖掘_第5頁(yè)
已閱讀5頁(yè),還剩11頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 基于互聯(lián)網(wǎng)信息的游客網(wǎng)絡(luò)局部社區(qū)挖掘 王碩Summary:為了解決游客社會(huì)網(wǎng)絡(luò)中游客分類的問(wèn)題,本文利用互聯(lián)網(wǎng)信息中的圖片,文本,數(shù)值多種類型的數(shù)據(jù)進(jìn)行基于旅游的游客社會(huì)網(wǎng)絡(luò)的權(quán)值計(jì)算,并利用修改后的PageRank算法和修改后的局部社區(qū)適應(yīng)度函數(shù)來(lái)進(jìn)行中心點(diǎn)的選取和局部社區(qū)的拓展。得到了基于旅游的游客社會(huì)網(wǎng)絡(luò)和游客局部社區(qū),得到的游客局部社區(qū)可以有效地發(fā)現(xiàn)游客間的社會(huì)關(guān)系,同時(shí)也為數(shù)據(jù)挖掘在旅游業(yè)上的應(yīng)用提供了新思路。Key:互聯(lián)網(wǎng)信息;旅游;游客社會(huì)網(wǎng)絡(luò);局部社區(qū)挖掘:TP311 :A文章編號(hào):1009-3044(2019)26-0023-04開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):Ab

2、stract: in order to solve the visitors social network classification problem, this paper use the Internet information in images, text, numerical multiple types of data to calculate the tourists social network weights based on developing and using the modified PageRank algorithm and the modified loca

3、l community fitness function to the center point of the selection and the local community. Based on the tourists social network and tourists local community, the tourist local community can effectively discover the social relationship between tourists, and also provides a new idea for data mining in

4、 tourism application.Key words: Internet information; Tourism; Tourist social network; local community mining1 引言隨著社會(huì)和經(jīng)濟(jì)的發(fā)展,人民的生活水平逐漸提高,生活內(nèi)容也日漸豐富。隨著人民的生活變得豐富多彩,人們開(kāi)始喜歡走出家門出去看看,“旅游”成為現(xiàn)代生活的一個(gè)熱門話題。在傳統(tǒng)的旅游業(yè)中,人們對(duì)旅游景點(diǎn)的接觸,大多來(lái)自旅行社和電視上播放的旅游廣告,消息來(lái)源匱乏,這樣一來(lái)人們往往得不到自己想要的信息和想去的旅游景點(diǎn)。而在旅游景區(qū)這方面,游客的信息資源利用率較低,分析手段匱乏,導(dǎo)致旅游

5、景區(qū)對(duì)景區(qū)未來(lái)的規(guī)劃和發(fā)展沒(méi)有足夠明智的目標(biāo),這是傳統(tǒng)旅游業(yè)的一個(gè)痛點(diǎn)。伴隨著互聯(lián)網(wǎng)的普及和國(guó)家大力發(fā)展互聯(lián)網(wǎng)+,互聯(lián)網(wǎng)+傳統(tǒng)產(chǎn)業(yè)開(kāi)始興起,在這樣的背景下,互聯(lián)網(wǎng)+旅游在這幾年也開(kāi)始興起。為給游客們提供越來(lái)越人性化的服務(wù),給旅游公司和部門提供景區(qū)發(fā)展的指導(dǎo)和景區(qū)興衰的分析,不少人開(kāi)始對(duì)互聯(lián)網(wǎng)+旅游進(jìn)行研究。樊瑋等1通過(guò)旅游公司提供的游客信息:兩個(gè)游客的共游次數(shù)、兩個(gè)游客共同旅游的平均消費(fèi)金額、兩個(gè)游客平均兩次共同旅游時(shí)間差,利用社會(huì)網(wǎng)絡(luò)分析方法和改進(jìn)的PageRank算法,提出了一種新的旅游游客社會(huì)網(wǎng)絡(luò)局部社區(qū)挖掘方法,利用這個(gè)方法可以有效地發(fā)現(xiàn)游客之間的局部社區(qū)關(guān)系。張子昂等人2利用互聯(lián)網(wǎng)數(shù)

6、據(jù),基于新浪微博的簽到數(shù)據(jù),對(duì)景區(qū)旅游活動(dòng)時(shí)空行為特征進(jìn)行研究。通過(guò)劃分性別和地域兩種游客屬性,利用“橫向”“縱向”時(shí)間分層法,借助核密度函數(shù)對(duì)景區(qū)內(nèi)部游客活動(dòng)時(shí)空特征進(jìn)行了分析,從而可以發(fā)現(xiàn)不同性別,不同地域游客活動(dòng)的時(shí)空演變規(guī)律。廉同輝等人3基于信息內(nèi)容對(duì)微博信息中的旅游主題進(jìn)行了分析。高新波等4基于社會(huì)媒體對(duì)當(dāng)今的“互聯(lián)網(wǎng)+旅游”進(jìn)行了總結(jié),分析和討論了目前“互聯(lián)網(wǎng)+旅游”的研究背景和發(fā)展歷程,分析了目前社會(huì)媒體中旅游數(shù)據(jù)的特點(diǎn)和“互聯(lián)網(wǎng)+旅游”背景下的熱點(diǎn)研究應(yīng)用和難點(diǎn),在難點(diǎn)方面,互聯(lián)網(wǎng)數(shù)據(jù)中數(shù)據(jù)種類繁多,包括,圖片、視頻、文本、數(shù)值等多種存在形式。文獻(xiàn)1,2中對(duì)互聯(lián)網(wǎng)數(shù)據(jù)的利用僅在

7、于文本數(shù)據(jù),即新浪微博的簽到數(shù)據(jù)和旅游微博發(fā)布的文本消息。而實(shí)際互聯(lián)網(wǎng)上的數(shù)據(jù)不只有文本,微博也涵蓋了圖片,視頻,音頻等多種數(shù)據(jù),游客發(fā)布的微博不僅有文本消息,還可能有會(huì)圖片和視頻等。二者的研究中都沒(méi)有使用這些數(shù)據(jù),僅僅利用了文本數(shù)據(jù)。所以分析出的結(jié)果的參考價(jià)值會(huì)比利用多用數(shù)據(jù)形式的分析出的結(jié)果的參考價(jià)值低很多。本文結(jié)合上述文獻(xiàn)的研究方法,提出了利用多種互聯(lián)網(wǎng)信息對(duì)游客社會(huì)網(wǎng)絡(luò)進(jìn)行局部社區(qū)挖掘的方法,將互聯(lián)網(wǎng)數(shù)據(jù)中的圖片數(shù)據(jù)結(jié)合傳統(tǒng)的文本數(shù)據(jù),數(shù)值數(shù)據(jù),利用不同游客間景區(qū)的重疊數(shù)量,不同游客照片的相似度,對(duì)游客社會(huì)網(wǎng)絡(luò)的各節(jié)點(diǎn)間邊的權(quán)值設(shè)計(jì)一個(gè)新的算法,重新定義局部社區(qū)拓展時(shí)的適應(yīng)度函數(shù),來(lái)進(jìn)

8、行旅游社會(huì)網(wǎng)絡(luò)游客的局部社區(qū)挖掘。和文獻(xiàn)1的研究相比較,本文的權(quán)值計(jì)算公式是利用互聯(lián)網(wǎng)數(shù)據(jù),互聯(lián)網(wǎng)的數(shù)據(jù)量要比傳統(tǒng)記錄的數(shù)據(jù)量要大得多,分析的結(jié)果的參考的價(jià)值也就要大,在局部社區(qū)的拓展公式中,本文提出了以權(quán)值為基礎(chǔ)的適應(yīng)度函數(shù),而文獻(xiàn)1所利用的是以節(jié)點(diǎn)度數(shù)為基礎(chǔ)的適應(yīng)度函數(shù),在權(quán)值越大,兩個(gè)節(jié)點(diǎn)越有可能有關(guān)系的前期下,本文提出的適應(yīng)度函數(shù)更加的適用,且得到的社區(qū)也更加的合理;本文多種數(shù)據(jù)存在形式,和利用單一的數(shù)據(jù)相比,分析出的結(jié)果更具價(jià)值,得到的信息也更加的值得參考。綜上所述,本文將利用互聯(lián)網(wǎng)信息生成基于旅游的游客社會(huì)網(wǎng)絡(luò),并通過(guò)修改后的PageRank算法進(jìn)行中心度排名并選取中心節(jié)點(diǎn),利用改

9、進(jìn)的適應(yīng)度函數(shù)進(jìn)行局部社區(qū)拓展,最終得到基于旅游的游客局部社區(qū)。2 基于旅游的社會(huì)網(wǎng)絡(luò)生成文章采用了文獻(xiàn)1中的社會(huì)網(wǎng)絡(luò)定義及相關(guān)概念?;诼糜蔚纳鐣?huì)網(wǎng)絡(luò)指的是游客社會(huì)網(wǎng)絡(luò),游客社會(huì)網(wǎng)絡(luò)是一種以游客為節(jié)點(diǎn),游客間的社會(huì)關(guān)系作為邊的網(wǎng)狀結(jié)構(gòu)。以下便是對(duì)游客社會(huì)網(wǎng)絡(luò)的生成,其中InformationList表存儲(chǔ)的是游客的信息,NodeList表存儲(chǔ)的是游客社會(huì)網(wǎng)絡(luò)的節(jié)點(diǎn)信息,EdgeList表存儲(chǔ)的是游客社會(huì)網(wǎng)絡(luò)中節(jié)點(diǎn)間邊的信息,具體的游客社會(huì)網(wǎng)絡(luò)生成過(guò)程如下:2.1 數(shù)據(jù)來(lái)源說(shuō)明本文所采用的數(shù)據(jù)均來(lái)自某App,采集的數(shù)據(jù)包括游客的賬號(hào)ID,游客的基本信息,如:性別,年齡,姓名等,游客旅游過(guò)的景點(diǎn)

10、的信息,以及旅游過(guò)的景區(qū)所拍攝的照片及其信息。2.2 數(shù)據(jù)預(yù)處理由于得到的數(shù)據(jù)結(jié)構(gòu)混亂,存在冗余信息和較多的無(wú)價(jià)值信息,需要對(duì)得到的數(shù)據(jù)進(jìn)行預(yù)處理,預(yù)處理的條件如下:(1) 去除沒(méi)有景區(qū)記錄的游客賬戶信息及其相關(guān)數(shù)據(jù)。(2) 去除一年之內(nèi)沒(méi)有登陸的賬戶信息及其相關(guān)數(shù)據(jù)。(3) 去除最近一個(gè)月內(nèi)注冊(cè)的賬戶信息及其相關(guān)數(shù)據(jù)。(4) 只有賬戶的ID,其余信息,如:性別,年齡,姓名等全部缺失的賬號(hào),需要去除。經(jīng)過(guò)以上的預(yù)處理,將原本收集到的9076條游客信息記錄篩選到4396條。2.3 游客社會(huì)網(wǎng)絡(luò)節(jié)點(diǎn)的生成游客社會(huì)網(wǎng)絡(luò)中每一個(gè)節(jié)點(diǎn)代表的是一個(gè)游客,一個(gè)節(jié)點(diǎn)包括,游客賬號(hào)信息、游客的姓名、游客旅游過(guò)的

11、景區(qū)的信息,這些節(jié)點(diǎn)存儲(chǔ)在NodeList表。圖1是對(duì)游客社會(huì)網(wǎng)絡(luò)的節(jié)點(diǎn)的生成步驟。2.4 游客社會(huì)網(wǎng)絡(luò)邊的生成和權(quán)值的計(jì)算2.4.1 游客社會(huì)網(wǎng)絡(luò)的邊游客社會(huì)網(wǎng)絡(luò)的邊表示游客間存在之間的關(guān)系,如果兩個(gè)或者兩個(gè)以上的游客所旅游過(guò)的景區(qū)存在重合的部分,則表示他們?cè)谕宦糜蔚芈糜芜^(guò),在本文中,認(rèn)為如果兩個(gè)游客旅游過(guò)的景區(qū)的并集不為空,則表示他們之間很可能存在關(guān)系,且如果符合篩選條件,則在游客社會(huì)網(wǎng)絡(luò)中,用一條邊,把這兩個(gè)節(jié)點(diǎn)聯(lián)系起來(lái)。2.4.2 游客社會(huì)網(wǎng)絡(luò)邊的權(quán)值信息在游客社會(huì)網(wǎng)絡(luò)中,給節(jié)點(diǎn)和節(jié)點(diǎn)間的邊賦一個(gè)權(quán)值,用來(lái)表示兩個(gè)節(jié)點(diǎn)間的聯(lián)系的緊密程度。在本文中認(rèn)為,在旅游活動(dòng)中,如果兩個(gè)游客旅游過(guò)

12、的景區(qū)交集越大,且旅游過(guò)的同一景區(qū)的照片的相似度越大,說(shuō)明這兩個(gè)游客間的關(guān)系越緊密。和傳統(tǒng)的利用旅游公司的信息來(lái)計(jì)算權(quán)值不一樣,本文利用互聯(lián)網(wǎng)中的游客信息,結(jié)合圖片,文本信息多種數(shù)據(jù)類型,來(lái)計(jì)算游客間邊的權(quán)值w。其中權(quán)值w的定義如下:其中:n代表兩個(gè)游客游覽經(jīng)歷的相似度, xa表示a游客游覽過(guò)的景區(qū),xb表示b游覽過(guò)的景區(qū)。m代表游客間的照片相似度, d表示不同游客在同一景區(qū)內(nèi)相似度大于給定閾值的照片數(shù)量,c表示某一景區(qū)擁有較少照片的游客的照片數(shù)。在(1)式中,如果數(shù)據(jù)量過(guò)大,可能會(huì)出現(xiàn)n值大于0但是卻很小的情況,這樣可能會(huì)出現(xiàn)一個(gè)節(jié)點(diǎn)和大量的節(jié)點(diǎn)存在有邊的關(guān)系的情況,這種情況下如果再計(jì)算m值

13、的話,會(huì)大大地增加運(yùn)算的負(fù)擔(dān),所以在生成邊的時(shí)候,給定一個(gè)值,用來(lái)篩選邊的數(shù)量,減輕運(yùn)算的負(fù)擔(dān)。2.4.3 游客社會(huì)網(wǎng)絡(luò)邊的生成對(duì)于邊的生成需要對(duì)之前公式(1)的n值做判斷,給定一個(gè)值如果n的值小于則不生成邊。經(jīng)過(guò)數(shù)據(jù)測(cè)試,的取值在0.10.3之間取值得到的邊數(shù)據(jù)較為理想,本文的取值為0.21。游客社會(huì)網(wǎng)絡(luò)節(jié)點(diǎn)間邊的生成流程如圖2所示:最后利用得到的數(shù)據(jù)生成了一個(gè)含有29363條邊的無(wú)向加權(quán)網(wǎng)絡(luò),節(jié)點(diǎn)的平均度數(shù)為6.68,如圖3所示:3 中心點(diǎn)的選取和局部社區(qū)的拓展3.1 局部社區(qū)局部社區(qū)的定義在目前沒(méi)有統(tǒng)一的標(biāo)準(zhǔn)5,6,本文采用文獻(xiàn)1中的相關(guān)定義。3.2 中心點(diǎn)的選取在一個(gè)游客旅游社會(huì)網(wǎng)絡(luò)中

14、,游客和游客之間是存在一定的社會(huì)關(guān)系的。這些關(guān)系可是同事、同學(xué)、朋友、家人等,這些社會(huì)關(guān)系在社會(huì)網(wǎng)絡(luò)中通常表現(xiàn)為一個(gè)局部社區(qū)。局部社區(qū)是由一些中心節(jié)點(diǎn)和他們周圍的一些跟隨者所組成的一個(gè)群體,所以要找到游客網(wǎng)絡(luò)中 的一個(gè)局部社區(qū)結(jié)構(gòu),首先需要把這個(gè)局部社區(qū)的中心節(jié)點(diǎn)找出來(lái)。游客社會(huì)網(wǎng)絡(luò)是一個(gè)無(wú)標(biāo)度網(wǎng)絡(luò),其典型特征是在這個(gè)網(wǎng)絡(luò)當(dāng)中只有很少的節(jié)點(diǎn)才與非常多的節(jié)點(diǎn)連接,大部 分節(jié)點(diǎn)之間的連接是稀疏的,而即網(wǎng)絡(luò)中節(jié)點(diǎn)的中心度是服從冪率分布的6。那么可以假設(shè)每一個(gè)節(jié)點(diǎn)至少屬于一個(gè)局部社區(qū),即可以確定每一個(gè)局部社區(qū)都有一個(gè)中心節(jié)點(diǎn)。選取中心節(jié)點(diǎn)的傳統(tǒng)方法是隨機(jī)選擇,這種選擇方法往往會(huì)得到錯(cuò)誤的中心點(diǎn),進(jìn)而得

15、到錯(cuò)誤的局部社區(qū)6。本文采用改進(jìn)的PageRank算法選擇中心點(diǎn)。初始的網(wǎng)頁(yè)排名算法 PageRank把互聯(lián)網(wǎng)當(dāng)成一個(gè)有向無(wú)權(quán)網(wǎng)絡(luò),而游客網(wǎng)絡(luò)是一個(gè) 無(wú)向加權(quán)網(wǎng)絡(luò)7。通過(guò)對(duì)PageRank進(jìn)行修改,使之適用于無(wú)向網(wǎng)絡(luò)的節(jié)點(diǎn)中心度排名。修改后的算法如下:(1) 對(duì)一個(gè)含有n個(gè)節(jié)點(diǎn)的網(wǎng)絡(luò),給所有節(jié)點(diǎn)的中心度賦值為1/n;(2) 選擇操作的闕值;(3) 在閾值內(nèi),對(duì)節(jié)點(diǎn)中心度值做以下更新規(guī)則:設(shè)G=V,E,是一個(gè)無(wú)向加權(quán)網(wǎng)絡(luò),任意節(jié)點(diǎn)i的中心度NodeCen定義為每個(gè)節(jié)點(diǎn)將自己當(dāng)前的中心度值按照與它鄰接的每一個(gè)節(jié)點(diǎn)之間邊的權(quán)值相對(duì)于所有鄰接節(jié)點(diǎn)邊的權(quán)值之和的比例進(jìn)行分配,每個(gè)節(jié)點(diǎn)按照它獲得的中心度值

16、的總和更新它的中心度值。其中,n是社會(huì)網(wǎng)絡(luò)中節(jié)點(diǎn)的總個(gè)數(shù),ij是節(jié)點(diǎn)i和節(jié)點(diǎn)j所在邊的權(quán)值,egij是與節(jié)點(diǎn)j所相鄰的節(jié)點(diǎn)的集合。s是縮放因子8,為了加速算法的收斂而且防止網(wǎng)絡(luò)中有孤立的節(jié)點(diǎn)而導(dǎo)致算法無(wú)法收斂,通常取值在0.80.9之間。閾值可以定義為運(yùn)行次數(shù) 也可以是一個(gè)規(guī)則,本文采用的是定義為運(yùn)行次數(shù),對(duì)網(wǎng)絡(luò)內(nèi)的節(jié)點(diǎn)中心度計(jì)算迭代超過(guò)30次時(shí),迭代完畢。此算法是基于文獻(xiàn)1對(duì)PageRank算法改進(jìn)的描述所寫的。和PageRank算法一樣,其結(jié)果將最終收斂于一組極限值,且s值一定時(shí),這組極限值具有唯一性,這組極限值是取決于比例因子的s的。在選取中心點(diǎn)的時(shí)候,為了避免中心度節(jié)點(diǎn)過(guò)于集中,便于局

17、部社區(qū)的劃分。規(guī)定每次選取的中心度最大的中心節(jié)點(diǎn),且該節(jié)點(diǎn)不能包含在之前的任何一個(gè)已發(fā)現(xiàn)的局部社區(qū)內(nèi)。3.3 局部社區(qū)擴(kuò)張局部社區(qū)的擴(kuò)張需要一個(gè)適應(yīng)度函數(shù),在上一步已經(jīng)選取了中心節(jié)點(diǎn),接下來(lái)只需要一個(gè)適應(yīng)度函數(shù)來(lái)夸張局部社區(qū),直到?jīng)]有一個(gè)函數(shù)可以使適應(yīng)度函數(shù)增大位置。目前被廣泛采納的適應(yīng)度函數(shù)是Lancichinetti等9提出的適應(yīng)度函數(shù)。具體定義如下:式中kgin表示局部社區(qū)g內(nèi)部的內(nèi)部節(jié)點(diǎn)度數(shù)之和,kgout表示局部社區(qū)g內(nèi)部節(jié)點(diǎn)與外部節(jié)點(diǎn)連接的度數(shù)之和,?是個(gè)正實(shí)數(shù),它主要控制局部社區(qū)規(guī)模的大小。本文在之前表述過(guò),認(rèn)為在旅游活動(dòng)中,如果兩個(gè)游客旅游過(guò)的景區(qū)交集越大,且旅游過(guò)的同一景區(qū)的

18、照片的相似度越大,權(quán)值也就越大,游客和游客間更有可能存在社會(huì)關(guān)系。而(5)式中所提到的適應(yīng)度函數(shù),是利用局部社區(qū)g內(nèi)部的節(jié)點(diǎn)度數(shù)之和和局部社區(qū)g內(nèi)部節(jié)點(diǎn)與外部節(jié)點(diǎn)連接的度數(shù)之和來(lái)計(jì)算適應(yīng)度的。但是在本文是利用互聯(lián)網(wǎng)數(shù)據(jù)來(lái)對(duì)游客旅游社會(huì)網(wǎng)絡(luò)進(jìn)行局部社區(qū)挖掘,在旅游活動(dòng)中,游客信息記錄中,記錄了多個(gè)景區(qū)。在不同的游客之間,景區(qū)很可能有交集,所以很可能會(huì)產(chǎn)生一個(gè)游客和其他很多游客的景區(qū)有交集,也就是一個(gè)節(jié)點(diǎn)和多個(gè)節(jié)點(diǎn)之間都邊連接,但是該游客和其他游客之間并沒(méi)有社會(huì)關(guān)系。所以局部社區(qū)g內(nèi)部的內(nèi)部節(jié)點(diǎn)度數(shù)之和和局部社區(qū)g內(nèi)部節(jié)點(diǎn)與外部節(jié)點(diǎn)連接的度數(shù)之和計(jì)算而來(lái)的公式,對(duì)游客間社會(huì)關(guān)系分析沒(méi)有太多價(jià)值。上

19、文也提到連接游客節(jié)點(diǎn)和游客節(jié)點(diǎn)的邊權(quán)值越大,那么這兩個(gè)游客之間的存在社會(huì)關(guān)系的幾率越大,而局部社區(qū)就是為了分析游客和游客間的社會(huì)關(guān)系的。所以本文對(duì)(5)式進(jìn)行了修改。具體定義如下:(6)式中hgin表示局部社區(qū)g內(nèi)部的內(nèi)部節(jié)點(diǎn)權(quán)值之和,hgout表示局部社區(qū)g內(nèi)部節(jié)點(diǎn)與外部節(jié)點(diǎn)連接的權(quán)值之和,?是個(gè)正實(shí)數(shù),它主要控制局部社區(qū)規(guī)模的大小。通過(guò)多次對(duì)已知社區(qū)結(jié)構(gòu)的社會(huì)網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn),得出當(dāng)?=0.9時(shí)所擴(kuò)張的局部社區(qū)規(guī)模達(dá)到最優(yōu)。節(jié)點(diǎn)適應(yīng)度指的是節(jié)點(diǎn)A加入局部社區(qū)g之后,對(duì)適應(yīng)度函數(shù)的貢獻(xiàn),即(7)式中,fg+A表示節(jié)點(diǎn)A加入之后局部社區(qū)g的適應(yīng)度值,fg-A表示節(jié)點(diǎn)A沒(méi)有加入局部社區(qū)g之前局部社區(qū)

20、g的適應(yīng)度值。有了節(jié)點(diǎn)中心度排名和局部社區(qū)擴(kuò)張的適應(yīng)度函數(shù),就可以進(jìn)行局部社區(qū)擴(kuò)張了,步驟如下:(1) 選擇當(dāng)前下標(biāo)的中心度節(jié)點(diǎn),判斷該節(jié)點(diǎn)是否被已發(fā)現(xiàn)的局部社區(qū)所包含,如果沒(méi)有被包含,則作為局部社區(qū)g,如果已被包含則下標(biāo)下移,重新檢測(cè)選擇的節(jié)點(diǎn)是否被包含。(2) 獲取所有與g內(nèi)部節(jié)點(diǎn)作為直接鄰居的外部節(jié)點(diǎn)。(3) 從獲取的直接鄰居節(jié)點(diǎn)中,選擇一個(gè)節(jié)點(diǎn)適應(yīng)度最大且為正的節(jié)點(diǎn)加入社區(qū)g。(4) 回到步驟2,直到社區(qū)g沒(méi)有直接鄰居節(jié)點(diǎn),或者所有的鄰居節(jié)點(diǎn)適應(yīng)度都為負(fù)的時(shí)候停止擴(kuò)張。不斷地重復(fù)如上的步驟,直到社會(huì)網(wǎng)絡(luò)中的每一個(gè)節(jié)點(diǎn)都至少屬于一個(gè)局部社區(qū),最后可以發(fā)現(xiàn)覆蓋整個(gè)網(wǎng)絡(luò)的所有局部社區(qū)。根據(jù)上

21、述的操作,將2中得到的無(wú)向加權(quán)網(wǎng)絡(luò)進(jìn)行上述操作后,便可得到該游客社區(qū)網(wǎng)絡(luò)的局部社區(qū)分析。4 結(jié)束語(yǔ)在互聯(lián)網(wǎng)+時(shí)代,互聯(lián)網(wǎng)+旅游也逐漸成為一個(gè)熱門的話題,面對(duì)海量的互聯(lián)網(wǎng)旅游數(shù)據(jù),我們可以從多種角度才分析旅游信息,利用這些旅游數(shù)據(jù),可以為游客提供個(gè)性化的旅游服務(wù),給旅游公司對(duì)景區(qū)的開(kāi)發(fā)和維護(hù)給予參考。本文利用軟件中每一個(gè)的用戶的所游覽過(guò)的景區(qū)和在瀏覽的景區(qū)中所記錄的照片來(lái)進(jìn)行旅游游客局部信息挖掘。和利用傳統(tǒng)的旅游數(shù)據(jù)中的游客消費(fèi)情況和游客旅游時(shí)間不一樣的是,本文采用的是互聯(lián)網(wǎng)數(shù)據(jù),采用了互聯(lián)網(wǎng)數(shù)據(jù)中的數(shù)組、文本和圖片,利用多種數(shù)據(jù)資源進(jìn)行篩選分析并計(jì)算出權(quán)值。然后利用改進(jìn)的PageRank算法和節(jié)點(diǎn)適應(yīng)函數(shù)計(jì)算出節(jié)點(diǎn)中心度排名,并選取合適的節(jié)點(diǎn)作為局部社區(qū)的初始節(jié)點(diǎn),然后拓展出整個(gè)局部社區(qū)。利用本文的方法可以有效地發(fā)掘出旅游游客的局部社區(qū)。Reference:1 樊瑋, 陳旭光. 旅游游客社會(huì)網(wǎng)絡(luò)局部社區(qū)挖掘方法J. 計(jì)算機(jī)工程與設(shè)計(jì), 2016, 37(6): 1505-1509.2 張子昂, 黃震方, 靳誠(chéng),等. 基于微博簽到數(shù)據(jù)的景區(qū)旅游活動(dòng)時(shí)空行為特征研究J. 地理與地理信息科學(xué), 2015, 31(4): 121-126.3 廉同輝, 余菜花, 袁勤儉. 基于內(nèi)容分析法的旅游微博主題研究J. 現(xiàn)代情報(bào)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論