


下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
社會調(diào)查數(shù)據(jù)建模及基于超圖的數(shù)據(jù)分析方法社會調(diào)查數(shù)據(jù)建模及基于超圖的數(shù)據(jù)分析辦法
中圖分類號:P208文獻(xiàn)標(biāo)識碼:A文章編號:1672-3791〔2022〕02〔a〕-0003-04
Abstract:Inviewoftheproblemsofthesocialsurveydataprocessingandanalysis,thispaperestablishesthemathematicalmodelofthreedimensionalmatrixwhichisbasedonthethreedimensionalmatrix.Onthebasisoftheestablishedthreedimensionalmatrixmodel,wecanusethepropertiesofthreedimensionalmatrixtodealitwithavarietyofmathematicalmethods,andusethehypergraphtheoryforfurtheranalysis.Thisenrichesthemethodofthesurveydataprocessinggreatly.
KeyWords:Socialsurveydata;Three-dimensionmatrix;Hypergraph
社會調(diào)查是了解各方面信息的重要途徑之一,社會調(diào)查數(shù)據(jù)主要是通過調(diào)查問卷的辦法得到的。由于社會調(diào)查數(shù)據(jù)的維數(shù)較高,加上人為主觀因素,數(shù)據(jù)類型主要為二元變量、離散變量、序數(shù)變量等為主,所以對于社會調(diào)查數(shù)據(jù)的分析和處理大都基于統(tǒng)計學(xué),只對單一題目進(jìn)行統(tǒng)計學(xué)分析,其分析辦法主要是基于題型進(jìn)行處理的,對于題目和題目之間的關(guān)系很少關(guān)懷[1]。許多數(shù)據(jù)挖掘算法因為種種限制無法在社會調(diào)查的數(shù)據(jù)分析中得到應(yīng)用。因為辦法的限制,所以現(xiàn)在很多社會調(diào)查只能驗證事先想好的內(nèi)容和若,很少可以對高維數(shù)據(jù)進(jìn)行相對復(fù)雜的回歸分析處理。
根據(jù)以上存在的問題,該文建立了基于三維矩陣的數(shù)學(xué)模型,將單項選擇題、多項選擇題和排序題用向量形式進(jìn)行表示,每一題定義為空間中的一個維度,從而所有的題目就可以構(gòu)成一個N維空間。每份問卷的信息用一個M×N矩陣表示。這樣表示可以將所有問卷內(nèi)容當(dāng)作一個整體,作為后續(xù)算法的根底。
1社會調(diào)查數(shù)據(jù)的特點(diǎn)
通常情況下,社會調(diào)查數(shù)據(jù)特點(diǎn)如下。
〔1〕相關(guān)性。對于一個樣本個體而言,它具有本身的多個特征,這些特征之間就具有一定的相關(guān)性。對于多個樣本而言,個體與個體的特征之間具有相關(guān)性。如果樣本隨時間而變化,則該樣本在不同時刻的特征之間又具有相關(guān)性。因此,由于上述多個原因使得社會調(diào)查數(shù)據(jù)具有了復(fù)雜的相關(guān)性,傳統(tǒng)的統(tǒng)計學(xué)調(diào)查難以解決這樣的問題。
〔2〕離散性。因為社會調(diào)查數(shù)據(jù)是通過自填式問卷、網(wǎng)絡(luò)調(diào)查數(shù)據(jù)庫等辦法得到,所以社會調(diào)查數(shù)據(jù)一般以離散變量為主,且這些數(shù)據(jù)之間只有標(biāo)示作用,并沒有嚴(yán)格的邏輯關(guān)系。
〔3〕含糊性。社會調(diào)查數(shù)據(jù)當(dāng)中不可防止的會接觸到各種敘述方式和概念,因此,它具有含糊性。
因為由自填式問卷或結(jié)構(gòu)式訪問的辦法得到的社會調(diào)查數(shù)據(jù)具有以上特點(diǎn),所以在實際應(yīng)用中基于統(tǒng)計學(xué)的處理辦法只能籠統(tǒng)的顯示數(shù)據(jù)的局部特性,如頻數(shù)、離散程度等[2]。對于數(shù)據(jù)之間的關(guān)系只能分析出維數(shù)極少的大致的關(guān)系。
而且利用軟件進(jìn)行數(shù)據(jù)挖掘時,因為現(xiàn)有的軟件中的數(shù)據(jù)挖掘算法對于數(shù)據(jù)類型和格式要求較高,所以能應(yīng)用到的數(shù)據(jù)挖掘算法很少。就算是數(shù)據(jù)要求較低的關(guān)聯(lián)分析,其結(jié)果也存在大量的冗余。因此,我們需要建立一個適宜的社會調(diào)查數(shù)據(jù)的數(shù)學(xué)模型來完善原先的辦法并使跟多的數(shù)據(jù)挖掘辦法可以運(yùn)用到其中,使得結(jié)果更準(zhǔn)確。
2社會調(diào)查數(shù)據(jù)的建模
研究中我們發(fā)現(xiàn),三維矩陣可適用于社會調(diào)查數(shù)據(jù)的建模。
2.1三維矩陣的定義
三維矩陣的定義:由n個p×q階的矩陣組成的n×p×q階的矩陣A稱為三維矩陣,又稱立體陣。Ak,i,j表示三維矩陣A的第k層,第i行,第j列上的元素。其中n,p,q分別表示三維矩陣的高度,厚度和寬度。
2.2三維矩陣模型的建立
調(diào)查問卷的題目一般有三種類型:單項選擇題、多項選擇題和排序題。這三類題目都可以表示成向量的形式,其中每一道單項選擇題、多項選擇題可以表示成一個向量,排序題可以表示成多個向量組成的矩陣。對于單項選擇題和多項選擇題,可以按選項的順序可以表示成一個向量,其當(dāng)選中的項用“1〞表示,未選中的項用“0〞表示。對于排序題,可以表示成一個n×n的方陣,其中n表示該排序題的選項個數(shù),。這樣,每一題就可以定義為空間中的一個維度,從而所有的題目就可以構(gòu)成一個N維空間。每份調(diào)查問卷的信息用一個M×N矩陣表示〔M為題目的最大選項數(shù)〕,其在每一維上的選擇稱之為一個元素,這樣每份問卷的信息就包括了N個元素。以第1,2,3題數(shù)據(jù)為例,其中第1題為單項選擇題選擇“B〞,用向量表示為一個元素,第2題為多項選擇題選擇“ACE〞,用向量表示為一個元素,第3題為排序題順序為CBADEFIHG,用矩陣表示,每一個列向量是一個元素,如圖1所示。
則,若有一問卷信息用一個大小為M×N的矩陣表示。K份的問卷信息就可以用K個大小為M×N的矩陣表示。將這K個矩陣疊加,形成一個三維矩陣。這個三維矩陣就是我們建立的三維矩陣數(shù)學(xué)模型,如圖2所示。在圖2中我們看到,該三維矩陣數(shù)學(xué)模型有三個坐標(biāo)軸,它們分別是題目,人數(shù),選項。題目軸以每一道題為一個單位;人數(shù)軸以每一份問卷為一個單位;選項軸的刻度為A,B,C,D,E,F(xiàn)等題目選項,其個數(shù)為該調(diào)查問卷當(dāng)選項最多的題目的選項個數(shù)。
在此根底之上,這樣的三維矩陣具有下列性質(zhì)。
〔1〕在題目軸當(dāng)選取對應(yīng)的題目,將三維矩陣面向豎切得到截面1〔如圖2中01所示〕,截面2表示每一道題所有人選擇的信息。
〔2〕在人數(shù)軸當(dāng)選取對應(yīng)的人,將三維矩陣橫切得到橫截面1〔如圖2中02所示〕,橫截面1表示對應(yīng)的人選擇所有題目的信息。
在得到三維矩陣后,可對它進(jìn)行像素化處理,置1的元素用黑點(diǎn)代替,置0元素的那么空白,在得到像素化三維矩陣后我們可以將三維矩陣沿著人數(shù)維度上向下投影,這樣就可以得到一個具有濃黑不一的點(diǎn)的平面。通過這些點(diǎn)的濃度,可以知道每一選項選擇的人數(shù)。接下來我們可用灰度級表示點(diǎn)的濃度,篩選出濃度大于一定程度的點(diǎn),在此根底上進(jìn)行后續(xù)算法處理。
上述三維矩陣數(shù)學(xué)模型具有數(shù)學(xué)三維矩陣的所有性質(zhì),可依據(jù)調(diào)查問卷的需求進(jìn)行轉(zhuǎn)置,加權(quán)、相乘、篩選等數(shù)學(xué)處理,另外在數(shù)學(xué)處理的根底上,采用超圖理論可以大大豐盛了調(diào)查問卷的處理辦法。
3基于超圖算法的調(diào)查問卷分析技術(shù)
超圖是離散數(shù)學(xué)中重要的內(nèi)容,是對圖論的推廣[3]。超圖是有限匯合的子系統(tǒng),它是一個由頂點(diǎn)的匯合V和超邊匯合E組成的二元對,超圖的一條邊可以有多個頂點(diǎn)的特性,這與一般的圖有很大不同。超圖分為有向超圖與無向超圖兩類,在無向超圖的每條超邊上添加方向后得到的有向二元對就是有向超圖。超圖在許多領(lǐng)域有廣泛的應(yīng)用。
大家可以利用無向超圖表示每一道題的選擇情況,先將這每一題的每一個選項設(shè)成一個節(jié)點(diǎn),然后將三維矩陣從上向下投影,如果某一題的假設(shè)干個選項同時被一個人選擇,就用一條超邊包圍這些節(jié)點(diǎn),則選這些選項的人越多,投影得到的超邊就越濃。這樣就用超圖表示了問卷中每道題的信息,可以進(jìn)行聚類處理。
利用有向超圖,可以將關(guān)聯(lián)規(guī)那么表示成有向超圖的形式,在得到了關(guān)聯(lián)規(guī)那么后,設(shè)實際中得到的關(guān)聯(lián)規(guī)那么的形式為:,前項和后項都是由多個項組成的匯合。該文定義一條關(guān)聯(lián)規(guī)那么由一條有向超邊表示,有向超邊的頭節(jié)點(diǎn)表示關(guān)聯(lián)規(guī)那么的前項,有向超邊的尾節(jié)點(diǎn)表示關(guān)聯(lián)規(guī)那么的后項。每條有向超邊的頭節(jié)點(diǎn)和尾節(jié)點(diǎn)均可以為多個,如此便成功表示了復(fù)合規(guī)那么,從而可以使用相關(guān)算法進(jìn)行冗余規(guī)那么檢測。
通過基于有向超圖的冗余規(guī)那么檢測就可以將關(guān)聯(lián)規(guī)那么之間存在著的大量冗余檢測出,減少挖掘資源的浪費(fèi),從而增加了挖掘結(jié)果的有效性。
傳統(tǒng)的聚類辦法都對原始數(shù)據(jù)計算它們之間的距離來得到相似度,然后通過相似度進(jìn)行聚類,這樣的辦法對于低維數(shù)據(jù)有良好的效果,但是對于高維數(shù)據(jù)卻不能產(chǎn)生很好的聚類效果,因為高維數(shù)據(jù)的分布有其特殊性。通過超圖模型的分割實現(xiàn)對高維數(shù)據(jù)的聚類卻能產(chǎn)生較好的效果。它先將原始數(shù)據(jù)之間關(guān)系轉(zhuǎn)化成超圖,數(shù)據(jù)點(diǎn)表示成超圖的節(jié)點(diǎn),數(shù)據(jù)點(diǎn)間的關(guān)系用超邊的權(quán)重來表示。然后對超圖進(jìn)行分割,除去相應(yīng)的超邊使得權(quán)重大的超邊中的點(diǎn)聚于一個類中,同時使被除去的超邊權(quán)重之和最小。這樣就通過對超圖的分割實現(xiàn)了對數(shù)據(jù)的聚類。具體的算法流程如下。
首先,將數(shù)據(jù)點(diǎn)之間的關(guān)系轉(zhuǎn)化為超圖,數(shù)據(jù)點(diǎn)表示為超圖節(jié)點(diǎn)。如果某幾個數(shù)據(jù)點(diǎn)的支持度大于一定閾值,那么它們能構(gòu)成一個頻繁集,就將它們用一條超邊連接,超邊的權(quán)重就是這一頻繁集的置信度,重復(fù)同樣的辦法就可以得超邊和權(quán)重。
然后,在根底此上,通過超圖分割實現(xiàn)數(shù)據(jù)的聚類。假設(shè)設(shè)將數(shù)據(jù)分成k類,那么就是對超圖的k類分割,不斷除去相應(yīng)的超邊,直到將數(shù)據(jù)分為k類,且每個分割中數(shù)據(jù)都密切相關(guān)為止,同時保持每次被除去的超邊權(quán)重和最小,最終得到的分割就是聚類的結(jié)果。
如圖3所示是基于超圖算法的選題型調(diào)查問卷的分析技術(shù)的流程圖,主要包括4個主要局部,一是用向量表示調(diào)查問卷結(jié)果,二是將向量表示的調(diào)查問卷轉(zhuǎn)化為三維矩陣數(shù)學(xué)模型表示調(diào)查問卷結(jié)果,三是使用超圖算法進(jìn)行優(yōu)化,四是根據(jù)要求顯示調(diào)查問卷結(jié)果。
4結(jié)語
該文針對社會調(diào)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 熱力管道施工方案
- 節(jié)水灌溉施工方案
- 研究性學(xué)習(xí)總結(jié)
- 二零二五年度簽約主播虛擬偶像形象授權(quán)及運(yùn)營合作協(xié)議
- 2025年度智能設(shè)備擔(dān)保合同解除與售后服務(wù)保障協(xié)議
- 二零二五年度環(huán)保技術(shù)研發(fā)合同履行技術(shù)創(chuàng)新個原則協(xié)議
- 二零二五年度農(nóng)村土地爭議調(diào)解與生態(tài)補(bǔ)償合同
- 二零二五年度音樂節(jié)品牌贊助合同
- 二零二五年度企業(yè)總部安全保衛(wèi)保安聘用協(xié)議
- 二零二五年度摩托車整車出口代理轉(zhuǎn)讓協(xié)議
- 第2課++生涯規(guī)劃+筑夢未來(課時2)【中職專用】中職思想政治《心理健康與職業(yè)生涯》高效課堂 (高教版基礎(chǔ)模塊)
- 《批判性思維原理和方法》全套教學(xué)課件
- 2024年廣西農(nóng)村投資集團(tuán)應(yīng)屆生校園招考聘用85人(高頻重點(diǎn)復(fù)習(xí)提升訓(xùn)練)共500題附帶答案詳解
- 臨床診療指南(急診醫(yī)學(xué))
- 老年人智能手機(jī)使用教程含內(nèi)容課件
- 人教PEP英語五年級下冊全冊教案(表格教學(xué)設(shè)計)
- 密目網(wǎng)覆蓋施工方案
- 家族族譜資料收集表
- 放射科護(hù)士講課
- 2024年人力資源管理師三級考試真題及答案
- 2024年中國遠(yuǎn)洋海運(yùn)集團(tuán)有限公司招聘筆試沖刺題(帶答案解析)
評論
0/150
提交評論