下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
一種高效的文本信息查重算法
0適當(dāng)刪除重復(fù)信息隨著電子商務(wù)的發(fā)展,網(wǎng)絡(luò)中充滿了越來越多的信息??紤]到自己的利益,許多公司經(jīng)常使用各種手段發(fā)布大量重復(fù)信息(或類似信息)。這些重復(fù)發(fā)布的信息會造成各商家在網(wǎng)絡(luò)廣告方面投入與產(chǎn)出的不公平。為此,我們需要通過各種途徑準(zhǔn)確高效地查找、歸類這些信息并予以適當(dāng)處理。目前在各個商業(yè)化的電子商務(wù)網(wǎng)站中,大多數(shù)信息的發(fā)布是需要人工審核的。通常,審核員需要通過一定的記憶,把重復(fù)信息找到,然后予以刪除。這種傳統(tǒng)的方法存在兩個缺陷:其一,每天成千上萬的數(shù)據(jù),通過大量的勞動密集型投入,致使審核成本劇增;其二,通過這種方法也不能有效地刪除重復(fù)信息。如果我們能找到一種合理的算法把類似的信息歸并在一起排序,將會極大地提高信息審核員的勞動效率和降低審核成本。但是,大規(guī)模的文本相似比較,是相當(dāng)耗時的,在實時環(huán)境下,甚至是根本無法忍受的。如果每千條信息比較需要花費(fèi)一分鐘的時間,這就違背我們的意圖了。尤其是在一個基于Web的應(yīng)用,這樣的性能將會把WebServer拖跨。我們需要尋求一個效率更高的算法,以解決重復(fù)信息(或相似信息)的歸類排序問題。1有條件進(jìn)入實驗對象把“選取”打造成“個人成本”文本信息的相似性常常用俄國科學(xué)家VladimirLevenshtein在1965年提出的Levenshtein距離來衡量。根據(jù)Levenshtein距離可以計算將一個短語轉(zhuǎn)化成另一個短語時所需執(zhí)行的插入、刪除和置換的次數(shù)。比如,要將“good”變成“goods”,只需要輸入一個字符(“s”),因此它們之間的距離是“1”。四個字母中取一個就是25%(距離通常相對于短語來計算),采用這種方法的CAT工具用75%來表示這兩個詞之間的相似性。該算法主要應(yīng)用于DNA分析、拼字檢查、語音辨識和抄襲偵測等。該算法比較適合英語之類的拉丁語系而不適合中文。另外,該算法的性能也有問題。筆者測試過,選擇了1000條常規(guī)的商業(yè)信息,第一條和其他999條信息比較,發(fā)現(xiàn)需要將近1秒的時間。如果要做相互比較,基本是行不通了。盡管Levenshtein有一些改進(jìn)的算法,但是從性能上來說,在最糟糕的情況下仍然表現(xiàn)出一樣的算法復(fù)雜度。2算法的時間復(fù)雜度假如兩個具有足夠長度的字符串s1,s2是相似的,那么s1的部分內(nèi)容必定出現(xiàn)在s2中。即:..s1≌s2,則{s1(0)|s1(1)|s1(2)|s1(3)…|s1(n)}∈s2,其中s1(0)、s1(1)、s1(2)、s1(3)、…、s1(n)是s1的子串。假設(shè)1由于我們只需把相似的信息歸類在一起供人工審核,故不必考慮兩個字符串是否完成相同的問題,當(dāng)s1中有k(k<<n)個子串存在于s2中,即可認(rèn)為該兩字符串是相似的,可以在排序上把他們歸并在一起。現(xiàn)在分析該算法的時間復(fù)雜度,定義問題如下:有N{N1,N2…Nn}條中文文本信息,所有文本的平均長度m,通過相互比較,把類似的文本信息分組排列成一組。如果被判定是重復(fù)的信息,不再參與接下去的相互比較。例如,當(dāng)N1和N2…Nn比較,得到2條與其相似信息(N2,N3),那么接下去的比較應(yīng)該是N4與N5…Nn。以此類推,直到所有的比較結(jié)束??梢愿话愕孛枥L這個比較行為:初始條件:參與比較的文本信息集合為N={N1,N2,…,Nn},比較結(jié)果集合為P。1)N1與{N2,N3…Nn}比較得到與N1相似的文本信息加入比較結(jié)果集合P;2)N=N-P,返回步驟1,直到N=Φ由于不同的文本信息集合所比較的結(jié)果P是不固定的,可能是P=N,也可能是P=Φ。在此,僅討論最壞的情況下的算法時間復(fù)雜度問題,即N{N1,N2,…,Nn}沒有任何的一條信息是重復(fù)的。則:1)模式串長度(即字符串的切分長度)為L,則si與sj比較的時間復(fù)雜度為0((m+L)k),其中k為sj中參與比較的子串個數(shù);2)n條文本信息相互比較的次數(shù)為n-1,n-2,…,1,比較的總次數(shù)為n(n-1)/2。整個算法的時間復(fù)雜度為O(kn(m+L)(n-1)/2)。其中,關(guān)于字符串模式匹配的算法,可以采用KMP字符串模式匹配算法,該算法的時間復(fù)雜度約為O(m+L),m和L分別是存儲文本和模式串?dāng)?shù)組的最大索引。3模型生成和算法根據(jù)以上理論模型,在生產(chǎn)實際中,我們要解決以下問題:1)如何切分被比較的字符串,即L的長度怎么確定;2)如何確定假設(shè)1中的k值。經(jīng)過多次測試,發(fā)現(xiàn)當(dāng)L=14、k=10時,既能滿足較高的性能要求,又能保證較高的正確率(可達(dá)到90%以上)。具體做法如下:初始條件:參與比較的文本信息集合為N={N1,N2,…,Nn},比較結(jié)果集合為P。1)把整個電子商務(wù)的Web網(wǎng)頁過濾掉所有HTML標(biāo)記和ASCII碼符號,得到一個比較干凈的不影響內(nèi)容含義的文本信息集;2)當(dāng)Nj與Ni比較時(j≠i且1≤j≤n),Ni作為待比較的字符串,把Nj劃成10個模式串(Nj1,Nj2,Nj3,Nj4,Nj5,Nj6,Nj7,Nj8,Nj9,Nj10),如果文本長度大于14,則截去多余部分,采用KMP算法進(jìn)行比較;3)將與Ni相似的文本信息加入比較結(jié)果集合P;4)N=N-P,返回步驟2,直到N=Φ4編碼與實現(xiàn)下面給出該算法的基于java語言實現(xiàn)的代碼:5基于lenshte算法的查重算法該算法是針對某電子商務(wù)網(wǎng)站而研究的。測試表明,信息數(shù)量在100-1000條時,該算法十分有效,1000條的文本信息相互比較可控制在2秒之內(nèi)。信息數(shù)量超過1000條后,計算時間會大幅度上升,當(dāng)達(dá)到2000條時,計算時間約為1分鐘;同時信息數(shù)量若小于100條,亦不能體現(xiàn)出該算法的優(yōu)勢。對于精度而言,可以通過調(diào)整sampleLength,samplingCount,minMatches來達(dá)到目的。但該算法對于過短信息(少于1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025個人公司股權(quán)轉(zhuǎn)讓合同范本:股權(quán)分割與權(quán)益調(diào)整4篇
- 2024離婚財產(chǎn)分割協(xié)議公證與遺產(chǎn)分割
- 2024蔬菜大棚溫室租賃與農(nóng)業(yè)科技研發(fā)服務(wù)合同3篇
- 課程設(shè)計要不要上課呢
- 《電子商務(wù)概論》課件
- 二零二五版民法典離婚協(xié)議書樣本與專業(yè)律師服務(wù)協(xié)議4篇
- 2025年暑期學(xué)生兼職工作質(zhì)量及效果評估協(xié)議3篇
- 粵84民初648號案件上訴狀3篇
- 2025年度淋浴房租賃與安裝一體化服務(wù)合同4篇
- 2025年度智能網(wǎng)聯(lián)汽車租賃服務(wù)合同范本8篇
- 長亭送別完整版本
- 《鐵路軌道維護(hù)》課件-更換道岔尖軌作業(yè)
- 股份代持協(xié)議書簡版wps
- 職業(yè)學(xué)校視頻監(jiān)控存儲系統(tǒng)解決方案
- 《銷售心理學(xué)培訓(xùn)》課件
- 智能養(yǎng)老院視頻監(jiān)控技術(shù)方案
- 2024年安徽省公務(wù)員錄用考試《行測》真題及解析
- 豐順縣鄉(xiāng)鎮(zhèn)集中式飲用水水源地基礎(chǔ)狀況調(diào)查和風(fēng)險評估報告
- 無人駕駛航空器安全操作理論復(fù)習(xí)測試附答案
- 2024年山東省青島市中考語文試卷(附答案)
- 職業(yè)技術(shù)學(xué)?!犊缇畴娮由虅?wù)物流與倉儲》課程標(biāo)準(zhǔn)
評論
0/150
提交評論