基于Java的敏感詞過濾器設(shè)計(jì)-設(shè)計(jì)應(yīng)用_第1頁
基于Java的敏感詞過濾器設(shè)計(jì)-設(shè)計(jì)應(yīng)用_第2頁
基于Java的敏感詞過濾器設(shè)計(jì)-設(shè)計(jì)應(yīng)用_第3頁
基于Java的敏感詞過濾器設(shè)計(jì)-設(shè)計(jì)應(yīng)用_第4頁
基于Java的敏感詞過濾器設(shè)計(jì)-設(shè)計(jì)應(yīng)用_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

精品文檔-下載后可編輯基于Java的敏感詞過濾器設(shè)計(jì)-設(shè)計(jì)應(yīng)用良好的網(wǎng)絡(luò)文化對(duì)培養(yǎng)青少年的愛國意識(shí)、創(chuàng)新精神、促進(jìn)青少年良好的個(gè)性發(fā)展以及文化學(xué)習(xí)等方面都有積極的作用。但是網(wǎng)絡(luò)文化中混雜著種種不良因素,對(duì)青少年造成許多負(fù)面影響:網(wǎng)絡(luò)中的不健康內(nèi)容不利于青少年的成長,甚至造成許多青少年犯罪行為的不斷發(fā)生;網(wǎng)絡(luò)世界的虛擬性還會(huì)造成青少年對(duì)現(xiàn)實(shí)社會(huì)的不滿,青少年對(duì)網(wǎng)絡(luò)世界的過分迷戀會(huì)導(dǎo)致網(wǎng)絡(luò)孤獨(dú),網(wǎng)絡(luò)中多元化的內(nèi)容會(huì)導(dǎo)致青少年認(rèn)識(shí)偏差,網(wǎng)絡(luò)的隱匿性容易使青少年道德弱化[1].特別令人擔(dān)憂的是不良的網(wǎng)絡(luò)文化對(duì)青少年的犯罪起著推動(dòng)作用,值得全社會(huì)關(guān)注和重視。

本文提出了一種敏感詞過濾器軟件的設(shè)計(jì),對(duì)網(wǎng)絡(luò)中不良的內(nèi)容進(jìn)行查找、發(fā)現(xiàn),避免這些不良網(wǎng)絡(luò)文化侵蝕青少年的心靈健康。

1敏感詞過濾器的設(shè)計(jì)原理

敏感詞過濾器的原理圖如圖1所示。其原理如下:(1)對(duì)敏感詞庫的內(nèi)容進(jìn)行分割,把敏感詞庫中所有的敏感詞或詞組分開,并把這些敏感詞或詞組存入數(shù)組中;(2)將待測(cè)文件庫中的文件進(jìn)行逐個(gè)讀取,并記錄文件的內(nèi)容;(3)在待測(cè)文件中查找是否存在剛存放敏感詞或臟詞組內(nèi)容的數(shù)組里面的內(nèi)容,如果有,進(jìn)行標(biāo)注等操作;如果沒有,繼續(xù)檢查待測(cè)文件庫中的下一個(gè)待測(cè)文件,直到待測(cè)文件庫中的待測(cè)文件都被檢查完為止;(4)輸出結(jié)果。即輸出待測(cè)文件庫中每個(gè)待測(cè)文件中包含敏感詞或臟詞組的個(gè)數(shù)及出處等信息。

2算法實(shí)現(xiàn)

軟件開發(fā)環(huán)境:myeclipse平臺(tái),Java語言。首先以myeclipse平臺(tái)新建一個(gè)javaproject,在新建的project中需要導(dǎo)入下面相關(guān)文件:

importjava.io.BufferedReader;

importjava.io.File;

importjava.io.FileNotFoundException;

importjava.io.FileReader;

importjava.io.IOException;

importjava.io.InputStreamReader;

importjava.util.StringTokenizer;

過濾器軟件中main函數(shù)的主要內(nèi)容如下:

publicstaticvoidmain(String[]args){

BufferedReaderbr=newBufferedReader(newInputStreamReader(System.in));

Stringans=null;

intcnt=0;//字庫中關(guān)鍵詞個(gè)數(shù)

intnumber=0;//敏感詞出現(xiàn)次數(shù)

Stringfilepath=“D:\\敏感詞待測(cè)文件庫”;

//待檢測(cè)文件路徑,此文件夾下可以放若干個(gè)待檢測(cè)的文件

StringfileLibrarypath=“D:\\敏感詞典\\file.txt”;

//敏感詞庫文件的存放路徑

Filefile=newFile(filepath);

try{

//讀入用戶輸入的回車鍵信息

System.out.println(“請(qǐng)按回車鍵,查看過濾信息:”);

Stringstr=null;

str=br.readLine();

if(str!=null){

if(!file.isDirectory()){

System.out.println(“待檢測(cè)文件路徑

不對(duì),請(qǐng)修改路徑?!保?;

}elseif(file.isDirectory()){

ans=getcontent(fileLibrarypath);

intk;

StringTokenizersst=new

StringTokenizer(ans,“|”);

k=sst.countTokens();

String[]record=newString[k];

while(sst.hasMoreElements()){

record[cnt]=sst.nextToken();

cnt++;

}

String[]filelist=file.list();

for(inti=0,flen=filelist.length;i

flen;i++){

Stringtemp=filepath+

“\\”+filelist[i];

number=searchkeyword(record,

cnt,temp);

System.out.println(“第”+(i+1)+“文件中敏感詞出現(xiàn)的次數(shù):”+number);

//字庫中關(guān)鍵詞個(gè)數(shù)

}

}else{

//提示用戶按回車鍵

System.out.println(“你還沒有輸入回

車鍵信息”);

}

}

}catch(IOExceptione){

e.printStackTrace();

}

//輸出查詢結(jié)果

if(ans!=null){

System.out.println(“字庫中關(guān)鍵詞個(gè)數(shù):”+cnt);//字庫中關(guān)鍵詞個(gè)數(shù)

System.out.println(“敏感詞庫內(nèi)容如下:”+ans);

}else{

System.out.println(“沒有可以匹配的信息”);

//輸出敏感詞庫中的內(nèi)容

}

}

//得到指定路徑文件中的內(nèi)容

privatestaticStringgetcontent(Stringfilepath){

Stringall=“”;

Filefile=newFile(filepath);

try{

if(!file.isFile()){

System.out.println(“文件路徑不對(duì),請(qǐng)修改路徑”);

}else{

Filereadfile=newFile(filepath);

BufferedReaderbr=newBufferedReader(newFileReader(readfile));

Stringss=br.readLine();

while(ss!=null){

all=all+ss;

//all中存放讀取的文件內(nèi)容信息

ss=br.readLine();

}

}

}catch(FileNotFoundExceptione){

e.printStackTrace();

}catch(IOExceptione){

e.printStackTrace();

}

returnall;

}

//在待測(cè)文件中匹配敏感詞出現(xiàn)的次數(shù)

privatestaticintsearchkeyword(String[]str,intcnt,Stringfilepath){

intnumber=0;

Strings=“”;

s=getcontent(filepath);

for(inti=0;icnt;i++){

if(s.indexOf(str[i])-1){

number++;

}

}

returnnumber;

}

至此,完成了敏感詞過濾器軟件代碼的編寫工作,接下來可以進(jìn)行run操作,即可以得到待測(cè)文件庫中的待測(cè)文件包含敏感詞次數(shù)及出處等相關(guān)信息的結(jié)果。

3實(shí)驗(yàn)結(jié)果分析

敏感詞庫的存放路徑:D:\敏感詞典\file.txt;敏感詞庫文件中的內(nèi)容略。

待測(cè)文件庫的存放路徑:D:\敏感詞待測(cè)文件庫;文件庫中存放了三個(gè)文件,分別為:test1.txt、test2.txt、test3.txt.

運(yùn)行該過濾器軟件后,得出的檢測(cè)結(jié)果

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論