基于聚類算法和網(wǎng)頁創(chuàng)建研究_第1頁
基于聚類算法和網(wǎng)頁創(chuàng)建研究_第2頁
基于聚類算法和網(wǎng)頁創(chuàng)建研究_第3頁
基于聚類算法和網(wǎng)頁創(chuàng)建研究_第4頁
基于聚類算法和網(wǎng)頁創(chuàng)建研究_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、中南民族大學(xué)畢業(yè)論文(設(shè)計(jì))學(xué)院:數(shù)學(xué)與統(tǒng)計(jì)學(xué)學(xué)院專業(yè):13級題目:基于聚類算法和HTML5的網(wǎng)頁創(chuàng)建研究學(xué)生姓名:秦文志學(xué)號(hào):201321101028指導(dǎo)教師姓名:牛艷慶職稱:講師2017年05月05日中南民族大學(xué)本科畢業(yè)論文(設(shè)計(jì))原創(chuàng)性聲明本人鄭重聲明:所呈交的論文是本人在導(dǎo)師的指導(dǎo)下獨(dú)立進(jìn)行研究所取得的研究成果。除了文中特別加以標(biāo)注引用的內(nèi)容外,本論文不包含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫的成果作品。本人完全意識(shí)到本聲明的法律后果由本人承擔(dān)。作者簽名:年月日目錄TOC o 1-5 h z摘要1Abstract1 HYPERLINK l bookmark4 前言2 HYPERLINK l

2、 bookmark6 1聚類算法311聚類算法的由來3 HYPERLINK l bookmark8 12聚類算法的用途313聚類算法的分類31.3.1傳統(tǒng)聚類31.3.2現(xiàn)代聚類42聚類算法的應(yīng)用421聚類算法的應(yīng)用422聚類算法在此工程中的應(yīng)用8 HYPERLINK l bookmark10 3基于聚類算法和HTML5的網(wǎng)頁創(chuàng)建831Web文本挖掘832基于聚類算法的文本挖掘93.2.1中文分詞93.2.2聚類算法下的文本挖掘9 HYPERLINK l bookmark12 33HTML510H5發(fā)展歷程10H5的特性10H5的優(yōu)勢1034工程實(shí)現(xiàn)11 HYPERLINK l bookmar

3、k14 結(jié)論12致謝12 HYPERLINK l bookmark18 參考文獻(xiàn)13附錄14 基于聚類算法和HTML5的網(wǎng)頁創(chuàng)建研究摘要:隨著數(shù)據(jù)時(shí)代的來臨,社會(huì)對于數(shù)據(jù)的依賴趨勢扶搖直上,其一顯著表現(xiàn)就是在Internet上電子商務(wù)的日漸普及,線上操作便捷性越來越為人們所接受,人們已經(jīng)日漸不滿足于以前的網(wǎng)上瀏覽瀏覽圖片文字,人們更多的是去按照自身的喜好、需求建立自身的網(wǎng)站,這些現(xiàn)象所帶來的是人們對于日常生活不自覺的信息化,或者說是對于商務(wù)模式的電子化的認(rèn)可,而對于這些資源面臨的網(wǎng)站建設(shè),其使用的語言就包羅萬象有諸多種類,就比如時(shí)下比較火的H5。本文是基于H5的代碼編譯與運(yùn)行在一些網(wǎng)站創(chuàng)建時(shí)與

4、聚類算法結(jié)合進(jìn)行分析研究,最終成果在PC端web版上呈現(xiàn)。關(guān)鍵詞:電子商務(wù);網(wǎng)站建設(shè);HTML5;web版;聚類算法;Abstract:WebpagecreationbasedonclusteringmethodandHTMLWiththeadventoftheeraofsocialdata,thedependenceonthetrendofdataisasignificantrisedirectlytoahighposition,theInternete-commercehasbecomemoreandmorepopular,onlineconvenienceisacceptedbypeop

5、lemoreandmore,peopleareincreasinglynotsatisfiedwiththepreviousonlinebrowsepictures,peoplearemorelikelytosetuptheirownwebsiteaccordingtoitsownthepreferencesanddemandbroughtaboutbythesephenomenaisthedailylifeunconsciouslyinformation,oristhebusinessmodelofelectronicapprovalforconstructionsitefacingthes

6、eresources,therearemanytypesofthelanguagesuchasthefirecoverandcontaineverything,nowadaysH5.WeKeywords:creatawebpagebyusingtheclusteringmethodandhtml.ElectronicBusiness;Websiteconstruction;HTML5;Webversion;Clusteringalgorithm;前言超級文本標(biāo)記語言作為標(biāo)準(zhǔn)通用標(biāo)記語言1下的一個(gè)應(yīng)用,是一種規(guī)范,也是一種標(biāo)準(zhǔn),它通過標(biāo)記符號(hào)來標(biāo)記要顯示的網(wǎng)頁的各個(gè)部分。網(wǎng)頁文件本身是一種文本文

7、件,通過在文本文件中添加標(biāo)記符,可以告訴瀏覽器如何顯示其中的內(nèi)容(如:文字如何處理,畫面如何安排,圖片如何顯示等)。瀏覽器按順序閱讀網(wǎng)頁文件,然后根據(jù)標(biāo)記符解釋和顯示其標(biāo)記的內(nèi)容,對書寫出錯(cuò)的標(biāo)記將不指出其錯(cuò)誤,且不停止其解釋執(zhí)行過程,編制者只能通過顯示效果來分析出錯(cuò)原因和出錯(cuò)部位。相對而言呢,很有可能我們眼里是同一個(gè)標(biāo)記符,但是在不同的編譯器里面,它提供的解釋是不一樣的。而H5則是2004年被WHATWG提出,于2007年被2007年被W3C接納,并建立成立了新的HTML工作團(tuán)隊(duì)。HTML5最大的優(yōu)勢就是在網(wǎng)頁上直接調(diào)試和修改??赡茉瓉淼拈_發(fā)人員需要花費(fèi)非常大的力氣才能達(dá)到HTML5的效果,

8、不斷地重復(fù)編碼、調(diào)試和運(yùn)行,才能夠?qū)栴}解決oHTML文本的編譯軟件2大體可以分為三種:(1)基本文本文檔編輯軟件使用系統(tǒng)自帶的記事本或者寫字板都可以編寫,不過需要注意的是在文件保存的時(shí)候記得用.html或.htm作為文件的擴(kuò)展名,這樣一來,瀏覽器就可以直接解釋執(zhí)行了。(2)半所見即所得軟件如:FCK-Editer、E-webediter等在線網(wǎng)頁編輯器;(3)所見即所得軟件所見即所得軟件是使用最廣泛的編輯器,對于基礎(chǔ)薄弱的同學(xué)來講也可以做出網(wǎng)頁,如:AMAYA、FRONTPAGE、Dreamweaver;所見即所得軟件與版所見即所得軟件相比,開發(fā)速度更快,效率更高,且直觀表現(xiàn)更強(qiáng)。任何地方進(jìn)

9、行修改只需要刷新即可顯示。那么缺點(diǎn)則是生成的代碼結(jié)構(gòu)復(fù)雜,并不利于大型網(wǎng)站的多人協(xié)作和精準(zhǔn)定位等高級功能的實(shí)現(xiàn)。本工程所采用的軟件則是IntelliJIDEA14.0.3版本。HTML的編譯碼在網(wǎng)頁中除了標(biāo)準(zhǔn)的ASCLL碼及漢字外,HTML還有許多特殊字符,一起構(gòu)成了HTML的字符集。比如說開始標(biāo)簽vp結(jié)束標(biāo)簽v/p;超鏈接標(biāo)簽ahref=”v/a;br/,而在本文中所創(chuàng)建的網(wǎng)站則是采用的大部分vtablex/table標(biāo)簽(table:定義表格)本文主要討論了聚類算法及其在HTML中的應(yīng)用。大體分為三個(gè)部分:第一部分大體講述了聚類算法的基本知識(shí);第二部分是對于聚類算法在實(shí)際中的應(yīng)用作出闡釋;

10、第三部分是論文的主要內(nèi)容,聚類算法下的文本挖掘依托在HTML5的基礎(chǔ)上將信息優(yōu)化,而后構(gòu)建了新的網(wǎng)頁。1聚類算法11聚類算法的由來聚類分析呢是由某一種相似性準(zhǔn)則將樣本空間分成了許多個(gè)子空間,而后使相對的每個(gè)子空間內(nèi)部的樣本盡可能相似,另外對于不同的子空間它的內(nèi)部的樣本點(diǎn)之間的不同點(diǎn)盡可能的大,聚類分析的實(shí)質(zhì)是要找藏在資源中不一樣的數(shù)據(jù)模型,而這一過程稱之為無監(jiān)督學(xué)習(xí)過程,它能夠做到對樣本空間的盲分類。聚類分析的特點(diǎn)就有在它大部分的算法的相似都是來源于距離,但是在現(xiàn)實(shí)當(dāng)中,每個(gè)數(shù)據(jù)庫都擁有自身的特點(diǎn)。而將樣品的按相似度劃分類別,是的劃分之后的群的相似性更強(qiáng)。12聚類算法的用途聚類主要的應(yīng)用是在模

11、式識(shí)別的字符和語音的識(shí)別,而在機(jī)器中聚類算法則是應(yīng)用在機(jī)器視覺和圖像的分割,另外在圖像處理中的聚類主要應(yīng)用于是多關(guān)系挖掘、時(shí)空數(shù)據(jù)庫應(yīng)用、序列及異類分析等。除了數(shù)學(xué)以外,聚類在其他學(xué)科也如魚得水,比如心理學(xué)、地質(zhì)學(xué)、考古學(xué)和市場營銷等學(xué)科,也都起了不小的左右。而聚類的過程主要包括:數(shù)據(jù)準(zhǔn)備,特征標(biāo)準(zhǔn)化和降維;特征選擇:在特征當(dāng)中選取最有效的特征,并在向量當(dāng)中存儲(chǔ)該特征。13聚類算法的分類目前的聚類算法當(dāng)是百花齊放,多種多樣,我參考了諸多文獻(xiàn)覺得一種分類最為合適,便是利用按其發(fā)展歷程分之為傳統(tǒng)和現(xiàn)在兩種聚類算法,之后再細(xì)細(xì)劃分。1.3.1傳統(tǒng)聚類劃分法是屬于硬聚類,它的核心思想是把初始的數(shù)據(jù)集合

12、分開成N個(gè)簇,每個(gè)簇它都至少包含了一條數(shù)據(jù)的記錄,然后通過不停的反復(fù)迭代之后,顯而易見的結(jié)果就是能夠讓每個(gè)簇都不再改變即得出聚類結(jié)果。那么劃分聚類在初始的一部中即將數(shù)據(jù)分成給定個(gè)數(shù)個(gè)簇。當(dāng)然在這個(gè)過程當(dāng)中,還需要使用準(zhǔn)則函數(shù)對結(jié)果進(jìn)行判斷,這樣就比較容易產(chǎn)生最有聚類結(jié)果。層次分析法的核心思想則是對給定的待聚類數(shù)據(jù)集合進(jìn)行層次化的分解,這種算法又被稱之為數(shù)據(jù)類算法這種算法就是來源于一定的連接規(guī)矩則將數(shù)據(jù)以層次的架構(gòu)分開或者聚合,最后成為了聚類結(jié)果。在算法的抉擇來看,層次聚類將之分為自上而下的分裂聚類和自下而上的聚合聚類。無論是劃分法還是層次法,他們的基礎(chǔ)都是都是以劃分距離,這樣的后果就是容易產(chǎn)生

13、類圓形的凸聚類,但是密度的算法正好能夠彌補(bǔ)這類缺點(diǎn)。對于密度算法而言,它的核心思想呢則是在當(dāng)前的聚類或者換成某一個(gè)聚類,都能夠?qū)⒃诳臻g中的超出某一閾值的密度的這樣的一個(gè)點(diǎn)加入進(jìn)來?;诰W(wǎng)格的方法是對于聚類方法中的采用以網(wǎng)格的方法,通過利用一個(gè)多分辨率的網(wǎng)格的數(shù)據(jù)結(jié)構(gòu),能夠?qū)⒃摽臻g劃分成為許多有限個(gè)單元,然后我們的操作都是以單個(gè)單元作為主體進(jìn)行,這樣的方式會(huì)使我們的效率大大增加,能夠讓算法處理的速度很快。1.3.2現(xiàn)代聚類量子聚類隨著量子力學(xué)理論的強(qiáng)勢崛起,量子計(jì)算不但在物理學(xué)方面對學(xué)術(shù)的極大推進(jìn),在其他是指方面也是頗多建樹。譜聚類作為聚類分析中方興未艾一支,也是這些年以來對于機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘比

14、較火熱的方向。對于傳統(tǒng)的聚類當(dāng)中所存在的問題,比如樣本空間形狀帶來的局限性,譜聚類在原本的譜圖理論基礎(chǔ)上,就有花了該問題。模糊的數(shù)據(jù)集分化是被Ruspini在1969年首次提出,并且他還系統(tǒng)的探究了關(guān)于模糊聚類的算法,這也是人們首次對模糊聚類算法的探究。后來的人們也曾提出了對于模糊關(guān)系在聚類算法中的位置。但是,因?yàn)檫@些數(shù)據(jù)的集合都是十分龐大的,由于缺少有效的計(jì)算途徑間接的也就導(dǎo)致了這方面的研究逐漸變少。2聚類算法的應(yīng)用21聚類算法的應(yīng)用聚類算法K-means首先要來了解Classification,與Classification分類)不同,對于一個(gè)classifier,通常需要你告訴它“這個(gè)東

15、西被分為某某類”這樣一些例子,理想情況下,一個(gè)classifier會(huì)從它得到的訓(xùn)練集中進(jìn)行“學(xué)習(xí)”,從而具備對未知數(shù)據(jù)進(jìn)行分類的能力,這種提供訓(xùn)練數(shù)據(jù)的過程通常叫做supervisedlearning(監(jiān)督學(xué)習(xí)),而在聚類的時(shí)候,我們并不關(guān)心某一類是什么,我們需要實(shí)現(xiàn)的目標(biāo)只是把相似的東西聚到一起,因此,一個(gè)聚類算法通常只需要知道如何計(jì)算相似度就可以開始工作了,因此clustering通常并不需要使用訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí),這在MachineLearning中被稱作unsupervisedlearning(無監(jiān)督學(xué)習(xí))。我們經(jīng)常接觸到的聚類分析,一般都是數(shù)值聚類,一種常見的做法是同時(shí)提取N種特征,將

16、它們放在一起組成一個(gè)N維向量,從而得到一個(gè)從原始數(shù)據(jù)集合到N維向量空間的映射你總是需要顯式地或者隱式地完成這樣一個(gè)過程,然后基于某種規(guī)則進(jìn)行分類在該規(guī)則下,同組分類具有最大的相似性。假設(shè)我們提取到原始數(shù)據(jù)的集合為(x,x.x),并且每個(gè)xi為d維的向量,K-means12n聚類的目的就是,在給定分類組數(shù)k(kn)值的條件下,將原始數(shù)據(jù)分成k類S=S,S,.S,在數(shù)值模型上,即對以下表達(dá)式求最小值9:12nargmin另工|x-卩j1Si=1x,es.這里卩表示分類S的平均值。那么在計(jì)算機(jī)編程中,其又是如何實(shí)現(xiàn)的呢?其算法步驟一ii般如下:1、從D中隨機(jī)取k個(gè)元素,作為k個(gè)簇的各自的中心。2、分

17、別計(jì)算剩下的元素到k個(gè)簇中心的相異度,將這些元素分別劃歸到相異度最低的簇。3、根據(jù)聚類結(jié)果,重新計(jì)算k個(gè)簇各自的中心,計(jì)算方法是取簇中所有元素各自維度的算術(shù)平均數(shù)。4、將D中全部元素按照新的中心重新聚類。5、重復(fù)第4步,直到聚類結(jié)果不再變化。6、將結(jié)果輸出。用數(shù)學(xué)表達(dá)式來說,設(shè)我們一共有N個(gè)數(shù)據(jù)點(diǎn)需要分為K個(gè)cluster,k-means要做的就是最小化9茲工klln=1k=1這個(gè)函數(shù),其中r在數(shù)據(jù)點(diǎn)n被歸類到clusterk的時(shí)候?yàn)?,否則為0。直接尋nk找r和卩來最小化J并不容易,不過我們可以采取迭代的辦法:先固定卩,選擇nkkk最優(yōu)的r,很容易看出,只要將數(shù)據(jù)點(diǎn)歸類到離他最近的那個(gè)中心就

18、能保證J最小下一nk步則固定r,再求最優(yōu)的卩。將J對卩求導(dǎo)并令導(dǎo)數(shù)等于零,很容易得到J最小nkk的時(shí)候卩應(yīng)該滿足10:k工rxnnkn乙rnnk亦即卩的值應(yīng)當(dāng)是所有clusterk中的數(shù)據(jù)點(diǎn)的平均值。由于每一次迭代都是取到J的k最小值,因此J只會(huì)不斷地減?。ɑ蛘卟蛔儯粫?huì)增加,這保證了k-means最終會(huì)到達(dá)一個(gè)極小值。雖然k-means并不能保證總是能得到全局最優(yōu)解,但是對于這樣的問題,像k-means這種復(fù)雜度的算法,這樣的結(jié)果已經(jīng)是很不錯(cuò)的了。首先3個(gè)中心點(diǎn)被隨機(jī)初始化,所有的數(shù)據(jù)點(diǎn)都還沒有進(jìn)行聚類,默認(rèn)全部都標(biāo)記為紅色如下圖所示:圖2-13個(gè)中心點(diǎn)隨機(jī)初始化11然后進(jìn)入第一次迭代:

19、按照初始的中心點(diǎn)位置為每個(gè)數(shù)據(jù)點(diǎn)著上顏色,重新計(jì)算3個(gè)中心點(diǎn),結(jié)果如下圖所示:5圖2-2第一次迭代11可以看到,由于初始的中心點(diǎn)是隨機(jī)選的,這樣得出來的結(jié)果并不是很好,接下來是下一次迭代的結(jié)果:5圖2-3第二次迭代11可以看到大致形狀已經(jīng)出來了。再經(jīng)過兩次迭代之后,基本上就收斂了,最終結(jié)果如下:55圖2-4第三次迭代11不過正如前面所說的那樣k-means也并不是萬能的,雖然許多時(shí)候都能收斂到一個(gè)比較好的結(jié)果,但是也有運(yùn)氣不好的時(shí)候會(huì)收斂到一個(gè)讓人不滿意的局部最優(yōu)解,例如選用下面這幾個(gè)初始中心點(diǎn):八、圖2-5更換初始中心點(diǎn)11最終會(huì)收斂到這樣的結(jié)果:10503510皆5圖2-6最終收斂結(jié)果11

20、22聚類算法在此工程中的應(yīng)用在此工程中擁有大量的文本信息,Web文本聚類切的對象也一般都是在網(wǎng)絡(luò)搜索端返回來的額查詢的結(jié)果,或者呢則是具有其特定主題的文檔合集。工程中的文檔雖然不算是數(shù)量龐大,但是仍對存儲(chǔ)有一定的需求。書中14是這樣說的,將Web文本所聚類算法需要滿足的關(guān)鍵性的條件列出了六條:增量性、速度、摘要容錯(cuò)性、交疊性、產(chǎn)生可瀏覽的“簇”信息、相關(guān)性。那這六種特性限制了文本的聚類算法選擇空間,而且對此工程中文本信息的聚類算法提供了較好的思路。3基于聚類算法和HTML5的網(wǎng)頁創(chuàng)建3.1Web文本挖掘本文的最終目的是將聚類算法與Web文本挖掘15的結(jié)合運(yùn)用到此網(wǎng)站的建設(shè),雖然網(wǎng)站的主體并非W

21、eb文本聚類算法,但是網(wǎng)站運(yùn)行之后有諸多的文本信息,需要運(yùn)用到此類Web文本聚類算法來優(yōu)化網(wǎng)站的性能。在這之前本文先來闡述一下“Web文本挖掘”:Web挖掘是將網(wǎng)站中的資源抽象出來,但是它不僅僅是所操作的網(wǎng)站中包含的資源,而且也可以是對于Web操作自身之后所產(chǎn)生的各種數(shù)據(jù)。根據(jù)他的特點(diǎn)可以將之大概分成幾類:(1).網(wǎng)頁文本包含的信息。(2)網(wǎng)頁內(nèi)部的相關(guān)結(jié)構(gòu),其中包括HTML或者XML標(biāo)記。(3).網(wǎng)頁與網(wǎng)頁之間的嵌套連接結(jié)構(gòu)。(4).記錄訪問網(wǎng)頁的數(shù)據(jù)。(5).用戶的訪問信息,訪問人數(shù)統(tǒng)計(jì)的信息、注冊信息和從相關(guān)的控件中獲取的信息。32基于聚類算法的文本挖掘3.2.1中文分詞中文分詞16的方

22、法是二元分詞,基于詞(或詞典)的方法詞典則是雙Trie樹結(jié)構(gòu),基于規(guī)則,最大匹配(最長詞優(yōu)先匹配)正向最大匹配(MM)、反向最大匹配(RMM)、雙向最大匹配、最小匹配。對于逐詞遍歷匹配法,它是基于統(tǒng)計(jì)、基于字標(biāo)注(無詞典)的方法。最大熵模型指的是ME、條件隨機(jī)場CRF。對于中文分詞的一般過程分為基本切分、詞語排歧、未登錄詞識(shí)別、詞性標(biāo)注等。3.2.2聚類算法下的文本挖掘聚類算法下的文本挖掘流程分成三個(gè)步驟,通過這三個(gè)步驟我們可以找到影響聚類分析效果四個(gè)方面的因素。聚類算法17三個(gè)步驟的實(shí)際處理內(nèi)容為文本聚類分析首先將文本表示成機(jī)器可計(jì)算的形式。不論是抽取文本特征形成一個(gè)向量還是抽取文本特征后形

23、成一個(gè)特殊的結(jié)構(gòu),對文本的這種機(jī)器表示過程簡稱為文本表示。文本在表示過程顯然需要領(lǐng)域知識(shí)參與,文本中哪些因素可以構(gòu)成特征,特征中哪些在聚類中可用以及如何使用是文本聚類第一步驟文本表示考察的內(nèi)容;其次是文本聚類分析的第二個(gè)步驟是算法。不同的算法有不同的特性,對相同的數(shù)據(jù)輸入,不同的算法會(huì)產(chǎn)生出不同的聚類結(jié)果。這個(gè)步驟中算法的時(shí)空效率、聚類結(jié)果質(zhì)量是研發(fā)中選擇算法的主要標(biāo)準(zhǔn)。該步驟還有一個(gè)關(guān)鍵因素就是對象距離(或者相似度)如何定義;最后則是第三個(gè)步驟是算法中參數(shù)的選擇。不同的算法對參數(shù)的敏感性不同,但是基本上參數(shù)的好壞對結(jié)果的影響都比較顯著。從這三個(gè)步驟可以看出影響文本聚類分析效果的因素包括四個(gè)方

24、面:文本表示模型、距離度量方法、算法模型和參數(shù)優(yōu)化。參數(shù)的設(shè)定主觀性比較強(qiáng),如何設(shè)定一個(gè)行之有效的參數(shù)則是比較重要的。在實(shí)際中基于聚類算法的文本挖掘的程序下,以新浪網(wǎng)為例,驗(yàn)證信息,在文本信息聚類、消冗、融合、生成之后,我們設(shè)置后將其分為10類,汽車、財(cái)經(jīng)、IT、健康、體育、旅游、教育、招聘、文化、軍事。名稱修改日期類型k小汽車017/5/1314:55文件吳2017/5/1314:55文聯(lián)2017/5/1314:55文磁2017/5/1314:55文磁2017/5/1314:552017/5/1314:552017/5/1314:55文倍2017/5/1314:552017/5/1314:5

25、5文磁2017/5/1314:55圖3-1基于聚類算法文本挖掘后的效果圖33HTML5此工程的主體是依托在H5基礎(chǔ)上進(jìn)行的,下面著重介紹下時(shí)下最火熱的編譯語言之一:HTML5(H5)。H5發(fā)展歷程談到HTML5,就要從1991年的時(shí)候開始,HTML1始于1991開始發(fā)展,到了93年的時(shí)候HTMLM發(fā)布,等到了1999年的時(shí)候HTML已經(jīng)從1發(fā)展到了第四代,之后卻草草收場。直到大概10年之后互聯(lián)網(wǎng)不斷發(fā)展,對于HTML的需求讓人們急需一種更加智能更加靈活的語言,到了2008年,HTML5應(yīng)運(yùn)而生??墒侵钡?014年的時(shí)候,對于H5的最終的標(biāo)準(zhǔn)定制加上之后的全面開放,成為了時(shí)下最為火熱的語言之一。

26、那么對于HTML5而言,另一個(gè)更加重要的地方就是能夠支持其完整健康運(yùn)行的編譯器,不過這個(gè)問題對于瀏覽器廠商們輕而易舉,包括目前比較火熱的諸多瀏覽器:谷歌瀏覽器、火狐瀏覽器、獵豹、QQ、搜狗等等。本文所采用的則是Chrome(谷歌瀏覽器)。H5的特性簡化的文檔類型和字符集文檔類型之所以能夠做到這么簡單,是因?yàn)镠TML5已經(jīng)成為了一種獨(dú)立的標(biāo)記語言,不需要再去考慮文檔的類型。.字符集新結(jié)構(gòu)元素section元素可以認(rèn)為div是section元素,一個(gè)普通的分塊元素,可用來定義網(wǎng)站中的特定的可區(qū)別的區(qū)域header元素包括標(biāo)題,logo,導(dǎo)航和其他頁眉的內(nèi)容,可以在網(wǎng)站上加多個(gè)header,就像給內(nèi)

27、容加多個(gè)標(biāo)題hgroup元素即將標(biāo)題進(jìn)行分組的元素footer元素版權(quán)聲明和作者信息,包涵一些鏈接nav元素主要用于主導(dǎo)航菜單article元素獨(dú)立成文且以其他格式重用的內(nèi)容應(yīng)該置于一個(gè)article元素中aside元素用途包涵內(nèi)容周圍的相關(guān)內(nèi)容H5的優(yōu)勢跨平臺(tái)指的是對于H5【19的主要應(yīng)用者開發(fā)人員來講,在如今的時(shí)代不同的系統(tǒng)、不同的應(yīng)用端,開發(fā)的痛苦指數(shù)很高,對于開發(fā)者而言,疲于奔命的去為不同的平臺(tái)開發(fā)諸多版本首先經(jīng)歷上就不現(xiàn)實(shí),跨平臺(tái)技術(shù)在早期的時(shí)候許多都是因?yàn)檫\(yùn)行端的性能出了問題,導(dǎo)致無法進(jìn)行下去,但無可否認(rèn)的是,跨平臺(tái)技術(shù)是剛需。快速迭代指的是如今的信息化爆炸的時(shí)代,人們的生活節(jié)奏越

28、來越快,隨之導(dǎo)致的現(xiàn)象就是人們的碎片化時(shí)間越來越多,相應(yīng)的人們對于產(chǎn)品的體驗(yàn)時(shí)間也越來越少,誰能夠更快的滿足用戶的需求,誰能夠更多的降低自己的成本,誰的優(yōu)勢也就越大,占領(lǐng)的市場也就越多。而且對于互聯(lián)網(wǎng)而言,很多的網(wǎng)絡(luò)產(chǎn)品都是免費(fèi)的且有網(wǎng)絡(luò)的效應(yīng),這樣就導(dǎo)致后來者在用戶資源上搶奪的難度非常大。持續(xù)交付的意思是指在了解原生應(yīng)用的特性之后,發(fā)現(xiàn)了這樣的一個(gè)問題,就是如果原生應(yīng)用突然出現(xiàn)了一個(gè)較大bug,作為維護(hù)人員只能連夜加班修復(fù),但是之后還要等待半個(gè)月乃至更長的App審核,然后對于App的用戶而言,這半個(gè)月的事件是無法容忍的,可以預(yù)見的場面就是一片差評,用戶大量流失,很有可能等你的更改后的App上

29、線之后,用戶已經(jīng)卸載了,這種情況只會(huì)越來越嚴(yán)重。但是對于HTML5而言,這些問題都是不存在的,HTML5的實(shí)時(shí)更新功能能夠完美的解決這些問題。成本下降對于創(chuàng)業(yè)者而言,融資是其能夠接下來持續(xù)健康的生存的重要一環(huán),如果你利用原生開發(fā)的App和競爭對手利用HTML5所開發(fā)的應(yīng)用沒什么兩樣的時(shí)候,誰的錢花得更加高效,誰就更容易拿到融資,而原生應(yīng)用與HTML的差價(jià)顯而易見,近乎高出一倍。開源生態(tài)系統(tǒng)對于HTML5而言,其前端是開放的、正反饋的循環(huán)生態(tài)系統(tǒng),其所擁有的大量的數(shù)據(jù)庫是開源的,這樣就讓我們的開發(fā)更加輕敏捷??梢灶A(yù)見的是,這樣的生態(tài)系統(tǒng)比原生生態(tài)系統(tǒng)的生命力是更加強(qiáng)勁的。數(shù)據(jù)交換指的是首先,在H

30、TMU20中,它的數(shù)據(jù)交換是開放的,它是利用page為單位進(jìn)行開放代碼的,如此一來,它就不需要傳統(tǒng)的SDK重新開發(fā)與其他應(yīng)用交換數(shù)據(jù)時(shí),只要不混淆,那么與其他應(yīng)用的數(shù)據(jù)交換時(shí)就能夠做到完美。另外,開發(fā)人員很容易就能夠手機(jī)搜索引擎檢索到自己的數(shù)據(jù),從而能夠通過跨應(yīng)用來滿足用戶。易推廣、易爆發(fā)意味著:HTML的入口極多,比如搜索引擎、瀏覽器、應(yīng)用市場和App等,都可以作為HTML5的流量入口,而對于原生App的流量入口只有應(yīng)用市場。如此一來HTML5的市場優(yōu)勢不言而喻。使用門檻低的意思是在現(xiàn)在的這種流媒體大行其道的時(shí)候,HTML5的優(yōu)勢在于用戶眼睛看到一個(gè)興奮點(diǎn),點(diǎn)擊后就應(yīng)該立即滿足用戶需求。比如

31、視頻可以立即看、頁游可以立即玩。在未來的市場,這種即點(diǎn)即用將成為大勢。優(yōu)秀的體驗(yàn)對于HTML5的應(yīng)用而言,它可以做到繞開應(yīng)用市場的限制自主進(jìn)行實(shí)時(shí)更新。比如我在做網(wǎng)站的時(shí)候,某個(gè)頁面出了問題,只需要更新問題所在的jsp文件,只需要更新幾k的小文件就能夠完成了??鐟?yīng)用指的是未來在HTML5的應(yīng)用體系下,手機(jī)端用戶能夠不切回桌面能夠在App間自由切換,用戶體驗(yàn)的也再非孤島App,就不用再重復(fù)的錄入數(shù)據(jù)等。3.3.4H5的趨勢VR、AR的新技術(shù):2016年是VR及AR的元年,作為其中的一顯著表現(xiàn)則是手游PokemonGo的大火,也是讓它成為了H5作品的新寵兒。H5即將成為信息傳遞的最大橋梁:在時(shí)下信

32、息化爆炸的時(shí)代無論是廣告宣傳、活動(dòng)炒作等等,我們都能看到H5的身影。注重創(chuàng)意:對于H5行業(yè)的規(guī)范化,創(chuàng)意成為其重中之重,倘若創(chuàng)意足夠好,隨之一些硬性標(biāo)準(zhǔn)也會(huì)為之放開。34工程實(shí)現(xiàn)此工程的最終呈現(xiàn)研究院新聞咨訊人才培訓(xùn)咨詢展務(wù)科技推廣政策法規(guī)專題研討工作動(dòng)態(tài)城鄉(xiāng)建設(shè)聯(lián)盟關(guān)于開展水利水電工程施工現(xiàn)場管理人員囪位證書培訓(xùn)工作的通知I,neralwaling,哥拜耳水嗣GberENVIRONMENTALPROTECTION哥強(qiáng)絆有馳謔7集科氐生桔配為-躺擰型制按企業(yè)真主護(hù)品有敢浹性ds沖.無揣運(yùn).離專用韶杭駆子等,產(chǎn)品均不站朋曲學(xué)獺,天然棘.在科技飛雜離今天,戯開發(fā)出妙轉(zhuǎn)弊的無機(jī)分子賣戦札鳩弓威中訓(xùn)裝

33、行業(yè)的-肚飢II新聞資訊oooo水性無機(jī)礦物涂料發(fā)展及前杲無機(jī)礦物涂料產(chǎn)品特色簡介水性無機(jī)礦物涂料水性無機(jī)礦物地坪涂料咨詢.服勞f水利五大員人才培訓(xùn)水利三類人員人才培訓(xùn)一級建造師培訓(xùn)水利安全生產(chǎn)標(biāo)準(zhǔn)化翟設(shè)倍訓(xùn)注冊消防師培訓(xùn)水利遂設(shè)市場主體信用評們安全生產(chǎn)標(biāo)準(zhǔn)化考核建筑企業(yè)資質(zhì)升級項(xiàng)目翟設(shè)投融資水性無機(jī)礦物防銹涂料版權(quán)所有:城鄉(xiāng)翟設(shè)聯(lián)盟未經(jīng)許可不得復(fù)制備案編號(hào):京ICF備16045385號(hào)城鄉(xiāng)建設(shè)聯(lián)盟POWEREDBYCHENGXIANGJIANSHEUANMENG圖3-2網(wǎng)頁圖地址:北京市海淀區(qū)翠徽路12號(hào)新華聯(lián)國際電話1郵箱:zjftyjy8結(jié)論伴隨著信息化時(shí)代的變

34、革,網(wǎng)絡(luò)作為人們生活所不可或缺的一部分,它的變化可謂日新月異,伴隨而來的信息過剩就意味著文本挖掘的市場,本文則是依托聚類算法,最終在工程當(dāng)中實(shí)現(xiàn)了文本挖掘,當(dāng)然最終呈現(xiàn)的是一個(gè)完整的網(wǎng)站。致謝十分謝謝中南民族大學(xué)對我四年來的辛勤培育,亦是十分榮幸數(shù)統(tǒng)學(xué)院所給予的四年優(yōu)秀的學(xué)習(xí)與生活環(huán)境,如今面臨畢業(yè),而本人的論文則是依托在牛艷慶老師的精心指導(dǎo)下完成的,從一開始的論文選題方向,到之后的題目確定,牛老師一直以她的博學(xué)多識(shí)激勵(lì)我要好好的精磨自己的作品,這種精神不僅對我的論文大有裨益,對我的人生態(tài)度也是受益匪淺。牛老師誠然當(dāng)?shù)钠稹盀槿藥煴怼彼淖?。?jīng)過整整兩個(gè)月的工作與學(xué)習(xí),完成了基于HTML的算法分析

35、研究這篇論文,本文基于時(shí)下比較火熱的開發(fā)語言H5,結(jié)合大學(xué)的算法課程,利用聚類算法所具有的優(yōu)良特性,在H5的代碼里合二為一,這段時(shí)間我也是收獲頗豐,從一個(gè)小白一步步的成長,也算是體驗(yàn)了一回衣帶漸寬終不悔,為伊消得人憔悴的感覺,看到代碼能夠成功運(yùn)行的那一刻也當(dāng)?shù)盟闶鞘謿g喜。在此,我對牛老師示以我最尊敬的情意和我最誠摯的感謝。參考文獻(xiàn)楊選輝.網(wǎng)頁設(shè)計(jì)與制作教程M.北京:清華大學(xué)出版社,2009.知新文化.HTML完全手冊與速查辭典M.北京:科學(xué)出版社,2007.秀野堂主,蔣宇捷,羅睿.論道HTML5M.北京:人民郵電出版社,2012.楊習(xí)偉.HTML5+CSS3網(wǎng)頁開發(fā)M.北京:清華大學(xué)出版社,

36、2013.1.李燁民基于HTML5的前端本地化存儲(chǔ)技術(shù)J.成都大學(xué)學(xué)報(bào)(自然科學(xué)版),2012.31(1):67-69.劉洪發(fā).應(yīng)用于網(wǎng)頁制作實(shí)訓(xùn)教材M.西安:西安電子科技大學(xué)出版社,2013.高攀,施蔚然.深入分析HTML5在信息安全上的優(yōu)化M.信息安全與技術(shù),2012.8.曹永春,蔡正琦,邵亞斌.基于K-means的改進(jìn)人工蜂群聚類算法J計(jì)算機(jī)應(yīng)用,2014,23(2):1-13.孫吉貴,劉杰,趙連宇.聚類算法研究J.軟件學(xué)報(bào)2008,19(1):48-61.陳黎飛,姜青山,王聲瑞.基于層次劃分的最佳聚類確定方法J.軟件學(xué)報(bào),2008,19(1):62-72.anson20041110 H

37、YPERLINK /anson2004110/article/details/12277311 /anson2004110/article/details/12277311董一鴻,莊越挺.基于新型的競爭型神經(jīng)網(wǎng)絡(luò)的Web日志挖掘J.計(jì)算機(jī)研究與發(fā)展,2003.40(5)661-667.邵峰晶,于忠清.數(shù)據(jù)挖掘原理與算法M.北京;中國水利水電出版社,2007.OrenZamir,OrenEtzioni.WebDocumentClustring:AFeasibilityDemonstrationC.InProceedingsofthe21stAnnualInternationalACMSIGIRC

38、onferenceonResearchandDevelopmentInInformationRetrieval,1998蔣良孝,蔡之華,JIANGLiang-xiao,CAIZhi-hua.文本挖掘及其應(yīng)用J.現(xiàn)代計(jì)算機(jī)(專業(yè)版)2003.朱紅燦,孟志青,ZHUHong-Can,MENGZhi-Qing.一種基于SOM和層次凝聚的中文文本聚類方法J.湘潭大學(xué)自然科學(xué)學(xué)報(bào)2005,27(3)任江濤,孫婧昊,施瀟瀟,黃煥宇,印鑒.一種用于文本聚類的改進(jìn)的K均值算法J.計(jì)算機(jī)應(yīng)用2006,26(b06):73-75.趙祖蔭,王云翔,胡耀芳網(wǎng)頁設(shè)計(jì)與制作教程M.北京:清華大學(xué)出版社,2008.劉培文,

39、韓小祥.ASP.NET程序設(shè)計(jì)教程M.北京:中國人民大學(xué)出版社,2009.陳會(huì)安.JavaScript基礎(chǔ)與實(shí)例教程M.北京:中國電力出版社,2007.金旭亮.ASP.NET程序設(shè)計(jì)教程M.北京:高等教育出版社,2009.附錄:v%pagecontentType=text/html;charset=UTF-8languagejava%v%includefile=/commons/includes/taglibs.jsp%v!DOCTYPEhtmlvtitle$site.titlev/titlev/scriptvtablestyle=width:1000pxcellspacing=0cellpadding=0align=centervTBODYvtableborder=0cellspacing=Ocellpadding=Owidth=1000background=$ctx/images/head/top_03gifalign=centerheight=29style=fon

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論