如何使用Internet的查詢工具_第1頁
如何使用Internet的查詢工具_第2頁
如何使用Internet的查詢工具_第3頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

如何使用Internet的查詢工具

Internet就像一個浩瀚的知識海洋,里面蘊藏著取之不盡的信息寶藏。如何挖掘開采它,獲得人們需要的東西,目前還存在著兩方面的問題:首先,人們手頭的查詢工具太多,有WWW(WorldWideWeb)、Gopher、FTP以及不計其數(shù)的專題新聞組、消息表等等;其次,Internet網(wǎng)上的資源沒有確定的分類,人們要查找的是一堆毫無組織、地址不唯一的信息。同時,那些熱心的程序員、廠商、經(jīng)紀人還在源源不斷地往Internet上填充著他們的東西。這無形中給檢索工作帶來了很大難度,沒有一定的方法,在Internet上查詢信息猶如大海撈針。哪種情況下該用什么樣的工具幫你簡便快捷地找到你想要的信息,看了本文以后,或許會對你有所幫助。目錄幫助假如你要查找人們普遍感興趣的題目,如內(nèi)戰(zhàn)或者熱線財經(jīng)一類的消息并找到其網(wǎng)絡(luò)地址,通常這類目錄會很大,而且有按專題組織的地址表。這種情況下,我們一般喜歡用Yahoo(地址:/)查找,它列出了8萬個網(wǎng)絡(luò)地址(包括Web頁、Gophers、FTP地址以及Usenet新聞組),頂層又按藝術(shù)、計算機、衛(wèi)生、保健等分成14類子題目。用鼠標點一下就可以選定子題目表,反復(fù)地查找子表,直到你找到需要的信息為止。除了Yahoo一類人們普遍感興趣的目錄外,專題目錄則覆蓋了從古文物到青年工人等各方面的信息。找到這些專用目錄的最佳途徑是可以去密執(zhí)根大學(xué)(地址:/chhome.html)查找那里的Clearinghouse,那里有面向?qū)n}的Internet資源指南。查詢引擎當人們意欲查詢Web提供的信息時,目錄項是非常有用的,用戶的問題越專有,待查的目錄項就越少。為了取得問題的答案,人們必須使用查詢引擎。查詢引擎實際上是一些Web頁,你可以在其中輸入你想要查找的文本串。按一下按鈕,等一會兒,引擎就會識別出與輸入的關(guān)鍵字匹配的Web地址表。在最近的Web查詢掃描中,我們查到60個這樣的頁,其中只有10頁是我們覺得有用的工具,其余的用處不大,或者只有計算機科學(xué)專業(yè)的研究生對之感興趣。每一個查詢引擎代表一個數(shù)據(jù)庫,里面含有Web頁的URL(UniversalResourceLocator或經(jīng)專門格式化后的Internet地址)地址以及其他網(wǎng)絡(luò)資源。大多數(shù)查詢引擎數(shù)據(jù)庫是由Crawler程序、漫游Web的軟件程序通過頁與頁的連接順次查找新的地址搜集而來的。這里,Crawler又被稱為機器人或蜘蛛。當蜘蛛找到新的頁時,就把新頁增加到數(shù)據(jù)庫中。這些數(shù)據(jù)庫存有成千上萬個Web頁,在引擎頭的位置每天都在增加新的頁。其中,多數(shù)人感興趣的引擎如Lycos和Excite覆蓋面最廣,其中每個數(shù)據(jù)庫有150萬個索引Web頁,其次是OpenTextIndex,據(jù)稱也有130萬個Web頁。每個數(shù)據(jù)庫引擎的大小對查找是否成功起著很大的作用,例如,我們想用字符串recipewheatBeer(釀啤酒秘訣)查詢每一個引擎,其結(jié)果是:最大的Lycos數(shù)據(jù)庫引擎提供給我們437個匹配頁(hit),InfoSeek和OpenTextIndex數(shù)據(jù)庫則每次提供200個頁,用其他數(shù)據(jù)庫則少于100頁,有幾種情況下,甚至查不到一個Web頁。通常的情形是,數(shù)據(jù)庫越小,查到的Web頁就越少。大多數(shù)數(shù)據(jù)庫引擎嚴格限制其只能檢索Web本身,InfoSeek和Excite則比其他引擎更進一步,它們增加了Usenet新聞組索引。InfoSeek還允許用戶查詢就近的一組非Internet數(shù)據(jù)庫的信息。索引中的信息Web的蜘蛛程序比URL采集信息做得要多一些,它們還搜集有關(guān)每一頁的信息,一旦你提交一個查詢,查詢引擎的backend軟件就建立起一個你所需信息的索引。從一個引擎到另外一個引擎,其索引技術(shù)是各不相同的,你不要因此感到奇怪。在每個引擎中,都有一個頁的索引URL地址和題目。多數(shù)引擎還有每一段的索引標題,其他的引擎則只是記錄了頻繁提到的詞或者文本的頭幾行。在OpenTextIndex數(shù)據(jù)庫引擎中,頁的每一個單詞都有索引,甚至包括and一類別的引擎忽略的詞也有。結(jié)果可想而知,它理所當然成了唯一能在查找過程中返回是或者不是的查詢工具。即使不包含你所指定的關(guān)鍵字,Excite基于概念的索引也能夠幫助人們找到相關(guān)的頁。找到匹配頁并不意味著查詢成功。一方面,數(shù)據(jù)庫的大小確定了它查到的匹配頁的多少,另一方面,索引質(zhì)量的好壞還要由有多少個匹配頁與你的查詢相關(guān)來確定。如我們通過每一個查詢引擎查找北卡羅來納三角地的房地產(chǎn)信息,然后算一算在ChapelHill地區(qū)有多少個與之相關(guān)的匹配頁數(shù)。據(jù)統(tǒng)計,Web的Crawler返回19個匹配頁,我們從InfoSeek上獲得200多個匹配頁。但是實際上19個當中只有9頁是我們所想要的東西。大多數(shù)InfoSeek的匹配頁與房地產(chǎn)有關(guān),但是又有許多東西與北卡羅來納沒有任何關(guān)系。使用正確的工具無論數(shù)據(jù)庫有多大,待查數(shù)據(jù)庫有多么復(fù)雜,查詢引擎是你進行檢索的獨一無二的好工具。有時需要進行詞組的查詢,不同的數(shù)據(jù)庫處理詞組的方式不盡相同。InfoSeek用詞的主干部分來檢索與該部分匹配的頁,如欲查impressionism一詞,只需查找與impression匹配的頁即可。Lycos則將查詢項作為主干詞來處理,所以在這種引擎中,metal一詞就與metallic匹配。有幾種引擎允許用戶檢索所有的詞組,而不只是檢索被查詢串的個別單詞,它們檢索串組合成詞組的偶然搭配。有兩種引擎可以查到一個詞組的多種變化,這兩個引擎是Aliweb(地址:http://web.nexor.co.uk/public/aliweb.html)和CUI的W3Catalog(地址:http://uiwww.unige.ch/w3catalog)。另外,使用這些可用工具還有一個問題。在某些引擎中,允許用戶按指定的操作對用戶的查詢項求精。這將意味著在最基本的底層,你檢索到的地址包括待查串中的任何一個單詞或者項的全部,Lycos就是這樣進行的。其他一些引擎允許用戶使用更多的布爾項,如AND、OR,有時還用NOT。只有InfoSeek和OpenTextIndex兩個引擎允許用戶使用相近操作,它們允許你查詢與被查串相鄰的項。使用這些可用的工具動態(tài)地增加了匹配頁的查詢質(zhì)量。例如,我們使用OpenTextIndex簡單查詢頁查找釀造小麥啤酒的秘訣,可以得到90個匹配頁,這里面只有很少的幾頁與自釀小麥啤酒有關(guān)(多數(shù)頁與飲酒有關(guān))。但當打開"Power"頁進行小麥啤酒秘訣的相鄰項查詢時,我們可得到6個匹配頁,其中有3個正是我們所需的東西。分開有用和無用的信息當你獲得匹配頁表時,你的檢索工作才剛剛開始。你得將這些地址分類以找到你真正想要的東西,多數(shù)引擎可以在結(jié)果頁的頂部顯示它們確實已檢索到的詞。你可能已經(jīng)查找過好的、壞的和丑的東西,而檢索引擎也告訴你它確實是在查好的、壞的和丑的東西,記住一點,你可以通知許多引擎查找全部詞組,而不只是關(guān)鍵字。多數(shù)引擎返回的匹配頁與查詢項密切相關(guān)。即使你獲得200個以上的匹配頁,你也不用擔心要將所有的頁都搜集起來,可能頂多你只需10個。不同的引擎采用不同的方法計算查詢頁的關(guān)聯(lián)度。InfoprSeek根據(jù)被查項在整個數(shù)據(jù)庫出現(xiàn)頻度相近的頁中出現(xiàn)的次數(shù)來排列匹配頁,Lycos則基于項在頁中的出現(xiàn)次數(shù)、與其他項的臨近度以及在頁中的位置來排列。大多數(shù)引擎提供了匹配頁的幾種描述。在這方面Lycos是最佳的,它不僅提供了關(guān)聯(lián)的比率、每頁的描述,而且還有文本的簡單摘要。人們只需閱讀一下摘要,就可以判斷是否是你需要找到的匹配頁。元級檢索(Metasearching)1.閱讀一下引擎的指令許多檢索引擎提供了自身的操作、定義符及規(guī)則集,這些東西有助于你進行高效查詢。試著用一用它們。2.選擇不常用的詞檢索詞與其他詞的區(qū)別越大,對于加快搜索越有用。舉個例子,你檢索埃塞俄比亞彌猴科就比非洲的綠錢幣獲得的索引項要多。在檢索時,應(yīng)盡量挑選能夠表達你意思的詞。3.注意拼法如果你在查"astronut"一詞,你可以得到符合拼字正確要求的Web頁。對字符串形式看來很相似的詞,切記也要檢索一下該詞的合理變化,如你要查fly-fishing一詞,應(yīng)該試試查flyfishing和flyfishing兩個詞。4.同義詞記住,你可能查的是一個概念,而并非只是一個單詞。例如,如果你想查找有關(guān)背包徒步旅行的地址,在你的查詢中就應(yīng)包含這些項:徒步旅行、乘牛車旅行、背包徒步旅行以及露營。5.勿用自然語言某些地址支持自然語言的查詢,即允許用戶以說話的方式提問。不要去用這個功能,你要將焦點放在能夠識別你概念的術(shù)語和詞組上。6.重復(fù)你查詢的東西在第一次查詢過后,回到你最有希望查找的匹配頁,把其他一些你可能會快速廣泛進行查詢的術(shù)語摘錄下來。7.不要忘了NOT有一些查詢引擎支持NOT(非)操作,這個操作允許你進行輸入項的查詢。因此,你對非重非音樂的金屬進行查詢,就可以找到與工業(yè)金屬有關(guān)的地址,從而避免去查重金屬。8.使用多個查詢引擎我們驚奇地發(fā)現(xiàn),用幾個不同的查詢引擎進行同一個查詢,查詢結(jié)果的重疊率很小。所以為了獲得最佳的查詢效果,盡量在多個地址上查詢。9.試試使用專有地址如果你想查找某指定公司的Web頁,可以試試Ope

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論