搜索引擎的難點包括如下幾點_第1頁
搜索引擎的難點包括如下幾點_第2頁
搜索引擎的難點包括如下幾點_第3頁
搜索引擎的難點包括如下幾點_第4頁
搜索引擎的難點包括如下幾點_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、搜索引擎的難點包括如下幾點:    1) 是否支持并發(fā)的爬取數(shù)據(jù),如果要并發(fā),要保證所有采集器能合作采集,不會出現(xiàn)重復(fù)采集的情況.    2) 采集的數(shù)據(jù)還要有一個排重的過程. 只需要采集一個網(wǎng)站更新的數(shù)據(jù)    3) 對于需要cookie數(shù)據(jù)的網(wǎng)頁如何采集的問題,部分網(wǎng)站需要通過cookie數(shù)據(jù)登陸網(wǎng)站    4) 自動通過識別碼的驗證    5) 一些網(wǎng)站對于密集訪問的請求會拒絕,技術(shù)上也要進行處理    6)

2、對于一些特殊網(wǎng)頁的采集問題, 比如flash網(wǎng)頁,一些游戲網(wǎng)頁等,很多網(wǎng)站會讓采集程序陷入其中,采集數(shù)萬無效數(shù)據(jù),顯然是浪費了采集程序的精力    7) 大數(shù)據(jù)量的存儲也是個難點,據(jù)說Google的存儲是自己開發(fā)的架構(gòu),沒用任何的數(shù)據(jù)庫,因為數(shù)據(jù)庫的查詢效率還是有一定損失. 可以采用數(shù)據(jù)塊的模式,然后通過散列表的模式連接.    以上主要列出的是后臺采集器的相關(guān)技術(shù)難點,在前臺檢索、查詢效率等方面仍有許多難點.21世紀人類社會已進入了信息化時代,作為信息化時代標志之一的因特網(wǎng)在全世界以史無前例的速度和規(guī)模不斷發(fā)展壯大,而因特網(wǎng)上的信息

3、也象原子裂變一樣迅速膨脹,面對這些浩瀚無邊的信息人們已經(jīng)顯得無所適從了。的確,人們要想在這信息的海洋中準確找到自己所需要的信息是一件很不容易的事情。為了能夠克服這樣的困難,人們制作出來了搜索引擎,它通過內(nèi)部的某些軟件程序把INTERNET上的信息進行分類整理,或者是通過人工組織的方式把某些數(shù)據(jù)歸類,形成一個可供查詢的大型數(shù)據(jù)庫??梢哉f:“搜索是一種組織和查詢信息的方式!”一般來說,在每個搜索引擎中均提供分類目錄及關(guān)鍵詞檢索這兩種信息查詢的方法。而這些搜索引擎的基本用法是搜索引擎站點中都提供一個可以輸入關(guān)鍵詞的文本輸入框和一個“搜索”的按鈕,用戶可以在輸入框中鍵入關(guān)鍵詞,然后按“搜索”按鈕,搜索

4、引擎就會自動地在其內(nèi)部的數(shù)據(jù)庫中進行檢索,最后把與關(guān)鍵詞相符合的或者是與關(guān)鍵詞相近的網(wǎng)站顯示在結(jié)果頁中,接著用戶只需通過搜索引擎提供的鏈接地址,就可以訪問到相關(guān)信息。這種查詢方法的關(guān)鍵之處在于關(guān)鍵詞的選擇和表達上。如果關(guān)鍵詞選擇不當,搜索的結(jié)果會返回大量無用的垃圾信息;或者有用的信息被淹沒在大量的冗余的頁面之中。所以在選擇關(guān)鍵詞時,應(yīng)該熟練掌握關(guān)鍵詞語法表達方式,這樣就可以少走彎路,能得到更精確的搜索結(jié)果,從而迅速找到自己所需要的信息。雖然各個搜索引擎的搜索語法不完全相同,但下面一些搜索語法還是比較通用和常見的,筆者分別舉例來說明各個語法符號的使用方法。(1)直接鍵入關(guān)鍵字,搜索引擎就把包括關(guān)

5、鍵字的網(wǎng)站和與關(guān)鍵字意義相近的網(wǎng)站地址一起返回給用戶。例如:鍵入“網(wǎng)上教學(xué)”,搜索引擎就會把“網(wǎng)上學(xué)習(xí)”、“遠程教學(xué)”以及“網(wǎng)上教學(xué)”等內(nèi)容的網(wǎng)址一起反饋給用戶,因此這種查詢方法往往會返回大量不需要的信息。圖1 直接搜索(2)利用雙引號,來查詢完全符合關(guān)鍵字串的網(wǎng)站。例如:鍵入“電腦硬件”,會找出包含網(wǎng)絡(luò)資源的網(wǎng)站、但是會忽略過包含“電腦硬件行情”的網(wǎng)站;這種查詢方法要求用一對半角的雙引號來把關(guān)鍵字包括起來。(3)加t:在關(guān)鍵字前,搜尋引擎僅會查詢網(wǎng)站名稱。例如:鍵入t:電腦,會找出包含電腦的網(wǎng)站名稱。(4)加u:在關(guān)鍵字前,搜尋引擎僅會查詢網(wǎng)址(URL)。例如:鍵入u:yancheng,會找

6、出包含yancheng的網(wǎng)址。(5)利用+來限定關(guān)鍵字串一定要出現(xiàn)在結(jié)果中。例如:鍵入電腦+網(wǎng)絡(luò),會找出包含電腦和網(wǎng)絡(luò)的網(wǎng)站。(6)利用-來限定關(guān)鍵字串一定不要出現(xiàn)在結(jié)果中。 例如:鍵入電腦-網(wǎng)絡(luò),會找出包含電腦但除了網(wǎng)絡(luò)的網(wǎng)站;鍵入發(fā)如雪 -html,會在發(fā)如雪的相關(guān)網(wǎng)頁中過濾掉后綴名為 html 網(wǎng)頁。(7)利用*代替所有的字母,用來檢索那些變形的關(guān)鍵詞或者是不能確定的關(guān)鍵詞。 例如:鍵入“電*”后的查詢結(jié)果可以包含電腦、電影、電視等內(nèi)容。(8)利用()可以把多個關(guān)鍵詞作為一組,并進行優(yōu)先查詢。例如:鍵入“(電腦+網(wǎng)絡(luò))-(硬件+價格)”來搜索包含“電腦”與“網(wǎng)絡(luò)”的信息,但不包含“硬件”

7、與“價格”的網(wǎng)站。(8)利用AND(&)表示前后兩個關(guān)鍵詞是"與"的邏輯關(guān)系。 例如:鍵入關(guān)鍵詞:ENGLISH AND CHINESE,會找出將包含ENGLISH和CHINESE的網(wǎng)站。圖2 高級搜索(9)利用OR(|)表示前后兩個詞是"或"的邏輯關(guān)系。 例如:鍵入關(guān)鍵詞:ENGLISH OR CHINESE,會找出將包含ENGLISH或者CHINESE的網(wǎng)站。(10)利用NOT(-)表示要限制關(guān)鍵詞在結(jié)果中出現(xiàn)。 例如:鍵入關(guān)鍵詞:CHINESE NOT ENGLISH,會找出將包含CHINESE信息,而不包含ENGLISH信息。(11)利用

8、NEAR來檢索兩個關(guān)鍵詞之間的信息。 例如:鍵入關(guān)鍵詞“THE NEAR BOOK”,會找出關(guān)鍵詞“THE”和“BOOK”之間的信息,比如可以找到THE INTERSETING CHINESE BOOK這樣的信息。NEAR后面可以跟數(shù)字來限定兩個指定關(guān)鍵字之間允許出現(xiàn)的關(guān)鍵詞數(shù)。以上是搜索引擎中一些基本的語法知識,各搜索引擎的具體使用方法有可能與上述的有一點兒差別,所以筆者建議大家在使用搜索引擎時,最好研究一下所選搜索搜索引擎主頁上的說明,它們往往在Help、advanced search、FAQ(frequently asked questions)、查詢訣竅(search tips)中 。

9、一旦你研究過這些說明,就能極大地提高你的搜索效率。隨著社會地不斷發(fā)展,遠程教育迅速發(fā)展,它在人們的生活中日益重要。作為一名教師,面對眾多的遠程教育資源,如何深刻認識遠程教育資源,正確把握遠程教育資源特點、整合使用遠程教育資源,更好地提高課堂地教學(xué)效率呢?本文將結(jié)合上述問題,談?wù)勎业膫€人見解。 一、深刻認識現(xiàn)代遠程教育資源 現(xiàn)代遠程教育是隨現(xiàn)代信息技術(shù)的發(fā)展而產(chǎn)生的一種通過internet互聯(lián)網(wǎng)、衛(wèi)星數(shù)據(jù)傳輸和電視信號傳輸系統(tǒng)而進行的新型教育方式,是構(gòu)筑知識經(jīng)濟時代人們終身學(xué)習(xí)體系的主要手段。 二、 正確把握現(xiàn)代遠程教育資源特點 現(xiàn)代遠程資源內(nèi)容豐富,具有以下特點:(1)圍繞教學(xué)中心,教育資源內(nèi)

10、容具有全面性 遠程教育資源包括了課堂教學(xué)所涉及到的各個環(huán)節(jié)和所有內(nèi)容,以便于教師實現(xiàn)預(yù)定的教學(xué)計劃、過程、方法和策略,支持教學(xué)活動的全過程。遠程教育資源的內(nèi)容主要有:課程標準及其解讀、教材內(nèi)容及其解析、課程教學(xué)計劃及建議、教學(xué)大綱、課程教學(xué)實施細則等教學(xué)信息;還有課程講授實錄;章節(jié)重點、難點講解輔導(dǎo);典型習(xí)題及解析;案例分析;期末復(fù)習(xí)指導(dǎo)等等。(2)遠程教學(xué)資源呈現(xiàn)形式的多樣性 從形式上看,遠程教學(xué)資源有紙質(zhì)文字、磁帶、光盤,還有多媒體課件或 Web形式的網(wǎng)頁;從教學(xué)用途上看,有“授課型”的,有“模擬實驗型”的,有“示教型”的,有“練習(xí)自測型”的,還有“知識搜索引擎型”的。(3)注重資源的易操

11、作性和智能化 現(xiàn)代遠程教學(xué)資源既簡單又方便,智能化程度較高,從而避免了因技術(shù)含量高而使用起來復(fù)雜的情況。(4)教學(xué)資源的交互性 現(xiàn)代遠程教學(xué)資源網(wǎng)提供的多媒體課件等教學(xué)資源把電視所具有的視聽合一的功能與計算機的交互功能整合在一起,使學(xué)生在學(xué)習(xí)過程中實現(xiàn)即時反饋,雙向會意。學(xué)生在利用現(xiàn)代遠程教育資源進行自學(xué)時可以根據(jù)自己的學(xué)習(xí)基礎(chǔ)和學(xué)習(xí)興趣選擇學(xué)習(xí)內(nèi)容,甚至可以按照自己的意愿安排學(xué)習(xí)的順序和進度。 三、整合使用現(xiàn)代遠程教育資源 現(xiàn)代遠程教育資源內(nèi)容豐富多彩,怎樣將它用于我們的課堂教學(xué),為我們的教學(xué)工作服務(wù)呢? 1.備課參考 備課是講課的前提。以前備課時只有教材、教參等參考資料?,F(xiàn)在有遠程教育工程

12、,網(wǎng)上教育教學(xué)資源非常豐富,為我們的教學(xué)設(shè)計提供了很多可以借鑒的資料。 特別是我們現(xiàn)在一年級使用的教材,由于都是初次接觸這個教材,沒有什么經(jīng)驗,所以遇到一點問題就可以上網(wǎng)查一查,該如何處理,比如:教學(xué)左右時,由于一年級的學(xué)生剛?cè)雽W(xué),不知道能不能把幾種情況都給學(xué)生講清,通過網(wǎng)上的資料,我們明白該如何給學(xué)生講解了。再比如:美麗的田園這一節(jié)課,是引導(dǎo)學(xué)生觀察,然后提出簡單的問題的,到底讓學(xué)生能提出多少問題才算達到要求,提出幾種合適,哪幾種類型才行呢?通過上網(wǎng)查找,看了別人的經(jīng)驗,以及中央教科所的資料,我們才弄清了該如何來要求學(xué)生。(2)現(xiàn)代遠程資源有利于我們改進自己的教學(xué)方法。 2.媒體使用(1)直接引用 根據(jù)教學(xué)內(nèi)容的需要,有些網(wǎng)上提供的媒體我們可以采取拿來主義的方法直接使用。(2)選擇性使用 有些網(wǎng)上提供的課件,是作者根據(jù)他自己的思維創(chuàng)作出來的,并不一定完全符符合我們的教學(xué)需要,這樣,我就根據(jù)我的教學(xué)需要,選擇其中的一部分或幾部分來使用。(3)深層次整合 這是使用網(wǎng)上資源的最高境界,也是我們追求的最高目標。 現(xiàn)代遠程教育技術(shù)的運用,貴在整合。這種整合不是超市的捆綁式銷售,而應(yīng)該是一杯水與另一杯水的融合;要讓現(xiàn)代教育教學(xué)技術(shù)有機地融入到課堂教學(xué)這個整體之中,使其成為課

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論