青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

woaidongmao

文章均收錄自他人博客,但不喜標(biāo)題前加-[轉(zhuǎn)貼],因其丑陋,見諒!~
隨筆 - 1469, 文章 - 0, 評論 - 661, 引用 - 0
數(shù)據(jù)加載中……

搜索引擎-網(wǎng)絡(luò)蜘蛛基本原理

網(wǎng)絡(luò)蜘蛛即Web Spider,是一個很形象的名字。把互聯(lián)網(wǎng)比喻成一個蜘蛛網(wǎng),那么Spider就是在網(wǎng)上爬來爬去的蜘蛛。網(wǎng)絡(luò)蜘蛛是通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁,從網(wǎng)站某一個頁面(通常是首頁)開始,讀取網(wǎng)頁的內(nèi)容,找到在網(wǎng)頁中的其它鏈接地址,然后通過這些鏈接地址尋找下一個網(wǎng)頁,這樣一直循環(huán)下去,直到把這個網(wǎng)站所有的網(wǎng)頁都抓取完為止。如果把整個互聯(lián)網(wǎng)當(dāng)成一個網(wǎng)站,那么網(wǎng)絡(luò)蜘蛛就可以用這個原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁都抓取下來。

對于搜索引擎來說,要抓取互聯(lián)網(wǎng)上所有的網(wǎng)頁幾乎是不可能的,
從目前公布的數(shù)據(jù)來看,容量最大的搜索引擎也不過是抓取了整個網(wǎng)頁數(shù)量的百分之四十左右。這其中的原因一方面是抓取技術(shù)的瓶頸,無法遍歷所有的網(wǎng)頁,有許多網(wǎng)頁無法從其它網(wǎng)頁的鏈接中找到;另一個原因是存儲技術(shù)和處理技術(shù)的問題,如果按照每個頁面的平均大小為20K計算(包含圖片),100億網(wǎng)頁的容量是100×2000G字節(jié),即使能夠存儲,下載也存在問題(按照一臺機器每秒下載20K計算,需要340臺機器不停的下載一年時間,才能把所有網(wǎng)頁下載完畢)。同時,由于數(shù)據(jù)量太大,在提供搜索時也會有效率方面的影響。因此,許多搜索引擎的網(wǎng)絡(luò)蜘蛛只是抓取那些重要的網(wǎng)頁,而在抓取的時候評價重要性主要的依據(jù)是某個網(wǎng)頁的鏈接深度。

在抓取網(wǎng)頁的時候,網(wǎng)絡(luò)蜘蛛一般有兩種策略:廣度優(yōu)先和深度優(yōu)先。

廣度優(yōu)先是指網(wǎng)絡(luò)蜘蛛會先抓取起始網(wǎng)頁中鏈接的所有網(wǎng)頁,然后再選擇其中的一個鏈接網(wǎng)頁,繼續(xù)抓取在此網(wǎng)頁中鏈接的所有網(wǎng)頁。這是最常用的方式因為這個方法可以讓網(wǎng)絡(luò)蜘蛛并行處理,提高其抓取速度。深度優(yōu)先是指網(wǎng)絡(luò)蜘蛛會從起始頁開始,一個鏈接一個鏈接跟蹤下去,處理完這條線路之后再轉(zhuǎn)入下一個起始頁,繼續(xù)跟蹤鏈接。這個方法有個優(yōu)點是網(wǎng)絡(luò)蜘蛛在設(shè)計的時候比較容易。兩種策略的區(qū)別,下圖的說明會更加明確。

由于不可能抓取所有的網(wǎng)頁,有些網(wǎng)絡(luò)蜘蛛
對一些不太重要的網(wǎng)站,設(shè)置了訪問的層數(shù)。例如,在上圖中,A為起始網(wǎng)頁,屬于0層,BCDEF屬于第1層,GH屬于第2層,I屬于第3層。如果網(wǎng)絡(luò)蜘蛛設(shè)置的訪問層數(shù)為2的話,網(wǎng)頁I是不會被訪問到的。這也讓有些網(wǎng)站上一部分網(wǎng)頁能夠在搜索引擎上搜索到,另外一部分不能被搜索到。對于網(wǎng)站設(shè)計者來說,扁平化的網(wǎng)站結(jié)構(gòu)設(shè)計有助于搜索引擎抓取其更多的網(wǎng)頁。

網(wǎng)絡(luò)蜘蛛在訪問網(wǎng)站網(wǎng)頁的時候,經(jīng)常會遇到加密數(shù)據(jù)和網(wǎng)頁權(quán)限的問題,有些網(wǎng)頁是需要會員權(quán)限才能訪問。當(dāng)然,網(wǎng)站的所有者可以通過協(xié)議讓網(wǎng)絡(luò)蜘蛛不去抓取(下小節(jié)會介紹),但對于一些出售報告的網(wǎng)站,他們希望搜索引擎能搜索到他們的報告,但又不能完全**的讓搜索者查看,這樣就需要給網(wǎng)絡(luò)蜘蛛提供相應(yīng)的用戶名和密碼。網(wǎng)絡(luò)蜘蛛可以通過所給的權(quán)限對這些網(wǎng)頁進行網(wǎng)頁抓取,從而提供搜索。而當(dāng)搜索者點擊查看該網(wǎng)頁的時候,同樣需要搜索者提供相應(yīng)的權(quán)限驗證。

網(wǎng)站與網(wǎng)絡(luò)蜘蛛

網(wǎng)絡(luò)蜘蛛需要抓取網(wǎng)頁,不同于一般的訪問,如果控制不好,則會引起網(wǎng)站服務(wù)器負擔(dān)過重。今年4月,淘寶http://www.51wisdom.com.cn)就因為雅虎搜索引擎的網(wǎng)絡(luò)蜘蛛抓取其數(shù)據(jù)引起淘寶網(wǎng)服務(wù)器的不穩(wěn)定。網(wǎng)站是否就無法和網(wǎng)絡(luò)蜘蛛交流呢?其實不然,有多種方法可以讓網(wǎng)站和網(wǎng)絡(luò)蜘蛛進行交流。一方面讓網(wǎng)站管理員了解網(wǎng)絡(luò)蜘蛛都來自哪兒,做了些什么,另一方面也告訴網(wǎng)絡(luò)蜘蛛哪些網(wǎng)頁不應(yīng)該抓取,哪些網(wǎng)頁應(yīng)該更新。

每個網(wǎng)絡(luò)蜘蛛都有自己的名字,在抓取網(wǎng)頁的時候,都會向網(wǎng)站標(biāo)明自己的身份。
網(wǎng)絡(luò)蜘蛛在抓取網(wǎng)頁的時候會發(fā)送一個請求,這個請求中就有一個字段為Useragent,用于標(biāo)識此網(wǎng)絡(luò)蜘蛛的身份。例如Google網(wǎng)絡(luò)蜘蛛的標(biāo)識為GoogleBotBaidu網(wǎng)絡(luò)蜘蛛的標(biāo)識為BaiDuSpiderYahoo網(wǎng)絡(luò)蜘蛛的標(biāo)識為Inktomi Slurp如果在網(wǎng)站上有訪問日志記錄,網(wǎng)站管理員就能知道,哪些搜索引擎的網(wǎng)絡(luò)蜘蛛過來過,什么時候過來的,以及讀了多少數(shù)據(jù)等等。如果網(wǎng)站管理員發(fā)現(xiàn)某個蜘蛛有問題,就通過其標(biāo)識來和其所有者聯(lián)系。下面是博客中http://www.51wisdom.com.cn2004515的搜索引擎訪問日志:

網(wǎng)絡(luò)蜘蛛進入一個網(wǎng)站,一般會訪問一個特殊的文本文件Robots.txt,這個文件一般放在網(wǎng)站服務(wù)器的根目錄下,http://www.51wisdom.com.cn/robots.txt。網(wǎng)站管理員可以通過robots.txt來定義哪些目錄網(wǎng)絡(luò)蜘蛛不能訪問,或者哪些目錄對于某些特定的網(wǎng)絡(luò)蜘蛛不能訪問。例如有些網(wǎng)站的可執(zhí)行文件目錄和臨時文件目錄不希望被搜索引擎搜索到,那么網(wǎng)站管理員就可以把這些目錄定義為拒絕訪問目錄。Robots.txt語法很簡單,例如如果對目錄沒有任何限制,可以用以下兩行來描述:
User-agent: *
Disallow:

當(dāng)然,Robots.txt只是一個協(xié)議,如果網(wǎng)絡(luò)蜘蛛的設(shè)計者不遵循這個協(xié)議,網(wǎng)站管理員也無法阻止網(wǎng)絡(luò)蜘蛛對于某些頁面的訪問,但一般的網(wǎng)絡(luò)蜘蛛都會遵循這些協(xié)議,而且網(wǎng)站管理員還可以通過其它方式來拒絕網(wǎng)絡(luò)蜘蛛對某些網(wǎng)頁的抓取。

網(wǎng)絡(luò)蜘蛛在下載網(wǎng)頁的時候,會去識別網(wǎng)頁的HTML代碼,在其代碼的部分,會有META標(biāo)識。通過這些標(biāo)識,可以告訴網(wǎng)絡(luò)蜘蛛本網(wǎng)頁是否需要被抓取,還可以告訴網(wǎng)絡(luò)蜘蛛本網(wǎng)頁中的鏈接是否需要被繼續(xù)跟蹤。例如:表示本網(wǎng)頁不需要被抓取,但是網(wǎng)頁內(nèi)的鏈接需要被跟蹤。

關(guān)于Robots.txt的語法和META Tag語法,有興趣的讀者查看文獻[4]

現(xiàn)在一般的網(wǎng)站都希望搜索引擎能更全面的抓取自己網(wǎng)站的網(wǎng)頁,因為這樣可以讓更多的訪問者能通過搜索引擎找到此網(wǎng)站。為了讓本網(wǎng)站的網(wǎng)頁更全面被抓取到,網(wǎng)站管理員可以建立一個網(wǎng)站地圖,即Site Map。許多網(wǎng)絡(luò)蜘蛛會把sitemap.htm文件作為一個網(wǎng)站網(wǎng)頁爬取的入口,網(wǎng)站管理員可以把網(wǎng)站內(nèi)部所有網(wǎng)頁的鏈接放在這個文件里面,那么網(wǎng)絡(luò)蜘蛛可以很方便的把整個網(wǎng)站抓取下來,避免遺漏某些網(wǎng)頁,也會減小對網(wǎng)站服務(wù)器的負擔(dān)。

內(nèi)容提取

搜索引擎建立網(wǎng)頁索引,處理的對象是文本文件。對于網(wǎng)絡(luò)蜘蛛來說,抓取下來網(wǎng)頁包括各種格式,包括html、圖片、docpdf、多媒體、動態(tài)網(wǎng)頁及其它格式等。這些文件抓取下來后,需要把這些文件中的文本信息提取出來。準(zhǔn)確提取這些文檔的信息,一方面對搜索引擎的搜索準(zhǔn)確性有重要作用,另一方面對于網(wǎng)絡(luò)蜘蛛正確跟蹤其它鏈接有一定影響。

對于docpdf等文檔,這種由專業(yè)廠商提供的軟件生成的文檔,廠商都會提供相應(yīng)的文本提取接口。網(wǎng)絡(luò)蜘蛛只需要調(diào)用這些插件的接口,就可以輕松的提取文檔中的文本信息和文件其它相關(guān)的信息。

HTML
等文檔不一樣,HTML有一套自己的語法,通過不同的命令標(biāo)識符來表示不同的字體、顏色、位置等版式,如:、、等,提取文本信息時需要把這些標(biāo)識符都過濾掉。過濾標(biāo)識符并非難事,因為這些標(biāo)識符都有一定的規(guī)則,只要按照不同的標(biāo)識符取得相應(yīng)的信息即可
。但在識別這些信息的時候,需要同步記錄許多版式信息,例如文字的字體大小、是否是標(biāo)題、是否是加粗顯示、是否是頁面的關(guān)鍵詞等,這些信息有助于計算單詞在網(wǎng)頁中的重要程度。同時,對于HTML網(wǎng)頁來說,除了標(biāo)題和正文以外,會有許多廣告鏈接以及公共的頻道鏈接,這些鏈接和文本正文一點關(guān)系也沒有,在提取網(wǎng)頁內(nèi)容的時候,也需要過濾這些無用的鏈接。例如某個網(wǎng)站有產(chǎn)品介紹頻道,因為導(dǎo)航條在網(wǎng)站內(nèi)每個網(wǎng)頁都有,若不過濾導(dǎo)航條鏈接,在搜索產(chǎn)品介紹的時候,則網(wǎng)站內(nèi)每個網(wǎng)頁都會搜索到,無疑會帶來大量垃圾信息。過濾這些無效鏈接需要統(tǒng)計大量的網(wǎng)頁結(jié)構(gòu)規(guī)律,抽取一些共性,統(tǒng)一過濾;對于一些重要而結(jié)果特殊的網(wǎng)站,還需要個別處理。這就需要網(wǎng)絡(luò)蜘蛛的設(shè)計有一定的擴展性。

對于多媒體、圖片等文件,一般是通過鏈接的錨文本(即,鏈接文本)和相關(guān)的文件注釋來判斷這些文件的內(nèi)容。例如有一個鏈接文字為張曼玉照片,其鏈接指向一張bmp格式的圖片,那么網(wǎng)絡(luò)蜘蛛就知道這張圖片的內(nèi)容是張曼玉的照片。這樣,在搜索張曼玉照片的時候都能讓搜索引擎找到這張圖片。另外,許多多媒體文件中有文件屬性,考慮這些屬性也可以更好的了解文件的內(nèi)容。

動態(tài)網(wǎng)頁一直是網(wǎng)絡(luò)蜘蛛面臨的難題。所謂動態(tài)網(wǎng)頁,是相對于靜態(tài)網(wǎng)頁而言,是由程序自動生成的頁面,這樣的好處是可以快速統(tǒng)一更改網(wǎng)頁風(fēng)格,也可以減少網(wǎng)頁所占服務(wù)器的空間,但同樣給網(wǎng)絡(luò)蜘蛛的抓取帶來一些麻煩。由于開發(fā)語言不斷的增多,動態(tài)網(wǎng)頁的類型也越來越多,如:aspjspphp等。這些類型的網(wǎng)頁對于網(wǎng)絡(luò)蜘蛛來說,可能還稍微容易一些。網(wǎng)絡(luò)蜘蛛比較難于處理的是一些腳本語言(如VBScriptjavascript)生成的網(wǎng)頁,如果要完善的處理好這些網(wǎng)頁,網(wǎng)絡(luò)蜘蛛需要有自己的腳本解釋程序。對于許多數(shù)據(jù)是放在數(shù)據(jù)庫的網(wǎng)站,需要通過本網(wǎng)站的數(shù)據(jù)庫搜索才能獲得信息,這些給網(wǎng)絡(luò)蜘蛛的抓取帶來很大的困難。對于這類網(wǎng)站,如果網(wǎng)站設(shè)計者希望這些數(shù)據(jù)能被搜索引擎搜索,則需要提供一種可以遍歷整個數(shù)據(jù)庫內(nèi)容的方法。

對于網(wǎng)頁內(nèi)容的提取,一直是網(wǎng)絡(luò)蜘蛛中重要的技術(shù)。
整個系統(tǒng)一般采用插件的形式,通過一個插件管理服務(wù)程序,遇到不同格式的網(wǎng)頁采用不同的插件處理。這種方式的好處在于擴充性好,以后每發(fā)現(xiàn)一種新的類型,就可以把其處理方式做成一個插件補充到插件管理服務(wù)程序之中。

更新周期

由于網(wǎng)站的內(nèi)容經(jīng)常在變化,因此網(wǎng)絡(luò)蜘蛛也需不斷的更新其抓取網(wǎng)頁的內(nèi)容,這就需要網(wǎng)絡(luò)蜘蛛按照一定的周期去掃描網(wǎng)站,查看哪些頁面是需要更新的頁面,哪些頁面是新增頁面,哪些頁面是已經(jīng)過期的死鏈接。

搜索引擎的更新周期對搜索引擎搜索的查全率有很大影響。如果更新周期太長,則總會有一部分新生成的網(wǎng)頁搜索不到;周期過短,技術(shù)實現(xiàn)會有一定難度,而且會對帶寬、服務(wù)器的資源都有浪費。搜索引擎的網(wǎng)絡(luò)蜘蛛并不是所有的網(wǎng)站都采用同一個周期進行更新,
對于一些重要的更新量大的網(wǎng)站,更新的周期短,如有些新聞網(wǎng)站,幾個小時就更新一次;相反對于一些不重要的網(wǎng)站,更新的周期就長,可能一兩個月才更新一次。

一般來說,網(wǎng)絡(luò)蜘蛛在更新網(wǎng)站內(nèi)容的時候,不用把網(wǎng)站網(wǎng)頁重新抓取一遍,對于大部分的網(wǎng)頁,只需要判斷網(wǎng)頁的屬性(主要是日期),把得到的屬性和上次抓取的屬性相比較,如果一樣則不用更新。

posted on 2008-12-28 03:58 肥仔 閱讀(655) 評論(0)  編輯 收藏 引用 所屬分類: 網(wǎng)絡(luò)編程

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            麻豆精品精品国产自在97香蕉| 欧美激情综合| 久久综合一区二区| 欧美影院视频| 久久久久国产精品厨房| 先锋影音久久久| 久久精品二区亚洲w码| 久久疯狂做爰流白浆xx| 久久久精品日韩| 欧美黄色日本| 亚洲视频免费观看| 久久国产天堂福利天堂| 蜜桃av噜噜一区| 欧美视频网址| 国产精品欧美一区喷水| 狠狠做深爱婷婷久久综合一区| 在线观看日韩av电影| 一区二区日韩| 久久久一区二区| 亚洲国产精品久久久久婷婷884 | 欧美一区二区三区播放老司机| 欧美亚洲一级| 欧美成人69av| 国产精品自拍一区| 亚洲精品1234| 久久国产天堂福利天堂| 亚洲国产专区校园欧美| 亚洲一区二区黄色| 欧美高潮视频| 国产在线精品二区| 这里只有精品丝袜| 欧美激情导航| 午夜精品久久久久久久蜜桃app | 亚洲第一在线综合在线| 亚洲最快最全在线视频| 久久免费观看视频| 国产精品天天摸av网| 亚洲精品久久久久久下一站| 欧美中文在线字幕| 99热这里只有成人精品国产| 久久国产精品99久久久久久老狼 | 欧美伊久线香蕉线新在线| 亚洲福利国产| 久久不射电影网| 国产欧美日韩另类视频免费观看| 99精品国产热久久91蜜凸| 男人的天堂亚洲在线| 亚洲欧美一级二级三级| 欧美少妇一区| 一个色综合导航| 亚洲精品小视频在线观看| 老鸭窝毛片一区二区三区| 午夜伦理片一区| 欧美性一区二区| 99re视频这里只有精品| 欧美aa在线视频| 久久婷婷av| 尤物99国产成人精品视频| 久久久www| 久久成人精品电影| 国产在线播精品第三| 性色一区二区三区| 亚洲网站在线观看| 国产精品国产三级国产aⅴ9色| 99成人精品| 亚洲午夜高清视频| av不卡免费看| 国产免费观看久久黄| 亚洲欧美欧美一区二区三区| 洋洋av久久久久久久一区| 欧美性一区二区| 久久黄色级2电影| 久久婷婷国产综合国色天香| 亚洲人成高清| 亚洲精品美女| 欧美视频网址| 久久精品在线| 老巨人导航500精品| 亚洲人成久久| 中文日韩电影网站| 国产视频欧美视频| 欧美xart系列在线观看| 欧美日韩一区三区| 久久国产精品电影| 久久这里只有精品视频首页| 99国产精品久久| 亚洲特黄一级片| 精品51国产黑色丝袜高跟鞋| 亚洲激精日韩激精欧美精品| 欧美日韩一区综合| 久久精品视频导航| 欧美jizz19性欧美| 久久精彩视频| 欧美日韩国产三区| 久久国内精品自在自线400部| 免费在线观看日韩欧美| 亚洲欧美在线一区| 久久久欧美一区二区| 亚洲一区影院| 男女激情久久| 久久九九精品| 欧美日韩在线免费视频| 久久资源在线| 亚洲一区二区三区视频| 国产一区二区三区高清在线观看| 亚洲欧洲日产国产网站| 国产日韩一区欧美| 亚洲日本免费| 在线电影院国产精品| 亚洲午夜成aⅴ人片| 91久久久久久久久久久久久| 亚洲欧美日韩久久精品| 日韩亚洲视频在线| 老**午夜毛片一区二区三区| 久久er精品视频| 国产精品99免视看9| 亚洲国产精品视频一区| 韩国一区二区三区在线观看| 亚洲小视频在线观看| 一区二区三区 在线观看视| 久久久五月天| 久久免费精品日本久久中文字幕| 欧美午夜精品理论片a级按摩| 亚洲国产精品va在线观看黑人| 国产午夜精品美女视频明星a级| 日韩五码在线| 亚洲精品一区二区三区四区高清| 久久久久国产精品麻豆ai换脸| 欧美在线视频一区二区三区| 国产精品www994| 亚洲精选久久| 日韩系列在线| 欧美日韩成人激情| 亚洲经典在线看| 日韩午夜中文字幕| 欧美激情中文不卡| 亚洲日本成人网| 亚洲色诱最新| 欧美性猛交一区二区三区精品| 一区二区三区视频观看| 亚洲影视在线| 国产精品一区二区在线观看| 亚洲字幕在线观看| 久久精品夜色噜噜亚洲a∨| 国产精品一区二区视频| 亚洲免费视频网站| 午夜精品一区二区在线观看| 国产精品一级在线| 欧美主播一区二区三区| 久久影院午夜论| 亚洲精品中文字| 欧美日韩亚洲激情| 亚洲欧美日韩另类| 欧美大尺度在线观看| av不卡在线| 国产欧美在线播放| 另类av一区二区| 亚洲精品国产欧美| 午夜久久久久久| 在线观看国产一区二区| 欧美激情亚洲国产| 亚洲视频在线免费观看| 久久久久国色av免费观看性色| 亚洲国产日韩一区二区| 欧美日韩一区二| 久久av最新网址| 亚洲精品永久免费精品| 午夜精品短视频| 亚洲国产欧美在线| 国产精品黄色| 猛男gaygay欧美视频| 亚洲婷婷在线| 亚洲第一福利视频| 国产亚洲在线观看| 久久综合九色99| 一本大道久久精品懂色aⅴ| 久久久噜噜噜久久人人看| 亚洲久色影视| 黄色精品一区| 欧美涩涩网站| 欧美高清你懂得| 久久精品国产99精品国产亚洲性色| 亚洲精品国产精品国自产观看浪潮| 久久精品国产一区二区三| 99精品国产在热久久| 伊人激情综合| 国产性做久久久久久| 欧美日韩精品二区第二页| 浪潮色综合久久天堂| 久久国产精品久久久久久电车| 一区二区三区日韩精品| 亚洲黄色av一区| 美女爽到呻吟久久久久| 欧美一区1区三区3区公司| 亚洲免费观看| 亚洲激情视频在线播放| 狠狠色综合色综合网络| 国产视频亚洲| 国产九九精品| 欧美视频在线一区|