青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

woaidongmao

文章均收錄自他人博客,但不喜標(biāo)題前加-[轉(zhuǎn)貼],因其丑陋,見諒!~
隨筆 - 1469, 文章 - 0, 評(píng)論 - 661, 引用 - 0
數(shù)據(jù)加載中……

larbin結(jié)構(gòu)分析

互聯(lián)網(wǎng)是一個(gè)龐大的非結(jié)構(gòu)化的數(shù)據(jù)庫,將數(shù)據(jù)有效的檢索并組織呈現(xiàn)出來有著巨大的應(yīng)用前景,尤其是類似RSS的以XML為基礎(chǔ)的結(jié)構(gòu)化的數(shù)據(jù)越來越多,內(nèi)
容的組織方式越來越靈活,檢索組織并呈現(xiàn)會(huì)有著越來越廣泛的應(yīng)用范圍,同時(shí)在時(shí)效性和可讀性上也會(huì)有越來越高的要求。這一切的基礎(chǔ)是爬蟲,信息的來源入
口。一個(gè)高效,靈活可擴(kuò)展的爬蟲對(duì)以上應(yīng)用都有著無可替代的重要意義。
       
要設(shè)計(jì)一個(gè)爬蟲,首先需要考慮的效率。對(duì)于網(wǎng)絡(luò)而言,基于TCP/IP的通信編程有幾種方法。
第一種是單線程阻塞,這是最簡單也最容易實(shí)現(xiàn)的一種,一個(gè)例子:在Shell中通過curlpcregrep等一系統(tǒng)命令可以直接實(shí)現(xiàn)一個(gè)簡單的
爬蟲,但同時(shí)它的效率問題也顯而易見:由于是阻塞方式讀取,dns解析,建立連接,寫入請(qǐng)求,讀取結(jié)果這些步驟上都會(huì)產(chǎn)生時(shí)間的延遲,從而無法有效的利用
服務(wù)器的全部資源。
第二種是多線程阻塞。建立多個(gè)阻塞的線程,分別請(qǐng)求不同的url。相對(duì)于第一種方法,它可以更有效的利用機(jī)器的資源,特別是網(wǎng)絡(luò)資源,因?yàn)闊o數(shù)線程
在同時(shí)工作,所以網(wǎng)絡(luò)會(huì)比較充分的利用,但同時(shí)對(duì)機(jī)器CPU資源的消耗也是比較大,在用戶級(jí)多線程間的頻繁切換對(duì)于性能的影響已經(jīng)值得我們考慮。
第三種是單線程非阻塞。這是目前使用的比較多的一種做法,無論在client還是server都有著廣泛的應(yīng)用。在一個(gè)線程內(nèi)打開多個(gè)非阻塞的連
接,通過poll/epoll/select對(duì)連接狀態(tài)進(jìn)行判斷,在第一時(shí)間響應(yīng)請(qǐng)求,不但充分利用了網(wǎng)絡(luò)資源,同時(shí)也將本機(jī)CPU資源的消耗降至最低。
這種方法需要對(duì)dns請(qǐng)求,連接,讀寫操作都采用異步非阻塞操作,其中第一種比較復(fù)雜,可以采用adns作為解決方案,后面三個(gè)操作相對(duì)簡單可以直接在程
序內(nèi)實(shí)現(xiàn)。
效率問題解決后就需要考慮具體的設(shè)計(jì)問題了。
url
肯定需要一個(gè)單獨(dú)的類進(jìn)行處理,包括顯示,分析url,得到主機(jī),端口,文件數(shù)據(jù)。
然后需要對(duì)url進(jìn)行排重,需要一個(gè)比較大的url Hash表。
如果還要對(duì)網(wǎng)頁內(nèi)容進(jìn)行排重,則還需要一個(gè)Document Hash表。
爬過的url需要記錄下來,由于量比較大,我們將它寫到磁盤上,所以還需要一個(gè)FIFO的類(記作urlsDisk)
現(xiàn)在需要爬的url同樣需要一個(gè)FIFO類來處理,重新開始時(shí),url會(huì)從定時(shí)從爬過的url
FIFO
里取出來,寫到這個(gè)FIFO里。正在運(yùn)行的爬蟲需要從這個(gè)FIFO里讀數(shù)據(jù)出來,加入到主機(jī)類的url列表里。當(dāng)然,也會(huì)從前一個(gè)FIFO里直接
url出來,不過優(yōu)先級(jí)應(yīng)該比這個(gè)里面出來的url低,畢竟是已經(jīng)爬過的。
爬蟲一般是對(duì)多個(gè)網(wǎng)站進(jìn)行爬取,但在同時(shí)站點(diǎn)內(nèi)dns的請(qǐng)求可以只做一次,這就需要將主機(jī)名獨(dú)立于url,單獨(dú)有一個(gè)類進(jìn)行處理。
主機(jī)名解析完成后需要有一個(gè)解析完成的IP類與之應(yīng)用,用于connect的時(shí)候使用。
HTML
文檔的解析類也要有一個(gè),用來分析網(wǎng)頁,取出里面的url,加入到urlsDisk
再加上一些字符串,調(diào)度類,一個(gè)簡單的爬蟲基本上就完成了。
以上基本上是Larbin的設(shè)計(jì)思路,Larbin在具體實(shí)現(xiàn)上還有一些特殊的處理,例如帶了一個(gè)webserver,以及對(duì)特殊文件的處理。
Larbin
有一點(diǎn)設(shè)計(jì)不不太好,就是慢的訪問會(huì)越來越多,占用大量的連接,需要改進(jìn),另外如果對(duì)于大規(guī)模的爬蟲,這僅僅實(shí)現(xiàn)了抓取的部分,要分布式的擴(kuò)
展還需要增加url的集中管理與調(diào)度以及前臺(tái)spider的分布式算法。
Larbin
網(wǎng)站爬蟲簡明使用說明
larbin
是一種爬蟲工具,我也是前段時(shí)間網(wǎng)上看到 Larbin 一種高效的搜索引擎爬蟲工具 一文時(shí)才知道有這么個(gè)東西,初步認(rèn)定,我比較喜歡這個(gè)
工具(比起nutchcrawl來說),因?yàn)樗?span lang="EN-US">C++
寫的,類似C嘛,我熟,可以自己改改,順便學(xué)習(xí)一下C++(幾年來的經(jīng)驗(yàn)告訴我說:改別人的東西
來學(xué)一種技術(shù)比從頭寫helloworld快很多)。于是開始了我艱辛的larbin試用之旅。
  回頭看看自己遇到的問題都是由于沒認(rèn)真看文檔引起的,唉,老毛病了。下次即使是E文的也得好好看,不能盲目的試,浪費(fèi)時(shí)間。 
  larbin官方地址:http://larbin.sourceforge.net/index-eng.html



  一,編譯 
  這也好說,whahahaha,那是!因?yàn)閺墓俜骄W(wǎng)站下下來的代碼不能編譯通過(linux gcc)



  ./configure 
  make



  gcc -O3 -Wall -D_REENTRANT -c -o parse.o parse.c 
  parse.c:115: error: conflicting types for ’adns__parse_domain’ 



  internal.h:571: error: previous declaration of ’adns__parse_domain’ was here



  parse.c:115: error: conflicting types for ’adns__parse_domain’
  internal.h:571: error: previous declaration of ’adns__parse_domain’ was here 



  gmake[1]: *** [parse.o] 錯(cuò)誤
  gmake[1]: Leaving directory `/home/leo/leo/larbin-2.6.3/adns’
  make: *** [all] 錯(cuò)誤
  函數(shù)原型和定義不一致這個(gè)好改:



  打開./adns/internal.h文件,把568571行直接注釋掉就行了。  
  二,運(yùn)行 
  這個(gè)就不說了,./larbin就運(yùn)行了,larbin.conf中先進(jìn)行配置就可以了,這個(gè)配置就不說了。。 
  運(yùn)行后可以http://host:8081 看運(yùn)行狀態(tài),不錯(cuò)的想法。 larbin.conf中有個(gè):inputPort 1976配置,
就是可以運(yùn)行時(shí)增加要抓取的URL,這個(gè)想法非常好,可是?怎么加呢?象起初那樣:http://host:1976那樣是不行的,報(bào)錯(cuò)???試了好久沒
結(jié)果,最后GDB跟蹤了一下,唉,原來直接telnet host 1976進(jìn)行增加就可以了。后來看到文檔里寫的親親楚楚,暈倒。。。。。 



  三,結(jié)果
  哈哈,下班后找了臺(tái)機(jī)子跑了起來,那晚睡覺的時(shí)候都?jí)粢娮约旱乃阉饕孚sGOOGLEBAIDU了,那個(gè)興奮啊。



  第二天上班的時(shí)候取看結(jié)果,發(fā)現(xiàn)目錄下除了些fifo*文件外什么都沒有,那個(gè)郁悶。沒辦法啊,再看文檔 How to customize Larbin 發(fā)現(xiàn)這么段說明: 
  The first thing you can define is the module you want to use for
ouput. This defines what you want to do with the pages larbin gets.
Here are the different options :



  DEFAULT_OUTPUT : This module mainly does nothing, except statistics. 
  SIMPLE_SAVE : This module saves pages on disk. It stores 2000 files per directory (with an index).



  MIRROR_SAVE : This module saves pages on disk with the hierarchy of the site they come from. It uses one directory per site. 
  STATS_OUTPUT : This modules makes some stats on the pages. In
order to see the results, see http://localhost:8081/output.html. 
  靠,默認(rèn)什么都沒輸出,于是認(rèn)真的看了官方網(wǎng)站上僅有的兩個(gè)文檔,修改了options.h再編譯,終于有結(jié)果了。



  我的option中改了:



  SIMPLE_SAVE 簡單輸出一個(gè)目錄兩千個(gè)文件,包含索引。 
  CGILEVEL0 處理服務(wù)器端程序,也就是但url中包含? & = 之類的querString時(shí)也處理。 
  NO_DUP



  其余可根據(jù)各自需要修改,詳見: How to customize Larbin 一文。



  四,問題



  在使用過程中發(fā)現(xiàn),在抓網(wǎng)頁的時(shí)候,如果URL中包含未編碼(encodurl)中文時(shí),無法抓取,簡單的看了一下在:
src/utils/url.cc
中的fileNormalize 有涉及。于是寫了個(gè)encodurl函數(shù)加在url類的構(gòu)造函數(shù)里,問題就解決了。



  由于需要比較好的可定制性,這個(gè)工具似乎還不大滿足我的需求,最終我沒使用她,而是自己用perlWWW:SimpleRobot的基礎(chǔ)上搞了個(gè)適合我的。。再說了perl在字符竄處理上應(yīng)該不比C++慢,總的來說那個(gè)小工具性能還不錯(cuò)。。呵呵。



  不過還是把這些寫出來,給沒看文檔的朋友(希望很少),也警示自己一定要認(rèn)真看文檔。

posted on 2009-01-04 14:10 肥仔 閱讀(2207) 評(píng)論(5)  編輯 收藏 引用 所屬分類: Web-后臺(tái)

評(píng)論

# re: larbin結(jié)構(gòu)分析  回復(fù)  更多評(píng)論   

Everyone at school would follow your best data connected with this topic to compose the high quality <a href="http://www.manyessays.com">book reports</a> or even <a href="http://www.manyessays.com/essays/asia">asia essays paper</a>.
2010-07-09 02:17 | LuciaCURTIS

# re: larbin結(jié)構(gòu)分析  回復(fù)  更多評(píng)論   

Hazing Prevention Week, which occurred from Monday, Sept. 20, through Friday, Sept. 24, on campus, encouraged students to be mindful of the University of Dayton's steps to prevent hazing.
http://www.thomassabosalecharm.com/
2010-11-08 15:07 | huanghuang
青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            亚洲伦理在线| 在线观看91精品国产入口| 亚洲亚洲精品在线观看| 亚洲国产精品一区二区三区| 国产欧美另类| 国产精品自在欧美一区| 国产九九精品| 红桃av永久久久| 亚洲精品激情| 一区二区精品国产| 欧美一级大片在线免费观看| 久久精品系列| 欧美成人免费视频| 亚洲日本va在线观看| aa级大片欧美| 欧美一区深夜视频| 欧美成人午夜激情| 国产欧美日本| 亚洲乱码国产乱码精品精98午夜| 中文亚洲欧美| 久久精品首页| 亚洲精品乱码久久久久久久久| 亚洲视频免费看| 久久天堂国产精品| 国产精品家教| 亚洲经典自拍| 久久久精品2019中文字幕神马| 欧美成人dvd在线视频| 9久re热视频在线精品| 久久综合狠狠综合久久激情| 欧美三级免费| 亚洲国产婷婷| 久久久久久9999| 一区二区三区国产| 欧美高清在线精品一区| 国产一区观看| 亚洲欧美日韩国产另类专区| 亚洲第一在线综合在线| 欧美一区2区三区4区公司二百| 欧美国产一区在线| 国产精品影音先锋| 亚洲私人黄色宅男| 亚洲一区二三| 亚洲国产精品久久久久秋霞影院| 国产一区999| 99亚洲一区二区| 久久久精品国产免大香伊| 一区二区精品| 欧美精品色综合| 狠狠色丁香婷综合久久| 午夜国产精品影院在线观看| 亚洲第一精品夜夜躁人人爽 | 一区二区三区不卡视频在线观看 | 欧美成人免费播放| 国产精品毛片a∨一区二区三区| 国产精品日韩精品| 国产午夜亚洲精品不卡| 99精品福利视频| 香蕉成人久久| 一区二区三区视频在线播放| 男同欧美伦乱| 在线观看欧美视频| 麻豆91精品| 久久久天天操| 91久久久亚洲精品| 亚洲国产精品一区二区久| 免费一级欧美片在线播放| 亚洲福利久久| 亚洲高清在线观看一区| 欧美成年人视频网站| 在线电影院国产精品| 蜜桃av综合| 免费久久99精品国产| 亚洲黄色av一区| 亚洲欧洲午夜| 国产精品美女久久久| 久久国产直播| 久久久久久久综合日本| 亚洲伦理自拍| 99精品欧美一区二区三区| 国产精品www网站| 久久精品夜色噜噜亚洲a∨| 欧美一级片久久久久久久| 激情欧美丁香| 亚洲黄一区二区三区| 国产精品v欧美精品∨日韩| 久久av红桃一区二区小说| 久久精品91久久久久久再现| 在线观看91精品国产入口| 亚洲区在线播放| 国产精品人人做人人爽| 久久一二三四| 欧美日韩国产一区精品一区 | 国产日韩欧美夫妻视频在线观看| 久久精品女人的天堂av| 老司机一区二区三区| 亚洲一区二区三区成人在线视频精品| 亚洲午夜一二三区视频| 在线观看成人一级片| 日韩视频在线你懂得| 一区二区亚洲精品| 亚洲精品一区二区三| 国内精品久久久久久久影视麻豆| 麻豆国产va免费精品高清在线| 欧美国产成人精品| 欧美影院视频| 欧美日韩国产一区二区三区地区 | 老妇喷水一区二区三区| 蜜臀99久久精品久久久久久软件| 久久综合色天天久久综合图片| 久久综合五月| 午夜精品久久久久久久99樱桃 | 香蕉久久夜色精品| 亚洲欧洲综合另类| 国产精品日日做人人爱| 亚洲成人在线免费| 欧美一区二区视频观看视频| 伊人成人网在线看| 在线亚洲精品福利网址导航| 韩国三级在线一区| 一二三四社区欧美黄| 黄色成人av网| 一本色道久久综合精品竹菊| 国内精品国产成人| 一区二区三区国产盗摄| 亚洲欧洲日产国码二区| 午夜一区二区三区不卡视频| 亚洲每日更新| 久久午夜国产精品| 久久精品视频免费播放| 欧美日韩精品二区| 欧美成人免费小视频| 国产欧美不卡| 亚洲一区二区精品视频| 99这里有精品| 欧美不卡视频一区| 免费观看成人www动漫视频| 国产欧美一区视频| 亚洲女性裸体视频| 亚洲一区尤物| 欧美日韩在线不卡一区| 亚洲人成人一区二区三区| 日韩写真视频在线观看| 欧美岛国在线观看| 亚洲人成人77777线观看| 99热在这里有精品免费| 欧美日韩福利视频| 一区二区三区 在线观看视| 亚洲男人av电影| 国产片一区二区| 欧美一区观看| 麻豆国产精品777777在线| 亚洲精品1234| 欧美激情女人20p| 99精品久久| 欧美主播一区二区三区| 永久免费毛片在线播放不卡| 可以看av的网站久久看| 亚洲精品国产拍免费91在线| 亚洲视频在线观看一区| 国产精品久久久亚洲一区| 小辣椒精品导航| 欧美国产欧美亚洲国产日韩mv天天看完整 | 亚洲国产一区视频| 狠狠久久亚洲欧美| 老色鬼精品视频在线观看播放| 久久国产精品第一页| 国产精品五区| 午夜久久影院| 免费在线看一区| 91久久精品网| 欧美日韩国产限制| 一区二区不卡在线视频 午夜欧美不卡在 | 亚洲综合二区| 欧美成人激情在线| 亚洲欧洲精品一区二区精品久久久| 欧美精品v日韩精品v国产精品| 亚洲一区二区视频在线观看| 美女网站在线免费欧美精品| 亚洲精品黄色| 欧美日一区二区在线观看| 欧美一站二站| 久久成人精品视频| 国产曰批免费观看久久久| 久久久久久精| 亚洲一级黄色| 亚洲第一主播视频| 亚洲午夜精品一区二区三区他趣| 国产精品无码专区在线观看| 久久久噜噜噜久久人人看| 亚洲精品乱码久久久久久按摩观| 亚洲欧美国产制服动漫| 亚洲国产一区在线观看| 国产日韩欧美一区二区三区四区| 欧美久久婷婷综合色| 免费欧美日韩| 久久精品亚洲一区二区| 亚洲一区二区3| 亚洲日本va在线观看| 欧美国产高潮xxxx1819|