• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            posts - 12, comments - 4, trackbacks - 0, articles - 36

            http://larbin.sourceforge.net/index-eng.html
            這是larbin的主頁(yè),感情又是sourceforge上的開(kāi)源項(xiàng)目啊。
            開(kāi)源就是好,前輩們的代碼,經(jīng)驗(yàn),可以為后來(lái)者鋪平道路,同時(shí),開(kāi)源又是練手的最佳途徑。這一段時(shí)間太忙了,等空下來(lái),也要去看看sourceforg上面有沒(méi)有合適的項(xiàng)目,參加參加

            1]larbin的簡(jiǎn)介
            larbin是一種開(kāi)源的網(wǎng)絡(luò)爬蟲(chóng)/網(wǎng)絡(luò)蜘蛛,由法國(guó)的年輕人 Sébastien Ailleret獨(dú)立開(kāi)發(fā)。larbin目的是能夠跟蹤頁(yè)面的url進(jìn)行擴(kuò)展的抓取,最后為搜索引擎提供廣泛的數(shù)據(jù)來(lái)源。

            Larbin只是一個(gè)爬蟲(chóng),也就是說(shuō)larbin只抓取網(wǎng)頁(yè),至于如何parse的事情則由用戶自己完成。另外,如何存儲(chǔ)到數(shù)據(jù)庫(kù)以及建立索引的事情 larbin也不提供。

            latbin最初的設(shè)計(jì)也是依據(jù)設(shè)計(jì)簡(jiǎn)單但是高度可配置性的原則,因此我們可以看到,一個(gè)簡(jiǎn)單的larbin的爬蟲(chóng)可以每天獲取500萬(wàn)的網(wǎng)頁(yè),實(shí)在是非常高效。

            2] Larbin的性能特征
            高效是我對(duì) larbin 的評(píng)價(jià)。
            今年四月份的時(shí)候我對(duì)larbin的性能做過(guò)一個(gè)測(cè)試,luliang.dhs.org是我自己常用的服務(wù)器,CPU 為1G,內(nèi)存512,其它的性能一般,因?yàn)槭侨昵百?gòu)置的。

            我將我自己的網(wǎng)頁(yè) 六翼作為入口,運(yùn)行l(wèi)arbin進(jìn)行5層內(nèi)的url的抓取。

            當(dāng)時(shí)紀(jì)錄的一些數(shù)據(jù):
            Internet IO: 500-700k/per second (我想大約我的網(wǎng)絡(luò)下載的瓶頸了吧)
            CPU top: 5%-15%
            disk consume: 1M/s ,基本上一個(gè)小時(shí)爬 3個(gè)G 的網(wǎng)頁(yè)。差不多20萬(wàn)的頁(yè)面
            url 解析: 200萬(wàn)-300萬(wàn)每小時(shí)

            3] larbin 的作用
            很多人初見(jiàn) larbin 不知道從哪里下手,那么我來(lái)簡(jiǎn)單介紹一下 larbin 的功能和實(shí)際應(yīng)用。
            1. larbin 獲取單個(gè)、確定網(wǎng)站的所有聯(lián)結(jié),甚至可以鏡像一個(gè)網(wǎng)站。
            1. larbin 獲取單個(gè)、確定網(wǎng)站的所有聯(lián)結(jié),甚至可以鏡像一個(gè)網(wǎng)站。
            2. larbin建立 url 列表群,例如針對(duì)所有的網(wǎng)頁(yè)進(jìn)行 url retrive后,進(jìn)行xml的聯(lián)結(jié)的獲取。或者是 mp3 。
            3. larbin 定制后可以作為搜索引擎的信息的來(lái)源(例如可以將抓取下來(lái)的網(wǎng)頁(yè)每2000一組存放在一系列的目錄結(jié)構(gòu)里面)。

            總歸,larbin應(yīng)當(dāng)是一個(gè)被廣大搜索引擎愛(ài)好者應(yīng)當(dāng)引起注意的一個(gè)產(chǎn)品,雖然其功能逐漸被 Nutch 所接受和替代,但是其在爬蟲(chóng)上的優(yōu)美設(shè)計(jì)的確值得稱道。

            Posted at December 24, 2004 02:35 AM by Liang at 02

            久久久久久久久无码精品亚洲日韩 | 久久99精品久久久久久齐齐 | 伊人久久综合无码成人网| 亚洲精品国产第一综合99久久| 亚洲а∨天堂久久精品9966| 久久亚洲sm情趣捆绑调教| 久久久久久久97| 久久婷婷五月综合色99啪ak| 伊人色综合久久天天人手人婷| 久久久久久久综合日本亚洲| 欧美性大战久久久久久| 国产午夜精品久久久久免费视| 久久久久久亚洲精品不卡| 久久超乳爆乳中文字幕| 久久精品一区二区三区AV| 99久久亚洲综合精品网站| 精品久久人人爽天天玩人人妻| 亚洲综合久久综合激情久久| 国产美女亚洲精品久久久综合| 中文字幕久久欲求不满| 久久棈精品久久久久久噜噜| 伊人久久大香线蕉AV一区二区| 999久久久国产精品| 99久久精品国产高清一区二区| 性做久久久久久免费观看| 国产—久久香蕉国产线看观看| 精品无码久久久久久午夜| 亚洲精品高清国产一线久久| 久久青青草原精品国产不卡| 国产精品青草久久久久福利99| 国产一区二区三区久久| WWW婷婷AV久久久影片| 久久精品麻豆日日躁夜夜躁| 中文字幕热久久久久久久| 综合久久精品色| 少妇熟女久久综合网色欲| 久久青青草视频| 精品久久人人爽天天玩人人妻| 久久婷婷五月综合色奶水99啪| 漂亮人妻被中出中文字幕久久 | 麻豆精品久久精品色综合|