• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            posts - 12, comments - 4, trackbacks - 0, articles - 36

            Larbin 一種高效的搜索引擎爬蟲工具

            Posted on 2005-12-07 13:38 inwind 閱讀(1058) 評論(0)  編輯 收藏 引用 所屬分類: 搜索引擎

            http://larbin.sourceforge.net/index-eng.html
            這是larbin的主頁,感情又是sourceforge上的開源項目啊。
            開源就是好,前輩們的代碼,經驗,可以為后來者鋪平道路,同時,開源又是練手的最佳途徑。這一段時間太忙了,等空下來,也要去看看sourceforg上面有沒有合適的項目,參加參加

            1]larbin的簡介
            larbin是一種開源的網絡爬蟲/網絡蜘蛛,由法國的年輕人 Sébastien Ailleret獨立開發。larbin目的是能夠跟蹤頁面的url進行擴展的抓取,最后為搜索引擎提供廣泛的數據來源。

            Larbin只是一個爬蟲,也就是說larbin只抓取網頁,至于如何parse的事情則由用戶自己完成。另外,如何存儲到數據庫以及建立索引的事情 larbin也不提供。

            latbin最初的設計也是依據設計簡單但是高度可配置性的原則,因此我們可以看到,一個簡單的larbin的爬蟲可以每天獲取500萬的網頁,實在是非常高效。

            2] Larbin的性能特征
            高效是我對 larbin 的評價。
            今年四月份的時候我對larbin的性能做過一個測試,luliang.dhs.org是我自己常用的服務器,CPU 為1G,內存512,其它的性能一般,因為是三年前購置的。

            我將我自己的網頁 六翼作為入口,運行larbin進行5層內的url的抓取。

            當時紀錄的一些數據:
            Internet IO: 500-700k/per second (我想大約我的網絡下載的瓶頸了吧)
            CPU top: 5%-15%
            disk consume: 1M/s ,基本上一個小時爬 3個G 的網頁。差不多20萬的頁面
            url 解析: 200萬-300萬每小時

            3] larbin 的作用
            很多人初見 larbin 不知道從哪里下手,那么我來簡單介紹一下 larbin 的功能和實際應用。
            1. larbin 獲取單個、確定網站的所有聯結,甚至可以鏡像一個網站。
            1. larbin 獲取單個、確定網站的所有聯結,甚至可以鏡像一個網站。
            2. larbin建立 url 列表群,例如針對所有的網頁進行 url retrive后,進行xml的聯結的獲取。或者是 mp3 。
            3. larbin 定制后可以作為搜索引擎的信息的來源(例如可以將抓取下來的網頁每2000一組存放在一系列的目錄結構里面)。

            總歸,larbin應當是一個被廣大搜索引擎愛好者應當引起注意的一個產品,雖然其功能逐漸被 Nutch 所接受和替代,但是其在爬蟲上的優美設計的確值得稱道。

            Posted at December 24, 2004 02:35 AM by Liang at 02

            亚洲午夜久久久久妓女影院 | 精品久久久久久久久久中文字幕 | 国内精品久久久久久久影视麻豆| 99久久综合狠狠综合久久止| 成人精品一区二区久久久| 久久国产精品视频| 狠狠综合久久AV一区二区三区 | 欧美伊人久久大香线蕉综合| 久久丫精品国产亚洲av不卡 | 国产精品成人久久久| 久久精品国产亚洲AV无码娇色| 久久国产高清一区二区三区| 日韩人妻无码精品久久免费一| 久久久WWW成人免费精品| 久久香综合精品久久伊人| 亚洲精品tv久久久久久久久久| 久久99国产综合精品免费| 亚洲国产天堂久久久久久| 成人免费网站久久久| 亚洲香蕉网久久综合影视| 久久午夜综合久久| 久久久九九有精品国产| 亚洲伊人久久精品影院| 久久久www免费人成精品| 久久久久噜噜噜亚洲熟女综合| 国产精品久久久久久久久鸭| 久久综合亚洲鲁鲁五月天| 久久99精品久久久久久齐齐| 一本久久久久久久| 青青青国产成人久久111网站| 欧美牲交A欧牲交aⅴ久久| 国内精品九九久久精品 | 久久精品这里只有精99品| 久久青青草原综合伊人| 夜夜亚洲天天久久| 国产精品99久久不卡| 国产AV影片久久久久久| 国产午夜电影久久| 久久国产综合精品五月天| 久久中文字幕视频、最近更新| 久久综合五月丁香久久激情|