青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

posts - 297,  comments - 15,  trackbacks - 0

這里是維基百科對網(wǎng)絡(luò)爬蟲的詞條頁面。網(wǎng)絡(luò)爬蟲以叫網(wǎng)絡(luò)蜘蛛,網(wǎng)絡(luò)機器人,這是一個程序,其會自動的通過網(wǎng)絡(luò)抓取互聯(lián)網(wǎng)上的網(wǎng)頁,這種技術(shù)一般可能用來檢查你的站點上所有的鏈接是否是都是有效的。當(dāng)然,更為高級的技術(shù)是把網(wǎng)頁中的相關(guān)數(shù)據(jù)保存下來,可以成為搜索引擎。

從技相來說,實現(xiàn)抓取網(wǎng)頁可能并不是一件很困難的事情,困難的事情是對網(wǎng)頁的分析和整理,那是一件需要有輕量智能,需要大量數(shù)學(xué)計算的程序才能做的事情。下面一個簡單的流程:

 

在這里,我們只是說一下如何寫一個網(wǎng)頁抓取程序。

首先我們先看一下,如何使用命令行的方式來找開網(wǎng)頁。

telnet somesite.com 80
GET /index.html HTTP/1.0
按回車兩次

使用telnet就是告訴你其實這是一個socket的技術(shù),并且使用HTTP的協(xié)議,如 GET方法來獲得網(wǎng)頁,當(dāng)然,接下來的事你就需要解析HTML文法,甚至還需要解析Javascript,因為現(xiàn)在的網(wǎng)頁使用Ajax的越來越多了,而很多網(wǎng)頁內(nèi)容都是通過Ajax技術(shù)加載的,因為,只是簡單地解析HTML文件在未來會遠(yuǎn)遠(yuǎn)不夠。當(dāng)然,在這里,只是展示一個非常簡單的抓取,簡單到只能做為一個例子,下面這個示例的偽代碼:

取網(wǎng)頁
for each 鏈接 in 當(dāng)前網(wǎng)頁所有的鏈接
{
if(如果本鏈接是我們想要的 || 這個鏈接從未訪問過)
{
處理對本鏈接
把本鏈接設(shè)置為已訪問
}
}
require “rubygems”
require “mechanize”
class Crawler < WWW::Mechanize
attr_accessor :callback
INDEX = 0
DOWNLOAD = 1
PASS = 2
def initialize
super
init
@first = true
self.user_agent_alias = “Windows IE 6″
end
def init
@visited = []
end
def remember(link)
@visited << link
end
def perform_index(link)
self.get(link)
if(self.page.class.to_s == “WWW::Mechanize::Page”)
links = self.page.links.map {|link| link.href } - @visited
links.each do |alink|
start(alink)
end
end
end
def start(link)
return if link.nil?
if(!@visited.include?(link))
action = @callback.call(link)
if(@first)
@first = false
perform_index(link)
end
case action
when INDEX
perform_index(link)
when DOWNLOAD
self.get(link).save_as(File.basename(link))
when PASS
puts “passing on #{link}”
end
end
end
def get(site)
begin
puts “getting #{site}”
@visited << site
super(site)
rescue
puts “error getting #{site}”
end
end
end

上面的代碼就不必多說了,大家可以去試試。下面是如何使用上面的代碼:

require “crawler”
x = Crawler.new
callback = lambda do |link|
if(link =~/\\.(zip|rar|gz|pdf|doc)
x.remember(link)
return Crawler::PASS
elsif(link =~/\\.(jpg|jpeg)/)
return Crawler::DOWNLOAD
end
return Crawler::INDEX;
end
x.callback = callback
x.start(”http://somesite.com”)

下面是一些和網(wǎng)絡(luò)爬蟲相關(guān)的開源網(wǎng)絡(luò)項目

from:
http://coolshell.cn/?p=27

posted on 2010-02-18 21:54 chatler 閱讀(716) 評論(0)  編輯 收藏 引用 所屬分類: SearchEngine

只有注冊用戶登錄后才能發(fā)表評論。
網(wǎng)站導(dǎo)航: 博客園   IT新聞   BlogJava   博問   Chat2DB   管理


<2025年9月>
31123456
78910111213
14151617181920
21222324252627
2829301234
567891011

常用鏈接

留言簿(10)

隨筆分類(307)

隨筆檔案(297)

algorithm

Books_Free_Online

C++

database

Linux

Linux shell

linux socket

misce

  • cloudward
  • 感覺這個博客還是不錯,雖然做的東西和我不大相關(guān),覺得看看還是有好處的

network

OSS

  • Google Android
  • Android is a software stack for mobile devices that includes an operating system, middleware and key applications. This early look at the Android SDK provides the tools and APIs necessary to begin developing applications on the Android platform using the Java programming language.
  • os161 file list

overall

搜索

  •  

最新評論

閱讀排行榜

評論排行榜

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            欧美一区二区三区婷婷月色| 亚洲欧美日韩另类| 亚洲经典自拍| 午夜欧美不卡精品aaaaa| 欧美激情一区二区三区高清视频| 亚洲激情图片小说视频| 中文在线资源观看网站视频免费不卡 | 国产伪娘ts一区| 亚洲一区二区三区在线视频| 欧美激情一区二区| 久久综合一区二区三区| 国产日韩欧美亚洲一区| 午夜欧美不卡精品aaaaa| 在线综合亚洲| 欧美日本久久| 在线视频欧美日韩精品| 亚洲精品一区二区在线| 欧美精品v国产精品v日韩精品| 亚洲国产高清高潮精品美女| 欧美成人国产| 欧美高清视频一区二区三区在线观看| 亚洲高清免费| 亚洲激情国产精品| 欧美片网站免费| 一区二区三区av| 日韩视频欧美视频| 国产精品久久二区二区| 欧美影院视频| 久久久精品性| 亚洲国产视频一区二区| 91久久综合亚洲鲁鲁五月天| 欧美日韩久久不卡| 亚洲欧美国产制服动漫| 欧美夜福利tv在线| 在线观看一区| 亚洲精品国精品久久99热| 亚洲人成啪啪网站| 亚洲日韩第九十九页| 欧美日韩午夜在线| 西西人体一区二区| 欧美一区在线直播| 亚洲人成小说网站色在线| 亚洲日本成人| 国产精品一香蕉国产线看观看| 欧美一级夜夜爽| 久久综合激情| 亚洲欧美日韩另类| 美女视频黄免费的久久| 亚洲一区精品在线| 久久久国产91| 亚洲一区二区少妇| 久久精品一二三| 一个色综合av| 久久久久久久久岛国免费| 99精品国产在热久久婷婷| 午夜精品久久久久久久99热浪潮| 一区福利视频| 亚洲一区二区三区四区五区午夜 | 欧美一区二粉嫩精品国产一线天| 伊人久久亚洲影院| 在线视频你懂得一区二区三区| 精品成人久久| 亚洲香蕉网站| 亚洲美女福利视频网站| 性色av一区二区三区在线观看| 亚洲欧洲日韩女同| 香蕉久久久久久久av网站| 99re热这里只有精品视频| 久久九九免费视频| 亚洲欧美中文字幕| 欧美日韩国产高清| 欧美a级大片| 国产一区二区三区黄视频| 99成人精品| 91久久精品日日躁夜夜躁欧美| 午夜精品久久久久久久| 亚洲一卡久久| 欧美日本三级| 亚洲国产高潮在线观看| 黄色免费成人| 香蕉久久一区二区不卡无毒影院| 一本久道综合久久精品| 欧美+日本+国产+在线a∨观看| 久久精彩视频| 国产噜噜噜噜噜久久久久久久久| 亚洲乱码日产精品bd| 亚洲欧洲一区二区天堂久久| 久久久97精品| 玖玖玖国产精品| 国产一区二区三区日韩| 亚洲一区二区在线看| 亚洲综合三区| 国产精品久久久久一区二区| 99国产精品久久| 国产精品亚洲综合久久| 一区二区三区久久久| 亚洲特黄一级片| 欧美另类极品videosbest最新版本| 国产亚洲精品福利| 亚洲国产日韩欧美| 亚洲日本va在线观看| 欧美a级片网| 91久久久一线二线三线品牌| 91久久久国产精品| 欧美国产日韩一区二区在线观看| 亚洲国产一区在线| 一区二区黄色| 国产精品久久久久久久久| 亚洲一区视频在线观看视频| 欧美一区二区免费观在线| 国产精品专区h在线观看| 亚洲欧美国产高清| 久久精品人人| 亚洲国产另类精品专区 | 欧美日韩免费观看中文| 99riav1国产精品视频| 亚洲图片欧美一区| 国产精品永久在线| 久久国产婷婷国产香蕉| 欧美成人一区二区三区| 亚洲精品国产精品乱码不99| 欧美日韩精品免费观看| 亚洲综合国产精品| 老司机精品导航| 一区二区三区四区在线| 国产精品乱码一区二三区小蝌蚪 | 久久久久久久一区| 亚洲国产精品综合| 亚洲一区日韩| 狠狠色综合网| 欧美日韩www| 欧美中文字幕在线播放| 亚洲国产一区二区视频| 午夜综合激情| 尤物99国产成人精品视频| 欧美精品一区在线| 亚洲欧美在线一区二区| 亚洲欧洲一区二区天堂久久| 欧美一级二级三级蜜桃| 亚洲激情av| 国产麻豆91精品| 欧美高清在线| 欧美一区午夜视频在线观看| 亚洲精品一级| 久久网站热最新地址| 亚洲视频一二区| 亚洲国产成人porn| 国产精品丝袜91| 欧美精品成人| 久久一区亚洲| 午夜一区不卡| 99视频超级精品| 欧美国产日韩xxxxx| 香蕉精品999视频一区二区| 亚洲韩国精品一区| 黑人巨大精品欧美一区二区| 欧美久久久久久| 噜噜噜在线观看免费视频日韩| 亚洲欧美日韩国产一区| 亚洲精品黄色| 欧美黄色免费网站| 久久亚洲私人国产精品va| 亚洲综合首页| 日韩一区二区高清| 亚洲国产成人精品女人久久久 | 亚洲第一免费播放区| 久久精品国产99国产精品| 国产亚洲精品一区二555| 校园春色国产精品| 欧美成人dvd在线视频| 99国产精品久久| 中文亚洲欧美| 亚洲黄色三级| 亚洲综合99| 欧美一区二区三区男人的天堂 | 久久亚洲国产成人| 99视频一区二区三区| 亚洲第一精品夜夜躁人人爽 | 国产精品视频一| 欧美色图首页| 欧美人与禽猛交乱配视频| 美女尤物久久精品| 久久久免费av| 久久先锋资源| 久久精品国产综合精品| 性久久久久久| 午夜精品视频| 欧美一区二区免费视频| 正在播放欧美视频| 亚洲午夜精品国产| 亚洲综合999| 欧美一区二区三区啪啪| 欧美中文字幕在线| 久久精品伊人| 欧美国产亚洲另类动漫| 欧美日韩99| 欧美日韩国产一区| 国产精品v欧美精品v日韩| 国产精品美女久久福利网站| 国产日韩欧美综合一区|