青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

posts - 297,  comments - 15,  trackbacks - 0

這里是維基百科對網絡爬蟲的詞條頁面。網絡爬蟲以叫網絡蜘蛛,網絡機器人,這是一個程序,其會自動的通過網絡抓取互聯網上的網頁,這種技術一般可能用來檢查你的站點上所有的鏈接是否是都是有效的。當然,更為高級的技術是把網頁中的相關數據保存下來,可以成為搜索引擎。

從技相來說,實現抓取網頁可能并不是一件很困難的事情,困難的事情是對網頁的分析和整理,那是一件需要有輕量智能,需要大量數學計算的程序才能做的事情。下面一個簡單的流程:

 

在這里,我們只是說一下如何寫一個網頁抓取程序。

首先我們先看一下,如何使用命令行的方式來找開網頁。

telnet somesite.com 80
GET /index.html HTTP/1.0
按回車兩次

使用telnet就是告訴你其實這是一個socket的技術,并且使用HTTP的協議,如 GET方法來獲得網頁,當然,接下來的事你就需要解析HTML文法,甚至還需要解析Javascript,因為現在的網頁使用Ajax的越來越多了,而很多網頁內容都是通過Ajax技術加載的,因為,只是簡單地解析HTML文件在未來會遠遠不夠。當然,在這里,只是展示一個非常簡單的抓取,簡單到只能做為一個例子,下面這個示例的偽代碼:

取網頁
for each 鏈接 in 當前網頁所有的鏈接
{
if(如果本鏈接是我們想要的 || 這個鏈接從未訪問過)
{
處理對本鏈接
把本鏈接設置為已訪問
}
}
require “rubygems”
require “mechanize”
class Crawler < WWW::Mechanize
attr_accessor :callback
INDEX = 0
DOWNLOAD = 1
PASS = 2
def initialize
super
init
@first = true
self.user_agent_alias = “Windows IE 6″
end
def init
@visited = []
end
def remember(link)
@visited << link
end
def perform_index(link)
self.get(link)
if(self.page.class.to_s == “WWW::Mechanize::Page”)
links = self.page.links.map {|link| link.href } - @visited
links.each do |alink|
start(alink)
end
end
end
def start(link)
return if link.nil?
if(!@visited.include?(link))
action = @callback.call(link)
if(@first)
@first = false
perform_index(link)
end
case action
when INDEX
perform_index(link)
when DOWNLOAD
self.get(link).save_as(File.basename(link))
when PASS
puts “passing on #{link}”
end
end
end
def get(site)
begin
puts “getting #{site}”
@visited << site
super(site)
rescue
puts “error getting #{site}”
end
end
end

上面的代碼就不必多說了,大家可以去試試。下面是如何使用上面的代碼:

require “crawler”
x = Crawler.new
callback = lambda do |link|
if(link =~/\\.(zip|rar|gz|pdf|doc)
x.remember(link)
return Crawler::PASS
elsif(link =~/\\.(jpg|jpeg)/)
return Crawler::DOWNLOAD
end
return Crawler::INDEX;
end
x.callback = callback
x.start(”http://somesite.com”)

下面是一些和網絡爬蟲相關的開源網絡項目

from:
http://coolshell.cn/?p=27

posted on 2010-02-18 21:54 chatler 閱讀(724) 評論(0)  編輯 收藏 引用 所屬分類: SearchEngine

只有注冊用戶登錄后才能發表評論。
網站導航: 博客園   IT新聞   BlogJava   博問   Chat2DB   管理


<2025年11月>
2627282930311
2345678
9101112131415
16171819202122
23242526272829
30123456

常用鏈接

留言簿(10)

隨筆分類(307)

隨筆檔案(297)

algorithm

Books_Free_Online

C++

database

Linux

Linux shell

linux socket

misce

  • cloudward
  • 感覺這個博客還是不錯,雖然做的東西和我不大相關,覺得看看還是有好處的

network

OSS

  • Google Android
  • Android is a software stack for mobile devices that includes an operating system, middleware and key applications. This early look at the Android SDK provides the tools and APIs necessary to begin developing applications on the Android platform using the Java programming language.
  • os161 file list

overall

搜索

  •  

最新評論

閱讀排行榜

評論排行榜

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            久久久99国产精品免费| 欧美一级黄色网| 欧美日韩国产在线播放网站| 欧美一区二区久久久| 一本久久综合亚洲鲁鲁| 99国产精品久久久久久久久久| 日韩一二三在线视频播| 亚洲图片你懂的| 先锋资源久久| 久色婷婷小香蕉久久| 欧美激情一级片一区二区| 欧美乱在线观看| 国产亚洲第一区| 亚洲国产精品成人综合| 亚洲每日更新| 久久不射网站| 亚洲福利精品| 91久久精品www人人做人人爽| 日韩视频一区| 欧美在线三级| 欧美精品一区在线播放| 国产日本欧美视频| 亚洲国产小视频在线观看| 午夜欧美视频| 亚洲国产日韩一区二区| 亚洲欧美在线视频观看| 欧美成人一区在线| 欧美日韩一区二区在线观看| 国产专区欧美精品| 99亚洲一区二区| 久久亚洲色图| 亚洲毛片网站| 麻豆精品91| 国产亚洲欧美激情| 日韩网站在线| 老色批av在线精品| 亚洲男女毛片无遮挡| 欧美理论电影在线播放| 亚洲高清不卡av| 欧美一级大片在线观看| 一本一本久久a久久精品综合妖精| 久久久久久久久久久成人| 国产精品成人免费精品自在线观看| 91久久久久久久久| 久久精品99| 中国成人黄色视屏| 欧美另类99xxxxx| 亚洲人成欧美中文字幕| 欧美日韩在线综合| 久久精品二区三区| 国产精品一级久久久| 亚洲网在线观看| 亚洲精品日产精品乱码不卡| 久久久欧美精品| 亚洲国产日韩欧美在线动漫| 久久av资源网| 国产亚洲欧美色| 亚洲欧美日韩综合aⅴ视频| 日韩性生活视频| 国产精品久久国产精品99gif| 亚洲精品日韩在线观看| 亚洲国产一区二区a毛片| 久久综合色综合88| 亚洲激情在线视频| 欧美11—12娇小xxxx| 久久久午夜电影| 亚洲国产乱码最新视频| 亚洲成色777777在线观看影院| 久久夜色精品国产| 亚洲国产日韩一区二区| 亚洲第一中文字幕在线观看| 欧美成人精品在线观看| 9国产精品视频| 一区二区免费看| 国产日韩精品一区观看| 久久全国免费视频| 久热精品视频在线观看| 在线看不卡av| 亚洲美女精品一区| 国产精品美女午夜av| 久久国产精品色婷婷| 久久久国产亚洲精品| 亚洲精品久久在线| 99精品视频一区二区三区| 国产精品专区一| 久久噜噜亚洲综合| 欧美国产精品人人做人人爱| av不卡在线| 亚洲欧美成人综合| 亚洲国产欧美一区二区三区同亚洲 | 亚洲国产午夜| 欧美色精品天天在线观看视频 | 蜜桃久久av| 欧美成人精品一区二区三区| 亚洲视频日本| 欧美中文字幕在线| 一区二区三区四区国产| 欧美一区三区二区在线观看| 亚洲精品国产视频| 午夜视频久久久久久| 亚洲精品久久久久久一区二区| 亚洲一区黄色| 日韩视频精品在线| 久久爱www.| 亚洲视频观看| 免费久久99精品国产自在现线| 亚洲永久在线观看| 一区二区视频免费完整版观看| 久久精品亚洲精品| 欧美区一区二区三区| 久久精品最新地址| 欧美性一区二区| 久久男女视频| 欧美系列精品| 91久久国产综合久久| 国内偷自视频区视频综合| 亚洲精品免费一二三区| 亚洲福利精品| 久久久久成人精品| 久久久久久久成人| 欧美性猛交视频| 亚洲国产精品久久久久秋霞蜜臀 | 欧美成人资源网| 国产模特精品视频久久久久| 日韩视频在线一区二区三区| 亚洲精品九九| 蘑菇福利视频一区播放| 老司机免费视频久久| 国产亚洲欧美日韩一区二区| 亚洲欧美在线x视频| 久久se精品一区二区| 国产精品久久福利| 亚洲免费一在线| 欧美在线免费视屏| 国产麻豆午夜三级精品| 亚洲欧美国产高清| 亚洲欧美日韩国产一区| 国产精品麻豆va在线播放| 在线一区二区三区做爰视频网站| 一个色综合导航| 欧美丝袜一区二区三区| 一区二区日韩免费看| 亚洲欧美国产精品va在线观看| 国产精品av久久久久久麻豆网| 一本久久综合亚洲鲁鲁| 欧美在线一区二区| 合欧美一区二区三区| 久久久成人网| 欧美激情精品久久久久久蜜臀 | 欧美伊人久久| 国产亚洲综合在线| 久久久久久久综合| 亚洲缚视频在线观看| 一区二区三区免费观看| 国产精品久久777777毛茸茸| 欧美一区视频| 亚洲国产91| 亚洲一区精品电影| 国产亚洲精品久久久久动| 久久综合九色综合网站 | 久久午夜av| 欧美福利精品| 亚洲一区www| 国内精品嫩模av私拍在线观看 | 麻豆国产精品va在线观看不卡| 一区二区自拍| 欧美另类高清视频在线| 亚洲伊人网站| 欧美成人一区二区| 午夜精品久久久久久久99黑人| 国产在线观看精品一区二区三区| 欧美jizzhd精品欧美巨大免费| 一区二区动漫| 欧美国产亚洲精品久久久8v| 日韩午夜激情电影| 国产一区二区三区久久久| 欧美黄色片免费观看| 亚洲欧美日韩爽爽影院| 91久久精品久久国产性色也91| 欧美一级视频精品观看| 91久久视频| 国外成人在线视频网站| 欧美三级中文字幕在线观看| 久久亚洲影音av资源网| 一区二区三区四区五区精品视频| 美女露胸一区二区三区| 亚洲一区在线观看免费观看电影高清| 国产综合网站| 国产精品久久久久秋霞鲁丝 | 亚洲国产另类久久精品| 久久丁香综合五月国产三级网站| 日韩视频亚洲视频| 激情综合久久| 国产精品青草久久| 欧美国产日产韩国视频| 久久久久久久综合日本| 欧美一区二视频在线免费观看| 亚洲综合日韩中文字幕v在线| 99精品免费网| 亚洲精品免费一二三区|