青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

posts - 297,  comments - 15,  trackbacks - 0

這里是維基百科對網絡爬蟲的詞條頁面。網絡爬蟲以叫網絡蜘蛛,網絡機器人,這是一個程序,其會自動的通過網絡抓取互聯網上的網頁,這種技術一般可能用來檢查你的站點上所有的鏈接是否是都是有效的。當然,更為高級的技術是把網頁中的相關數據保存下來,可以成為搜索引擎。

從技相來說,實現抓取網頁可能并不是一件很困難的事情,困難的事情是對網頁的分析和整理,那是一件需要有輕量智能,需要大量數學計算的程序才能做的事情。下面一個簡單的流程:

 

在這里,我們只是說一下如何寫一個網頁抓取程序。

首先我們先看一下,如何使用命令行的方式來找開網頁。

telnet somesite.com 80
GET /index.html HTTP/1.0
按回車兩次

使用telnet就是告訴你其實這是一個socket的技術,并且使用HTTP的協議,如 GET方法來獲得網頁,當然,接下來的事你就需要解析HTML文法,甚至還需要解析Javascript,因為現在的網頁使用Ajax的越來越多了,而很多網頁內容都是通過Ajax技術加載的,因為,只是簡單地解析HTML文件在未來會遠遠不夠。當然,在這里,只是展示一個非常簡單的抓取,簡單到只能做為一個例子,下面這個示例的偽代碼:

取網頁
for each 鏈接 in 當前網頁所有的鏈接
{
if(如果本鏈接是我們想要的 || 這個鏈接從未訪問過)
{
處理對本鏈接
把本鏈接設置為已訪問
}
}
require “rubygems”
require “mechanize”
class Crawler < WWW::Mechanize
attr_accessor :callback
INDEX = 0
DOWNLOAD = 1
PASS = 2
def initialize
super
init
@first = true
self.user_agent_alias = “Windows IE 6″
end
def init
@visited = []
end
def remember(link)
@visited << link
end
def perform_index(link)
self.get(link)
if(self.page.class.to_s == “WWW::Mechanize::Page”)
links = self.page.links.map {|link| link.href } - @visited
links.each do |alink|
start(alink)
end
end
end
def start(link)
return if link.nil?
if(!@visited.include?(link))
action = @callback.call(link)
if(@first)
@first = false
perform_index(link)
end
case action
when INDEX
perform_index(link)
when DOWNLOAD
self.get(link).save_as(File.basename(link))
when PASS
puts “passing on #{link}”
end
end
end
def get(site)
begin
puts “getting #{site}”
@visited << site
super(site)
rescue
puts “error getting #{site}”
end
end
end

上面的代碼就不必多說了,大家可以去試試。下面是如何使用上面的代碼:

require “crawler”
x = Crawler.new
callback = lambda do |link|
if(link =~/\\.(zip|rar|gz|pdf|doc)
x.remember(link)
return Crawler::PASS
elsif(link =~/\\.(jpg|jpeg)/)
return Crawler::DOWNLOAD
end
return Crawler::INDEX;
end
x.callback = callback
x.start(”http://somesite.com”)

下面是一些和網絡爬蟲相關的開源網絡項目

from:
http://coolshell.cn/?p=27

posted on 2010-02-18 21:54 chatler 閱讀(724) 評論(0)  編輯 收藏 引用 所屬分類: SearchEngine

只有注冊用戶登錄后才能發表評論。
網站導航: 博客園   IT新聞   BlogJava   博問   Chat2DB   管理


<2025年11月>
2627282930311
2345678
9101112131415
16171819202122
23242526272829
30123456

常用鏈接

留言簿(10)

隨筆分類(307)

隨筆檔案(297)

algorithm

Books_Free_Online

C++

database

Linux

Linux shell

linux socket

misce

  • cloudward
  • 感覺這個博客還是不錯,雖然做的東西和我不大相關,覺得看看還是有好處的

network

OSS

  • Google Android
  • Android is a software stack for mobile devices that includes an operating system, middleware and key applications. This early look at the Android SDK provides the tools and APIs necessary to begin developing applications on the Android platform using the Java programming language.
  • os161 file list

overall

搜索

  •  

最新評論

閱讀排行榜

評論排行榜

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            欧美主播一区二区三区美女 久久精品人| 国产主播精品在线| 亚洲综合国产| 一区二区三区精品| 这里是久久伊人| 亚洲在线观看视频网站| 亚洲一区免费网站| 午夜一区在线| 久久精品天堂| 欧美国产日本在线| 国产精品国产三级国产专播精品人 | 亚洲精品日韩综合观看成人91| 亚洲国产精品ⅴa在线观看| 欧美国产日韩xxxxx| 亚洲精品一区二区在线观看| 亚洲一区视频| 噜噜噜噜噜久久久久久91| 欧美女同视频| 激情久久影院| 中文日韩电影网站| 久久天天躁狠狠躁夜夜av| 91久久精品一区二区三区| 亚洲永久视频| 欧美成人日韩| 国内精品美女av在线播放| 日韩手机在线导航| 久久久久国产一区二区三区| 亚洲国产视频直播| 欧美一区二区精品| 欧美日韩1080p| 精品动漫av| 亚洲欧美日韩国产中文在线| 蜜桃精品久久久久久久免费影院| 一本一本久久| 男人插女人欧美| 国产三级欧美三级| 亚洲一区二区动漫| 欧美激情1区| 欧美中文在线视频| 国产精品久久久久久久久久久久久久| 曰韩精品一区二区| 久久精品日产第一区二区| 亚洲精品在线三区| 欧美va日韩va| 亚洲成色777777女色窝| 久久久久**毛片大全| 亚洲在线视频观看| 久久久久久久波多野高潮日日| 欧美激情国产精品| 欧美二区不卡| 欧美激情精品久久久| 国产欧美大片| 久久av一区| 国产九九精品| 久久精品免费| 久久国产日本精品| 亚洲欧美日本另类| 欧美在线日韩精品| 久久另类ts人妖一区二区| 免费成人高清视频| 猛干欧美女孩| 欧美区在线观看| 欧美日韩国产电影| 亚洲毛片视频| 激情综合网址| 欧美成人资源| 欧美/亚洲一区| 国产精品美女黄网| 欧美一区二区三区另类| 亚洲一区二区伦理| 激情综合中文娱乐网| 欧美日韩精品免费看| 一区二区三区精品久久久| 亚洲系列中文字幕| 亚洲黄页视频免费观看| 亚洲乱码日产精品bd| 亚洲精品午夜精品| 久久精品综合网| 亚洲女人天堂av| 亚洲一级在线| 久久久蜜桃精品| 亚洲视频视频在线| 欧美人妖在线观看| 亚洲乱码国产乱码精品精可以看| 亚洲性感激情| 亚洲精品一级| 欧美日韩在线另类| 日韩五码在线| 在线视频亚洲欧美| 在线欧美亚洲| 在线中文字幕一区| 免费观看成人鲁鲁鲁鲁鲁视频| 欧美一二三视频| 国精品一区二区三区| 夜夜夜精品看看| 午夜在线观看免费一区| 欧美日韩一区二区免费视频| 欧美一级黄色录像| 日韩视频在线一区| 欧美无乱码久久久免费午夜一区| 欧美高清在线一区| 免费成人小视频| 91久久精品一区二区三区| 亚洲经典自拍| 亚洲精品一二| 欧美系列电影免费观看| 亚洲一区二区在线看| 99精品热6080yy久久| 男女av一区三区二区色多| 欧美日韩亚洲一区二区三区在线| 亚洲人成网站在线播| 欧美成人蜜桃| 日韩视频久久| 一本色道久久综合精品竹菊| 日韩小视频在线观看| 亚洲一区二区三区高清不卡| 国产精品激情电影| 国产一区日韩一区| 国产精品久久久久秋霞鲁丝| 美女视频一区免费观看| 亚洲第一视频网站| 欧美激情亚洲一区| 亚洲免费婷婷| 亚洲黄页视频免费观看| 欧美一区二区视频观看视频| 亚洲黄一区二区三区| 国产手机视频一区二区| 欧美在线观看视频| 久久久久九九视频| 久久福利一区| 欧美成人午夜激情视频| 欧美一区三区三区高中清蜜桃| 亚洲女同在线| 亚洲午夜精品在线| 另类春色校园亚洲| 欧美日韩国产电影| 国产综合亚洲精品一区二| 亚洲区国产区| 欧美一区亚洲| 亚洲网址在线| 一区二区91| 国产精品麻豆成人av电影艾秋| 一区二区三区日韩| 亚洲精选在线观看| 久久久欧美精品sm网站| 麻豆精品在线视频| 亚洲国产精品t66y| 亚洲美女av在线播放| 亚洲日产国产精品| 久久精品女人| 久久一二三四| 在线播放亚洲| 欧美国产精品v| 久久久久久日产精品| 国产亚洲女人久久久久毛片| 亚洲欧美久久| 亚洲在线视频| 国产精品一区二区在线| 亚洲一级高清| 一本综合久久| 欧美香蕉视频| 久久九九免费视频| 亚洲精品日韩精品| 欧美丝袜第一区| 欧美亚洲尤物久久| 欧美精品三区| 国产一区二区欧美| 国产精品自拍三区| 伊人成人开心激情综合网| 黄色欧美日韩| 亚洲午夜视频在线观看| 亚洲在线视频观看| 欧美日韩直播| 国产一区亚洲| 久久综合九色九九| 翔田千里一区二区| 欧美手机在线| 99在线热播精品免费99热| 欧美ab在线视频| 久久久久久自在自线| 亚洲精选中文字幕| 欧美中文字幕在线视频| 羞羞色国产精品| 国产在线乱码一区二区三区| 久久全球大尺度高清视频| 性欧美8khd高清极品| 亚洲欧洲在线一区| 国产区二精品视| 在线观看成人网| 99精品热视频只有精品10| 欧美日韩一区二区欧美激情| 宅男在线国产精品| 久久www免费人成看片高清 | 欧美日韩国产综合久久| 亚洲另类一区二区| 一二三四社区欧美黄| 在线看欧美视频| 久久国产精品99精品国产| 亚洲国产一区二区三区高清 | 日韩午夜精品视频|