青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

posts - 297,  comments - 15,  trackbacks - 0

這里是維基百科對網(wǎng)絡(luò)爬蟲的詞條頁面。網(wǎng)絡(luò)爬蟲以叫網(wǎng)絡(luò)蜘蛛,網(wǎng)絡(luò)機器人,這是一個程序,其會自動的通過網(wǎng)絡(luò)抓取互聯(lián)網(wǎng)上的網(wǎng)頁,這種技術(shù)一般可能用來檢查你的站點上所有的鏈接是否是都是有效的。當(dāng)然,更為高級的技術(shù)是把網(wǎng)頁中的相關(guān)數(shù)據(jù)保存下來,可以成為搜索引擎。

從技相來說,實現(xiàn)抓取網(wǎng)頁可能并不是一件很困難的事情,困難的事情是對網(wǎng)頁的分析和整理,那是一件需要有輕量智能,需要大量數(shù)學(xué)計算的程序才能做的事情。下面一個簡單的流程:

 

在這里,我們只是說一下如何寫一個網(wǎng)頁抓取程序。

首先我們先看一下,如何使用命令行的方式來找開網(wǎng)頁。

telnet somesite.com 80
GET /index.html HTTP/1.0
按回車兩次

使用telnet就是告訴你其實這是一個socket的技術(shù),并且使用HTTP的協(xié)議,如 GET方法來獲得網(wǎng)頁,當(dāng)然,接下來的事你就需要解析HTML文法,甚至還需要解析Javascript,因為現(xiàn)在的網(wǎng)頁使用Ajax的越來越多了,而很多網(wǎng)頁內(nèi)容都是通過Ajax技術(shù)加載的,因為,只是簡單地解析HTML文件在未來會遠(yuǎn)遠(yuǎn)不夠。當(dāng)然,在這里,只是展示一個非常簡單的抓取,簡單到只能做為一個例子,下面這個示例的偽代碼:

取網(wǎng)頁
for each 鏈接 in 當(dāng)前網(wǎng)頁所有的鏈接
{
if(如果本鏈接是我們想要的 || 這個鏈接從未訪問過)
{
處理對本鏈接
把本鏈接設(shè)置為已訪問
}
}
require “rubygems”
require “mechanize”
class Crawler < WWW::Mechanize
attr_accessor :callback
INDEX = 0
DOWNLOAD = 1
PASS = 2
def initialize
super
init
@first = true
self.user_agent_alias = “Windows IE 6″
end
def init
@visited = []
end
def remember(link)
@visited << link
end
def perform_index(link)
self.get(link)
if(self.page.class.to_s == “WWW::Mechanize::Page”)
links = self.page.links.map {|link| link.href } - @visited
links.each do |alink|
start(alink)
end
end
end
def start(link)
return if link.nil?
if(!@visited.include?(link))
action = @callback.call(link)
if(@first)
@first = false
perform_index(link)
end
case action
when INDEX
perform_index(link)
when DOWNLOAD
self.get(link).save_as(File.basename(link))
when PASS
puts “passing on #{link}”
end
end
end
def get(site)
begin
puts “getting #{site}”
@visited << site
super(site)
rescue
puts “error getting #{site}”
end
end
end

上面的代碼就不必多說了,大家可以去試試。下面是如何使用上面的代碼:

require “crawler”
x = Crawler.new
callback = lambda do |link|
if(link =~/\\.(zip|rar|gz|pdf|doc)
x.remember(link)
return Crawler::PASS
elsif(link =~/\\.(jpg|jpeg)/)
return Crawler::DOWNLOAD
end
return Crawler::INDEX;
end
x.callback = callback
x.start(”http://somesite.com”)

下面是一些和網(wǎng)絡(luò)爬蟲相關(guān)的開源網(wǎng)絡(luò)項目

from:
http://coolshell.cn/?p=27

posted on 2010-02-18 21:54 chatler 閱讀(724) 評論(0)  編輯 收藏 引用 所屬分類: SearchEngine

只有注冊用戶登錄后才能發(fā)表評論。
網(wǎng)站導(dǎo)航: 博客園   IT新聞   BlogJava   博問   Chat2DB   管理


<2025年11月>
2627282930311
2345678
9101112131415
16171819202122
23242526272829
30123456

常用鏈接

留言簿(10)

隨筆分類(307)

隨筆檔案(297)

algorithm

Books_Free_Online

C++

database

Linux

Linux shell

linux socket

misce

  • cloudward
  • 感覺這個博客還是不錯,雖然做的東西和我不大相關(guān),覺得看看還是有好處的

network

OSS

  • Google Android
  • Android is a software stack for mobile devices that includes an operating system, middleware and key applications. This early look at the Android SDK provides the tools and APIs necessary to begin developing applications on the Android platform using the Java programming language.
  • os161 file list

overall

搜索

  •  

最新評論

閱讀排行榜

評論排行榜

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            尤妮丝一区二区裸体视频| 欧美一区二区三区喷汁尤物| 亚洲午夜电影| 亚洲一区免费| 午夜欧美大尺度福利影院在线看| 亚洲视频在线视频| 亚洲午夜视频在线观看| 欧美亚洲免费| 玖玖国产精品视频| 亚洲成人在线视频播放| 欧美激情网站在线观看| 免费在线看一区| 亚洲国产精品999| 99国产精品视频免费观看| 99在线观看免费视频精品观看| 日韩一本二本av| 午夜日本精品| 免费不卡中文字幕视频| 日韩视频第一页| 亚洲国产老妈| 亚洲一区二区精品在线| 久久久久国内| 亚洲三级影院| 欧美一区二区三区在线播放| 免费观看成人网| 久久精品男女| 久久这里有精品视频| 亚洲高清在线观看| 亚洲小说欧美另类社区| 久热精品视频在线观看| 欧美午夜电影一区| 欧美aaa级| 国产精品高清免费在线观看| 亚洲电影在线免费观看| 欧美一区二区三区四区在线观看地址 | 在线精品视频一区二区三四| 日韩视频不卡中文| 久久黄色级2电影| 日韩一级精品视频在线观看| 久久久久久网站| 国产精品日韩欧美大师| 最近中文字幕日韩精品| 久久久999成人| 亚洲天堂第二页| 欧美激情一区二区三区全黄 | 午夜天堂精品久久久久| 欧美日韩国产成人在线91| 1024成人网色www| 久久久久久久久久久成人| 亚洲色图在线视频| 欧美日韩在线播放一区| 亚洲精品激情| 91久久综合亚洲鲁鲁五月天| 久久久夜夜夜| 在线欧美不卡| 欧美风情在线| 美女黄毛**国产精品啪啪| 合欧美一区二区三区| 欧美在线视频一区二区| 亚洲专区一区二区三区| 欧美性猛交视频| 亚洲欧美日韩精品久久奇米色影视| 一区二区三区久久| 亚洲国产精品一区| 久久久综合激的五月天| 激情综合中文娱乐网| 久久久999精品| 欧美在线free| 久久成人18免费观看| 国产自产2019最新不卡| 久久高清国产| 久久激情视频| 亚洲第一色在线| 亚洲第一页自拍| 欧美日本国产视频| 亚洲一区中文字幕在线观看| 亚洲无毛电影| 国产亚洲精品久久久久动| 久久午夜电影网| 嫩草影视亚洲| 亚洲在线观看视频网站| 性欧美1819sex性高清| 激情av一区| 亚洲日本欧美| 国产日产亚洲精品系列| 欧美电影电视剧在线观看| 欧美日本亚洲韩国国产| 欧美在线视频免费观看| 免播放器亚洲一区| 亚洲影视九九影院在线观看| 久久成人精品视频| 亚洲精品免费网站| 亚洲免费视频网站| 亚洲黄色在线看| 亚洲一级黄色av| 在线观看日韩| 亚洲性视频网址| 亚洲电影免费观看高清完整版在线观看| 亚洲国内精品| 国产一区二区丝袜高跟鞋图片| 欧美国产一区二区在线观看| 国产精品高潮粉嫩av| 免费不卡在线观看| 国产精品区一区二区三| 欧美高清在线一区| 国产欧美一区二区在线观看| 亚洲国产福利在线| 国产一区免费视频| 在线亚洲精品| 亚洲精品视频在线播放| 亚洲欧美综合国产精品一区| 亚洲卡通欧美制服中文| 久久国产色av| 午夜精品福利一区二区蜜股av| 美女国内精品自产拍在线播放| 欧美在线3区| 欧美午夜激情在线| 亚洲精品一区二区三区婷婷月| 一区免费视频| 欧美在线观看视频一区二区| 亚洲在线观看视频网站| 欧美日韩国产欧美日美国产精品| 蜜臀av一级做a爰片久久| 国产伦精品一区二区三区免费| 亚洲精品综合久久中文字幕| 亚洲国产日韩欧美一区二区三区| 久久www免费人成看片高清| 香蕉久久夜色精品| 国产精品国产三级国产普通话三级 | 久久久www成人免费无遮挡大片| 欧美性大战xxxxx久久久| 亚洲激情在线观看| 亚洲精品1234| 久久综合久久久久88| 老司机一区二区| 一区二区亚洲精品| 久久久久久黄| 久久综合九色| 狠狠综合久久av一区二区老牛| 欧美一区二区三区精品| 久久精品国产免费观看| 国产一区二区三区观看| 欧美在线一区二区三区| 欧美一区二区三区婷婷月色 | 亚洲免费观看高清完整版在线观看| 亚洲高清视频在线| 久久久午夜视频| 欧美激情一区二区三区| 日韩视频免费大全中文字幕| 欧美日韩精品久久久| 国产精品99久久99久久久二8| 亚洲天堂久久| 国产精品永久免费在线| 欧美一区二区啪啪| 美日韩精品免费观看视频| 在线不卡欧美| 欧美激情一区二区在线 | 亚洲一区在线视频| 国产伦精品一区二区三区视频黑人 | 一区二区三区欧美| 欧美一区观看| 伊人久久噜噜噜躁狠狠躁| 欧美va亚洲va香蕉在线| 日韩午夜三级在线| 久久激五月天综合精品| 亚洲国产精品欧美一二99| 欧美激情一区二区三区四区| 亚洲视频免费观看| 美女精品国产| 亚洲香蕉网站| 一区免费在线| 国产精品久久久久久久浪潮网站| 欧美中文字幕精品| 亚洲人屁股眼子交8| 久久成人人人人精品欧| 亚洲精品一级| 国产一区二区三区四区在线观看 | 欧美国产在线观看| 亚洲一区二区三区午夜| 亚洲精品视频免费在线观看| 日韩小视频在线观看专区| 久久gogo国模裸体人体| 久久成人一区| 久久九九精品99国产精品| 国产精品yjizz| 久久精品国产欧美亚洲人人爽| 亚洲人成网站色ww在线| 久久女同互慰一区二区三区| 一二美女精品欧洲| 精品二区视频| 国产模特精品视频久久久久| 欧美国产综合视频| 欧美有码在线视频| 亚洲天堂偷拍| 亚洲人www| 美日韩精品免费观看视频| 欧美综合第一页| 亚洲在线免费| 亚洲私人影院在线观看| 亚洲精品国产精品国自产观看|