青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

學(xué)著站在巨人的肩膀上

金融數(shù)學(xué),InformationSearch,Compiler,OS,

  C++博客 :: 首頁 :: 新隨筆 :: 聯(lián)系 :: 聚合  :: 管理 ::
  12 隨筆 :: 0 文章 :: 8 評論 :: 0 Trackbacks

不好意思讓大家久等了,前一陣一直在忙考試,終于結(jié)束了。呵呵!廢話不多說了下面我們開始吧!

TSE用的是將抓取回來的網(wǎng)頁文檔全部裝入一個大文檔,讓后對這一個大文檔內(nèi)的數(shù)據(jù)整體統(tǒng)一的建索引,其中包含了幾個步驟。

view plaincopy to clipboardprint?
1.  The document index (Doc.idx) keeps information about each document.  
 
It is a fixed width ISAM (Index sequential access mode) index, orderd by docID.  
 
The information stored in each entry includes a pointer into the repository,  
 
a document length, a document checksum.  
 
 
 
//Doc.idx  文檔編號 文檔長度    checksum hash碼  
 
0   0   bc9ce846d7987c4534f53d423380ba70  
 
1   76760   4f47a3cad91f7d35f4bb6b2a638420e5  
 
2   141624  d019433008538f65329ae8e39b86026c  
 
3   142350  5705b8f58110f9ad61b1321c52605795  
 
//Doc.idx   end  
 
 
 
  The url index (url.idx) is used to convert URLs into docIDs.  
 
 
 
//url.idx  
 
5c36868a9c5117eadbda747cbdb0725f    0 
 
3272e136dd90263ee306a835c6c70d77    1 
 
6b8601bb3bb9ab80f868d549b5c5a5f3    2 
 
3f9eba99fa788954b5ff7f35a5db6e1f    3 
 
//url.idx   end  
 
 
 
It is a list of URL checksums with their corresponding docIDs and is sorted by  
 
checksum. In order to find the docID of a particular URL, the URL's checksum  
 
is computed and a binary search is performed on the checksums file to find its  
 
docID.  
 
 
 
    ./DocIndex  
 
        got Doc.idx, Url.idx, DocId2Url.idx //Data文件夾中的Doc.idx DocId2Url.idx和Doc.idx中  
 
 
 
//DocId2Url.idx  
 
0   http://*.*.edu.cn/index.aspx  
 
1   http://*.*.edu.cn/showcontent1.jsp?NewsID=118  
 
2   http://*.*.edu.cn/0102.html  
 
3   http://*.*.edu.cn/0103.html  
 
//DocId2Url.idx end  
 
 
 
2.  sort Url.idx|uniq > Url.idx.sort_uniq    //Data文件夾中的Url.idx.sort_uniq  
 
 
 
//Url.idx.sort_uniq  
 
//對hash值進行排序  
 
000bfdfd8b2dedd926b58ba00d40986b    1111 
 
000c7e34b653b5135a2361c6818e48dc    1831 
 
0019d12f438eec910a06a606f570fde8    366 
 
0033f7c005ec776f67f496cd8bc4ae0d    2103 
 
 
 
3. Segment document to terms, (with finding document according to the url)  
 
    ./DocSegment Tianwang.raw.2559638448        //Tianwang.raw.2559638448為爬回來的文件 ,每個頁面包含http頭  
 
        got Tianwang.raw.2559638448.seg       
 
 
 
//Tianwang.raw.2559638448   爬取的原始網(wǎng)頁文件在文檔內(nèi)部每一個文檔之間應(yīng)該是通過version,</html>和回車做標(biāo)志位分割的  
 
version: 1.0 
 
url: http://***.105.138.175/Default2.asp?lang=gb  
 
origin: http://***.105.138.175/  
 
date: Fri, 23 May 2008 20:01:36 GMT  
 
ip: 162.105.138.175 
 
length: 38413 
 
 
 
HTTP/1.1 200 OK  
 
Server: Microsoft-IIS/5.0 
 
Date: Fri, 23 May 2008 11:17:49 GMT  
 
Connection: keep-alive  
 
Connection: Keep-Alive  
 
Content-Length: 38088 
 
Content-Type: text/html; Charset=gb2312  
 
Expires: Fri, 23 May 2008 11:17:49 GMT  
 
Set-Cookie: ASPSESSIONIDSSTRDCAB=IMEOMBIAIPDFCKPAEDJFHOIH; path=/  
 
Cache-control: private 
 
 
 
 
 
 
 
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" 
 
" 
<html>  
 
<head>  
 
<title>Apabi數(shù)字資源平臺</title>  
 
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">  
 
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">  
 
<META NAME="DESCRIPTION" CONTENT="數(shù)字圖書館 方正數(shù)字圖書館 電子圖書 電子書 ebook e書 Apabi 數(shù)字資源平臺">  
 
<link rel="stylesheet" type="text/css" href="css\common.css">  
 
 
 
<style type="text/css">  
 
<!--  
 
.style4 {color: #666666}  
 
-->  
 
</style>  
 
 
 
<script LANGUAGE="vbscript">  
 
...  
 
</script>  
 
 
 
<Script Language="javascript">  
 
...  
 
</Script>  
 
</head>  
 
<body leftmargin="0" topmargin="0">  
 
</body>  
 
</html>  
 
//Tianwang.raw.2559638448   end  
 
 
 
//Tianwang.raw.2559638448.seg   將每個頁面分成一行如下(注意中間沒有回車作為分隔)  
 

 
...  
 
...  
 
...  
 

 
...  
 
...  
 
...  
 
//Tianwang.raw.2559638448.seg   end  
 
 
 
//下是 Tiny search 非必須因素  
 
4. Create forward index (docic-->termid)     //建立正向索引  
 
    ./CrtForwardIdx Tianwang.raw.2559638448.seg > moon.fidx  
 
 
 
//Tianwang.raw.2559638448.seg 將每個頁面分成一行如下<BR>//分詞   DocID<BR>1<BR>三星/  s/  手機/  論壇/  ,/  手機/  鈴聲/  下載/  ,/  手機/  圖片/  下載/  ,/  手機/<BR>2<BR>...<BR>...<BR>... 

1.  The document index (Doc.idx) keeps information about each document.

It is a fixed width ISAM (Index sequential access mode) index, orderd by docID.

The information stored in each entry includes a pointer into the repository,

a document length, a document checksum.

 

//Doc.idx  文檔編號 文檔長度 checksum hash碼

0 0 bc9ce846d7987c4534f53d423380ba70

1 76760 4f47a3cad91f7d35f4bb6b2a638420e5

2 141624 d019433008538f65329ae8e39b86026c

3 142350 5705b8f58110f9ad61b1321c52605795

//Doc.idx end

 

  The url index (url.idx) is used to convert URLs into docIDs.

 

//url.idx

5c36868a9c5117eadbda747cbdb0725f 0

3272e136dd90263ee306a835c6c70d77 1

6b8601bb3bb9ab80f868d549b5c5a5f3 2

3f9eba99fa788954b5ff7f35a5db6e1f 3

//url.idx end

 

It is a list of URL checksums with their corresponding docIDs and is sorted by

checksum. In order to find the docID of a particular URL, the URL's checksum

is computed and a binary search is performed on the checksums file to find its

docID.

 

 ./DocIndex

  got Doc.idx, Url.idx, DocId2Url.idx //Data文件夾中的Doc.idx DocId2Url.idx和Doc.idx中

 

//DocId2Url.idx

http://*.*.edu.cn/index.aspx

http://*.*.edu.cn/showcontent1.jsp?NewsID=118

http://*.*.edu.cn/0102.html

http://*.*.edu.cn/0103.html

//DocId2Url.idx end

 

2.  sort Url.idx|uniq > Url.idx.sort_uniq //Data文件夾中的Url.idx.sort_uniq

 

//Url.idx.sort_uniq

//對hash值進行排序

000bfdfd8b2dedd926b58ba00d40986b 1111

000c7e34b653b5135a2361c6818e48dc 1831

0019d12f438eec910a06a606f570fde8 366

0033f7c005ec776f67f496cd8bc4ae0d 2103

 

3. Segment document to terms, (with finding document according to the url)

 ./DocSegment Tianwang.raw.2559638448  //Tianwang.raw.2559638448為爬回來的文件 ,每個頁面包含http頭

  got Tianwang.raw.2559638448.seg  

 

//Tianwang.raw.2559638448 爬取的原始網(wǎng)頁文件在文檔內(nèi)部每一個文檔之間應(yīng)該是通過version,</html>和回車做標(biāo)志位分割的

version: 1.0

url: http://***.105.138.175/Default2.asp?lang=gb

origin: http://***.105.138.175/

date: Fri, 23 May 2008 20:01:36 GMT

ip: 162.105.138.175

length: 38413

 

HTTP/1.1 200 OK

Server: Microsoft-IIS/5.0

Date: Fri, 23 May 2008 11:17:49 GMT

Connection: keep-alive

Connection: Keep-Alive

Content-Length: 38088

Content-Type: text/html; Charset=gb2312

Expires: Fri, 23 May 2008 11:17:49 GMT

Set-Cookie: ASPSESSIONIDSSTRDCAB=IMEOMBIAIPDFCKPAEDJFHOIH; path=/

Cache-control: private

 

 

 

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"

"

<html>

<head>

<title>Apabi數(shù)字資源平臺</title>

<meta http-equiv="Content-Type" content="text/html; charset=gb2312">

<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">

<META NAME="DESCRIPTION" CONTENT="數(shù)字圖書館 方正數(shù)字圖書館 電子圖書 電子書 ebook e書 Apabi 數(shù)字資源平臺">

<link rel="stylesheet" type="text/css" href="css\common.css">

 

<style type="text/css">

<!--

.style4 {color: #666666}

-->

</style>

 

<script LANGUAGE="vbscript">

...

</script>

 

<Script Language="javascript">

...

</Script>

</head>

<body leftmargin="0" topmargin="0">

</body>

</html>

//Tianwang.raw.2559638448 end

 

//Tianwang.raw.2559638448.seg 將每個頁面分成一行如下(注意中間沒有回車作為分隔)

1

...

...

...

2

...

...

...

//Tianwang.raw.2559638448.seg end

 

//下是 Tiny search 非必須因素

4. Create forward index (docic-->termid)  //建立正向索引

 ./CrtForwardIdx Tianwang.raw.2559638448.seg > moon.fidx

 

//Tianwang.raw.2559638448.seg 將每個頁面分成一行如下//分詞   DocID1三星/  s/  手機/  論壇/  ,/  手機/  鈴聲/  下載/  ,/  手機/  圖片/  下載/  ,/  手機/2.........view plaincopy to clipboardprint?
//Tianwang.raw.2559638448.seg end  
 
 
//moon.fidx  
 
//每篇文檔號對應(yīng)文檔內(nèi)分出來的    分詞  DocID  
 
都會  2391 
 
使   2391 
 
那些  2391 
 
擁有  2391 
 
它   2391 
 
的   2391 
 
人   2391 
 
的   2391 
 
視野  2391 
 
變   2391 
 
窄   2391 
 
在   2180 
 
研究生部    2180 
 
主頁  2180 
 
培養(yǎng)  2180 
 
管理  2180 
 
欄目  2180 
 
下載  2180 
 
)   2180 
 
、   2180 
 
關(guān)于  2180 
 
做好  2180 
 
年   2180 
 
國家  2180 
 
公派  2180 
 
研究生 2180 
 
項目  2180 
 
//moon.fidx end  
 
 
 
5.# set | grep "LANG" 
 
LANG=en; export LANG;  
 
sort moon.fidx > moon.fidx.sort  
 
 
 
6. Create inverted index (termid-->docid)    //建立倒排索引  
 
    ./CrtInvertedIdx moon.fidx.sort > sun.iidx  
 
 
 
//sun.iidx  //文件規(guī)模大概減少1/2  
 
花工   236 
 
花海   2103 
 
花卉   1018 1061 1061 1061 1730 1730 1730 1730 1730 1852 949 949 
 
花蕾   447 447 
 
花木   1061 
 
花呢   1430 
 
花期   447 447 447 447 447 525 
 
花錢   174 236 
 
花色   1730 1730 
 
花色品種     1660 
 
花生   450 526 
 
花式   1428 1430 1430 1430 
 
花紋   1430 1430 
 
花序   447 447 447 447 447 450 
 
花絮   136 137 
 
花芽   450 450 
 
//sun.iidx  end  
 
 
 
TSESearch   CGI program for query  
 
Snapshot    CGI program for page snapshot  
 
 
<P>  
author:http://hi.baidu.com/jrckkyy  
 
author:http://blog.csdn.net/jrckkyy  
</P> 

 

posted on 2009-12-10 22:55 學(xué)者站在巨人的肩膀上 閱讀(1320) 評論(1)  編輯 收藏 引用 所屬分類: 中文文本信息處理

評論

# re: 自頂向下學(xué)搜索引擎——北大天網(wǎng)搜索引擎TSE分析及完全注釋[5]倒排索引的建立及文件介紹 2009-12-12 13:18 淘寶皇冠大全
阿呆搜地哦的  回復(fù)  更多評論
  

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            欧美日韩福利| 韩日欧美一区| 午夜精品久久久久久久 | 欧美亚洲一区二区在线| 一区二区三区日韩精品| 亚洲影音先锋| 久久er精品视频| 模特精品在线| 亚洲国产电影| 欧美黄色免费网站| 一区二区欧美亚洲| 午夜在线电影亚洲一区| 欧美大片在线观看| 国产欧美精品一区二区三区介绍 | 伊人色综合久久天天| 亚洲黄网站黄| 亚洲欧美日韩中文播放| 免费在线国产精品| 夜夜精品视频| 久久久久国产一区二区三区| 欧美激情综合| 国模 一区 二区 三区| 99精品视频免费观看视频| 性欧美8khd高清极品| 欧美黄色影院| 午夜视频在线观看一区| 欧美理论片在线观看| 国产一区二区三区久久久| 在线亚洲伦理| 欧美电影在线观看| 性久久久久久久久久久久| 欧美日本国产在线| 亚洲国产高清在线观看视频| 先锋影音国产精品| 亚洲精品免费在线观看| 久久综合一区| 国产一区二区在线免费观看| 一区二区三区 在线观看视频| 久久乐国产精品| 亚洲影视在线播放| 欧美日韩一视频区二区| 亚洲精品免费观看| 欧美成年网站| 久久免费视频网| 国产原创一区二区| 欧美亚洲网站| 亚洲一区国产视频| 国产精品成人国产乱一区| 日韩天堂在线视频| 亚洲久久一区| 欧美成人精精品一区二区频| 久久久久99| 亚洲深夜av| 国产精品久久久久秋霞鲁丝| 国产精品一区二区三区免费观看| 午夜视频在线观看一区二区| 欧美激情第五页| 在线观看中文字幕亚洲| 久久精品国产免费| 在线视频中文亚洲| 国产精品乱码久久久久久| 亚洲性感美女99在线| 一本一本a久久| 国产精品国产三级国产普通话99 | 免费日韩av电影| 久久精品论坛| 欧美高清视频| 亚洲欧美乱综合| 9国产精品视频| 国产精品久久久久久久久借妻| 99国产成+人+综合+亚洲欧美| 欧美 日韩 国产精品免费观看| 久久久91精品国产一区二区精品| 狠狠色狠狠色综合日日五| 久久久久青草大香线综合精品| 欧美在线欧美在线| 亚洲国产精品日韩| 亚洲人成在线播放| 国产精品久久久久久久7电影| 性欧美暴力猛交69hd| 久久久水蜜桃| 中国成人亚色综合网站| 一本色道久久综合狠狠躁篇怎么玩 | 亚洲福利视频二区| 亚洲国产精品毛片| 国产精品swag| 久久久精品国产免费观看同学| 久久精品视频亚洲| av成人免费| 中文高清一区| 在线观看亚洲| 在线天堂一区av电影| 在线播放日韩欧美| 一区二区三区**美女毛片| 一区二区三区在线观看欧美| 91久久午夜| 国产一区二区三区自拍| 亚洲精品少妇网址| 欧美与欧洲交xxxx免费观看| 在线亚洲电影| 国产精品日韩精品| 夜夜爽99久久国产综合精品女不卡| 亚洲免费婷婷| 久久精品视频在线播放| 日韩视频免费在线| 久久激情网站| 一级日韩一区在线观看| 久久视频在线视频| 开元免费观看欧美电视剧网站| 欧美日韩国产另类不卡| 免费不卡在线视频| 亚洲色诱最新| 欧美视频中文字幕在线| 亚洲麻豆av| 亚洲小视频在线观看| 国产精品综合不卡av| 韩国欧美一区| 夜夜精品视频| 亚洲尤物在线视频观看| 免费成人性网站| 日韩午夜av| 蜜臀久久99精品久久久久久9| 欧美精品99| 久久久人成影片一区二区三区观看 | 亚洲高清资源| 久久久中精品2020中文| 美女在线一区二区| 久久久精品2019中文字幕神马| 葵司免费一区二区三区四区五区| 亚洲日本成人| 欧美激情五月| 久久一日本道色综合久久| 欧美精品成人91久久久久久久| 欧美日韩精品三区| 老司机免费视频久久| 欧美午夜剧场| 国产日产欧美a一级在线| 国产精品永久免费| 国产精品mm| 欧美性生交xxxxx久久久| 国产一区二区三区四区老人| 国产精品三级视频| 欧美日韩三区四区| 国产偷国产偷精品高清尤物| 国产日韩欧美视频| 国产精品私房写真福利视频| 亚洲福利视频一区二区| 国内外成人免费激情在线视频| 国产精品乱人伦中文| 欧美另类专区| 国产一区二区三区四区| 午夜精品在线观看| 男人插女人欧美| 亚洲人成人99网站| 亚洲性线免费观看视频成熟| 欧美成人高清| 欧美巨乳在线| 国产综合视频| 99re成人精品视频| 麻豆精品91| 久久国产视频网站| 欧美成人国产| 国产午夜精品久久| 亚洲视频一区在线| 久久亚洲一区二区| 9人人澡人人爽人人精品| 久久精品一区二区三区不卡| 国产精品一区二区在线观看| 韩国福利一区| 榴莲视频成人在线观看| 中日韩美女免费视频网址在线观看| 久久精品一区蜜桃臀影院| 国产精品美女久久久久久久| 欧美日韩国产精品 | 国产精品海角社区在线观看| 雨宫琴音一区二区在线| 久久精品亚洲精品| 欧美在线精品一区| 欧美福利视频一区| 99精品热视频只有精品10| 久久精品亚洲| 美女国产精品| 亚洲欧美日韩区| 性做久久久久久免费观看欧美 | 欧美在线观看一区| 国产精品极品美女粉嫩高清在线| 在线一区观看| 欧美在线关看| 91久久久久久久久久久久久| 亚洲精品一区二区三区婷婷月 | 一区二区三区欧美亚洲| 欧美电影在线观看完整版| 久久精品视频亚洲| 男女精品视频| 制服丝袜激情欧洲亚洲| 亚洲精品中文字幕在线| 国模 一区 二区 三区| 亚洲欧美国产va在线影院| 一区二区三区成人精品| 久久国产夜色精品鲁鲁99|