青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

學著站在巨人的肩膀上

金融數學,InformationSearch,Compiler,OS,

  C++博客 :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理 ::
  12 隨筆 :: 0 文章 :: 8 評論 :: 0 Trackbacks

不好意思讓大家久等了,前一陣一直在忙考試,終于結束了。呵呵!廢話不多說了下面我們開始吧!

TSE用的是將抓取回來的網頁文檔全部裝入一個大文檔,讓后對這一個大文檔內的數據整體統一的建索引,其中包含了幾個步驟。

view plaincopy to clipboardprint?
1.  The document index (Doc.idx) keeps information about each document.  
 
It is a fixed width ISAM (Index sequential access mode) index, orderd by docID.  
 
The information stored in each entry includes a pointer into the repository,  
 
a document length, a document checksum.  
 
 
 
//Doc.idx  文檔編號 文檔長度    checksum hash碼  
 
0   0   bc9ce846d7987c4534f53d423380ba70  
 
1   76760   4f47a3cad91f7d35f4bb6b2a638420e5  
 
2   141624  d019433008538f65329ae8e39b86026c  
 
3   142350  5705b8f58110f9ad61b1321c52605795  
 
//Doc.idx   end  
 
 
 
  The url index (url.idx) is used to convert URLs into docIDs.  
 
 
 
//url.idx  
 
5c36868a9c5117eadbda747cbdb0725f    0 
 
3272e136dd90263ee306a835c6c70d77    1 
 
6b8601bb3bb9ab80f868d549b5c5a5f3    2 
 
3f9eba99fa788954b5ff7f35a5db6e1f    3 
 
//url.idx   end  
 
 
 
It is a list of URL checksums with their corresponding docIDs and is sorted by  
 
checksum. In order to find the docID of a particular URL, the URL's checksum  
 
is computed and a binary search is performed on the checksums file to find its  
 
docID.  
 
 
 
    ./DocIndex  
 
        got Doc.idx, Url.idx, DocId2Url.idx //Data文件夾中的Doc.idx DocId2Url.idx和Doc.idx中  
 
 
 
//DocId2Url.idx  
 
0   http://*.*.edu.cn/index.aspx  
 
1   http://*.*.edu.cn/showcontent1.jsp?NewsID=118  
 
2   http://*.*.edu.cn/0102.html  
 
3   http://*.*.edu.cn/0103.html  
 
//DocId2Url.idx end  
 
 
 
2.  sort Url.idx|uniq > Url.idx.sort_uniq    //Data文件夾中的Url.idx.sort_uniq  
 
 
 
//Url.idx.sort_uniq  
 
//對hash值進行排序  
 
000bfdfd8b2dedd926b58ba00d40986b    1111 
 
000c7e34b653b5135a2361c6818e48dc    1831 
 
0019d12f438eec910a06a606f570fde8    366 
 
0033f7c005ec776f67f496cd8bc4ae0d    2103 
 
 
 
3. Segment document to terms, (with finding document according to the url)  
 
    ./DocSegment Tianwang.raw.2559638448        //Tianwang.raw.2559638448為爬回來的文件 ,每個頁面包含http頭  
 
        got Tianwang.raw.2559638448.seg       
 
 
 
//Tianwang.raw.2559638448   爬取的原始網頁文件在文檔內部每一個文檔之間應該是通過version,</html>和回車做標志位分割的  
 
version: 1.0 
 
url: http://***.105.138.175/Default2.asp?lang=gb  
 
origin: http://***.105.138.175/  
 
date: Fri, 23 May 2008 20:01:36 GMT  
 
ip: 162.105.138.175 
 
length: 38413 
 
 
 
HTTP/1.1 200 OK  
 
Server: Microsoft-IIS/5.0 
 
Date: Fri, 23 May 2008 11:17:49 GMT  
 
Connection: keep-alive  
 
Connection: Keep-Alive  
 
Content-Length: 38088 
 
Content-Type: text/html; Charset=gb2312  
 
Expires: Fri, 23 May 2008 11:17:49 GMT  
 
Set-Cookie: ASPSESSIONIDSSTRDCAB=IMEOMBIAIPDFCKPAEDJFHOIH; path=/  
 
Cache-control: private 
 
 
 
 
 
 
 
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" 
 
" 
<html>  
 
<head>  
 
<title>Apabi數字資源平臺</title>  
 
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">  
 
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">  
 
<META NAME="DESCRIPTION" CONTENT="數字圖書館 方正數字圖書館 電子圖書 電子書 ebook e書 Apabi 數字資源平臺">  
 
<link rel="stylesheet" type="text/css" href="css\common.css">  
 
 
 
<style type="text/css">  
 
<!--  
 
.style4 {color: #666666}  
 
-->  
 
</style>  
 
 
 
<script LANGUAGE="vbscript">  
 
...  
 
</script>  
 
 
 
<Script Language="javascript">  
 
...  
 
</Script>  
 
</head>  
 
<body leftmargin="0" topmargin="0">  
 
</body>  
 
</html>  
 
//Tianwang.raw.2559638448   end  
 
 
 
//Tianwang.raw.2559638448.seg   將每個頁面分成一行如下(注意中間沒有回車作為分隔)  
 

 
...  
 
...  
 
...  
 

 
...  
 
...  
 
...  
 
//Tianwang.raw.2559638448.seg   end  
 
 
 
//下是 Tiny search 非必須因素  
 
4. Create forward index (docic-->termid)     //建立正向索引  
 
    ./CrtForwardIdx Tianwang.raw.2559638448.seg > moon.fidx  
 
 
 
//Tianwang.raw.2559638448.seg 將每個頁面分成一行如下<BR>//分詞   DocID<BR>1<BR>三星/  s/  手機/  論壇/  ,/  手機/  鈴聲/  下載/  ,/  手機/  圖片/  下載/  ,/  手機/<BR>2<BR>...<BR>...<BR>... 

1.  The document index (Doc.idx) keeps information about each document.

It is a fixed width ISAM (Index sequential access mode) index, orderd by docID.

The information stored in each entry includes a pointer into the repository,

a document length, a document checksum.

 

//Doc.idx  文檔編號 文檔長度 checksum hash碼

0 0 bc9ce846d7987c4534f53d423380ba70

1 76760 4f47a3cad91f7d35f4bb6b2a638420e5

2 141624 d019433008538f65329ae8e39b86026c

3 142350 5705b8f58110f9ad61b1321c52605795

//Doc.idx end

 

  The url index (url.idx) is used to convert URLs into docIDs.

 

//url.idx

5c36868a9c5117eadbda747cbdb0725f 0

3272e136dd90263ee306a835c6c70d77 1

6b8601bb3bb9ab80f868d549b5c5a5f3 2

3f9eba99fa788954b5ff7f35a5db6e1f 3

//url.idx end

 

It is a list of URL checksums with their corresponding docIDs and is sorted by

checksum. In order to find the docID of a particular URL, the URL's checksum

is computed and a binary search is performed on the checksums file to find its

docID.

 

 ./DocIndex

  got Doc.idx, Url.idx, DocId2Url.idx //Data文件夾中的Doc.idx DocId2Url.idx和Doc.idx中

 

//DocId2Url.idx

http://*.*.edu.cn/index.aspx

http://*.*.edu.cn/showcontent1.jsp?NewsID=118

http://*.*.edu.cn/0102.html

http://*.*.edu.cn/0103.html

//DocId2Url.idx end

 

2.  sort Url.idx|uniq > Url.idx.sort_uniq //Data文件夾中的Url.idx.sort_uniq

 

//Url.idx.sort_uniq

//對hash值進行排序

000bfdfd8b2dedd926b58ba00d40986b 1111

000c7e34b653b5135a2361c6818e48dc 1831

0019d12f438eec910a06a606f570fde8 366

0033f7c005ec776f67f496cd8bc4ae0d 2103

 

3. Segment document to terms, (with finding document according to the url)

 ./DocSegment Tianwang.raw.2559638448  //Tianwang.raw.2559638448為爬回來的文件 ,每個頁面包含http頭

  got Tianwang.raw.2559638448.seg  

 

//Tianwang.raw.2559638448 爬取的原始網頁文件在文檔內部每一個文檔之間應該是通過version,</html>和回車做標志位分割的

version: 1.0

url: http://***.105.138.175/Default2.asp?lang=gb

origin: http://***.105.138.175/

date: Fri, 23 May 2008 20:01:36 GMT

ip: 162.105.138.175

length: 38413

 

HTTP/1.1 200 OK

Server: Microsoft-IIS/5.0

Date: Fri, 23 May 2008 11:17:49 GMT

Connection: keep-alive

Connection: Keep-Alive

Content-Length: 38088

Content-Type: text/html; Charset=gb2312

Expires: Fri, 23 May 2008 11:17:49 GMT

Set-Cookie: ASPSESSIONIDSSTRDCAB=IMEOMBIAIPDFCKPAEDJFHOIH; path=/

Cache-control: private

 

 

 

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"

"

<html>

<head>

<title>Apabi數字資源平臺</title>

<meta http-equiv="Content-Type" content="text/html; charset=gb2312">

<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">

<META NAME="DESCRIPTION" CONTENT="數字圖書館 方正數字圖書館 電子圖書 電子書 ebook e書 Apabi 數字資源平臺">

<link rel="stylesheet" type="text/css" href="css\common.css">

 

<style type="text/css">

<!--

.style4 {color: #666666}

-->

</style>

 

<script LANGUAGE="vbscript">

...

</script>

 

<Script Language="javascript">

...

</Script>

</head>

<body leftmargin="0" topmargin="0">

</body>

</html>

//Tianwang.raw.2559638448 end

 

//Tianwang.raw.2559638448.seg 將每個頁面分成一行如下(注意中間沒有回車作為分隔)

1

...

...

...

2

...

...

...

//Tianwang.raw.2559638448.seg end

 

//下是 Tiny search 非必須因素

4. Create forward index (docic-->termid)  //建立正向索引

 ./CrtForwardIdx Tianwang.raw.2559638448.seg > moon.fidx

 

//Tianwang.raw.2559638448.seg 將每個頁面分成一行如下//分詞   DocID1三星/  s/  手機/  論壇/  ,/  手機/  鈴聲/  下載/  ,/  手機/  圖片/  下載/  ,/  手機/2.........view plaincopy to clipboardprint?
//Tianwang.raw.2559638448.seg end  
 
 
//moon.fidx  
 
//每篇文檔號對應文檔內分出來的    分詞  DocID  
 
都會  2391 
 
使   2391 
 
那些  2391 
 
擁有  2391 
 
它   2391 
 
的   2391 
 
人   2391 
 
的   2391 
 
視野  2391 
 
變   2391 
 
窄   2391 
 
在   2180 
 
研究生部    2180 
 
主頁  2180 
 
培養  2180 
 
管理  2180 
 
欄目  2180 
 
下載  2180 
 
)   2180 
 
、   2180 
 
關于  2180 
 
做好  2180 
 
年   2180 
 
國家  2180 
 
公派  2180 
 
研究生 2180 
 
項目  2180 
 
//moon.fidx end  
 
 
 
5.# set | grep "LANG" 
 
LANG=en; export LANG;  
 
sort moon.fidx > moon.fidx.sort  
 
 
 
6. Create inverted index (termid-->docid)    //建立倒排索引  
 
    ./CrtInvertedIdx moon.fidx.sort > sun.iidx  
 
 
 
//sun.iidx  //文件規模大概減少1/2  
 
花工   236 
 
花海   2103 
 
花卉   1018 1061 1061 1061 1730 1730 1730 1730 1730 1852 949 949 
 
花蕾   447 447 
 
花木   1061 
 
花呢   1430 
 
花期   447 447 447 447 447 525 
 
花錢   174 236 
 
花色   1730 1730 
 
花色品種     1660 
 
花生   450 526 
 
花式   1428 1430 1430 1430 
 
花紋   1430 1430 
 
花序   447 447 447 447 447 450 
 
花絮   136 137 
 
花芽   450 450 
 
//sun.iidx  end  
 
 
 
TSESearch   CGI program for query  
 
Snapshot    CGI program for page snapshot  
 
 
<P>  
author:http://hi.baidu.com/jrckkyy  
 
author:http://blog.csdn.net/jrckkyy  
</P> 

 

posted on 2009-12-10 22:55 學者站在巨人的肩膀上 閱讀(1317) 評論(1)  編輯 收藏 引用 所屬分類: 中文文本信息處理

評論

# re: 自頂向下學搜索引擎——北大天網搜索引擎TSE分析及完全注釋[5]倒排索引的建立及文件介紹 2009-12-12 13:18 淘寶皇冠大全
阿呆搜地哦的  回復  更多評論
  

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            99riav久久精品riav| 国产精品久久久久毛片大屁完整版| 欧美午夜剧场| 欧美亚洲免费电影| 欧美激情第8页| 午夜亚洲激情| 亚洲狼人精品一区二区三区| 国产精品自拍一区| 男人的天堂亚洲在线| 亚洲综合视频一区| 亚洲美女网站| 欧美国产先锋| 亚洲精品视频啊美女在线直播| 久久久成人网| 亚洲手机在线| 日韩视频二区| 性久久久久久久久久久久| 一区二区av| 欧美激情一区二区三区在线视频| 亚洲性感美女99在线| 国产亚洲毛片| 欧美亚韩一区| 国内精品伊人久久久久av一坑| 欧美性猛交99久久久久99按摩| 国产精品色网| 国产精品天天看| 国产日韩一区二区三区在线播放 | 亚洲国产导航| 国产精品久久福利| 欧美激情一区二区三区四区| 国产精品免费网站| 亚洲欧洲在线免费| 亚洲欧洲综合另类| 久久爱www.| 久久一本综合频道| 久久伊人精品天天| 一本大道av伊人久久综合| 日韩视频免费观看| 久久久久国产精品一区二区| 玖玖玖免费嫩草在线影院一区| 久久久久久欧美| 欧美午夜不卡| 亚洲精品欧美在线| 一区二区三区毛片| 欧美一级免费视频| 99国产精品国产精品毛片| 久久夜色精品一区| 欧美国产日韩一区二区在线观看 | 亚洲精品在线视频| 久久裸体艺术| 国产一区二区三区精品久久久| 亚洲午夜极品| 亚洲美女视频网| 欧美激情一区二区三级高清视频| 伊人夜夜躁av伊人久久| 亚洲国产成人久久综合| 99re热这里只有精品免费视频| 久久久国产午夜精品| 亚洲男女毛片无遮挡| 国产精品青草综合久久久久99 | 美女在线一区二区| 亚洲黄一区二区三区| 一区二区三区视频观看| 久久不射电影网| 欧美精品一区二| 欧美在线视频一区二区三区| 欧美国产精品劲爆| av成人免费观看| 欧美日韩国产小视频在线观看| 国产欧美在线| 亚洲欧洲日本国产| 亚洲激情第一区| 欧美精品二区| 亚洲制服欧美中文字幕中文字幕| 蜜桃精品久久久久久久免费影院| 欧美中文字幕在线视频| 欧美日韩国产影片| 亚洲一区二区成人在线观看| 亚洲一区久久久| 欧美精品高清视频| 在线性视频日韩欧美| 亚洲视频欧美视频| 欧美精品在线视频| 一区二区三区在线视频播放| 亚洲综合电影一区二区三区| 在线亚洲一区二区| 国产亚洲欧美中文| 欧美国产在线观看| 国产精品日韩欧美一区二区三区 | 野花国产精品入口| 国产欧美日韩在线视频| 欧美aaaaaaaa牛牛影院| 欧美一区观看| 亚洲高清成人| 亚洲女性喷水在线观看一区| 精品福利av| 一区二区三区欧美视频| 激情综合视频| 亚洲亚洲精品在线观看| 欧美日韩一区二区精品| 亚洲人成在线播放网站岛国| 一区二区激情小说| 在线电影国产精品| 一区二区三区免费在线观看| 亚洲国产精品t66y| 亚洲区一区二| 午夜精品剧场| 狂野欧美激情性xxxx| 欧美一区二区三区成人| 亚洲无毛电影| 亚洲激情av| 亚洲国产精品综合| 欧美高清在线播放| 午夜精品久久久久久久久久久久久| 久久先锋影音av| 欧美一区激情视频在线观看| 欧美日韩国产在线| 欧美大片在线观看一区二区| 国产精品久久久久久久午夜片| 亚洲成人在线视频播放 | 久久日韩粉嫩一区二区三区| 亚洲在线免费| 亚洲伦理在线免费看| 久久精品国产一区二区电影| 国内外成人免费激情在线视频| 亚洲美女免费视频| 亚洲人午夜精品免费| 久久亚洲视频| 亚洲国产精品女人久久久| 亚洲欧美成人网| 亚洲欧美日韩国产一区二区| 亚洲天天影视| 一区二区三区福利| 暖暖成人免费视频| 欧美激情一区| 亚洲国产片色| 欧美激情久久久| 亚洲国产精品久久久| 欧美国产精品v| 亚洲国产精品成人一区二区| 亚洲国产欧美不卡在线观看| 久久伊人亚洲| 女主播福利一区| 亚洲另类视频| 亚洲第一毛片| 日韩视频精品在线| 久久青青草原一区二区| 美女主播精品视频一二三四| 一区国产精品| 欧美 日韩 国产一区二区在线视频 | 欧美国产91| 亚洲欧洲精品成人久久奇米网| 免费日韩成人| 亚洲黄一区二区| 亚洲福利小视频| 亚洲理伦在线| 国产精品国产三级国产a| 亚洲制服丝袜在线| 久久久水蜜桃| 亚洲激情网站| 国产精品成人免费精品自在线观看| 亚洲一二三级电影| 久热精品视频在线| 欧美系列精品| 欧美一级视频精品观看| 欧美成人a视频| 这里只有精品丝袜| 黑人一区二区三区四区五区| 美女成人午夜| 久久久人成影片一区二区三区 | 亚洲综合视频在线| 久久在线免费视频| 在线视频你懂得一区二区三区| 亚洲在线播放电影| 欧美成人精品激情在线观看| 一区二区三区四区五区视频| 国产一区自拍视频| 亚洲国产三级在线| 免费黄网站欧美| 日韩午夜三级在线| 美女黄网久久| 亚洲欧美日本日韩| 91久久久亚洲精品| 国产欧美日韩高清| 日韩图片一区| 噜噜噜在线观看免费视频日韩 | **欧美日韩vr在线| 欧美日韩在线三级| 9人人澡人人爽人人精品| 香蕉久久国产| 夜夜精品视频一区二区| 亚洲激情国产| 免费欧美高清视频| 久久精品视频播放| 在线精品福利| 国产精品综合网站| 欧美视频观看一区| 欧美成人精品在线视频| 夜夜嗨av一区二区三区四区| 亚洲精品在线观|