青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

學(xué)著站在巨人的肩膀上

金融數(shù)學(xué),InformationSearch,Compiler,OS,

  C++博客 :: 首頁 :: 新隨筆 :: 聯(lián)系 :: 聚合  :: 管理 ::
  12 隨筆 :: 0 文章 :: 8 評論 :: 0 Trackbacks

不好意思讓大家久等了,前一陣一直在忙考試,終于結(jié)束了。呵呵!廢話不多說了下面我們開始吧!

TSE用的是將抓取回來的網(wǎng)頁文檔全部裝入一個大文檔,讓后對這一個大文檔內(nèi)的數(shù)據(jù)整體統(tǒng)一的建索引,其中包含了幾個步驟。

view plaincopy to clipboardprint?
1.  The document index (Doc.idx) keeps information about each document.  
 
It is a fixed width ISAM (Index sequential access mode) index, orderd by docID.  
 
The information stored in each entry includes a pointer into the repository,  
 
a document length, a document checksum.  
 
 
 
//Doc.idx  文檔編號 文檔長度    checksum hash碼  
 
0   0   bc9ce846d7987c4534f53d423380ba70  
 
1   76760   4f47a3cad91f7d35f4bb6b2a638420e5  
 
2   141624  d019433008538f65329ae8e39b86026c  
 
3   142350  5705b8f58110f9ad61b1321c52605795  
 
//Doc.idx   end  
 
 
 
  The url index (url.idx) is used to convert URLs into docIDs.  
 
 
 
//url.idx  
 
5c36868a9c5117eadbda747cbdb0725f    0 
 
3272e136dd90263ee306a835c6c70d77    1 
 
6b8601bb3bb9ab80f868d549b5c5a5f3    2 
 
3f9eba99fa788954b5ff7f35a5db6e1f    3 
 
//url.idx   end  
 
 
 
It is a list of URL checksums with their corresponding docIDs and is sorted by  
 
checksum. In order to find the docID of a particular URL, the URL's checksum  
 
is computed and a binary search is performed on the checksums file to find its  
 
docID.  
 
 
 
    ./DocIndex  
 
        got Doc.idx, Url.idx, DocId2Url.idx //Data文件夾中的Doc.idx DocId2Url.idx和Doc.idx中  
 
 
 
//DocId2Url.idx  
 
0   http://*.*.edu.cn/index.aspx  
 
1   http://*.*.edu.cn/showcontent1.jsp?NewsID=118  
 
2   http://*.*.edu.cn/0102.html  
 
3   http://*.*.edu.cn/0103.html  
 
//DocId2Url.idx end  
 
 
 
2.  sort Url.idx|uniq > Url.idx.sort_uniq    //Data文件夾中的Url.idx.sort_uniq  
 
 
 
//Url.idx.sort_uniq  
 
//對hash值進行排序  
 
000bfdfd8b2dedd926b58ba00d40986b    1111 
 
000c7e34b653b5135a2361c6818e48dc    1831 
 
0019d12f438eec910a06a606f570fde8    366 
 
0033f7c005ec776f67f496cd8bc4ae0d    2103 
 
 
 
3. Segment document to terms, (with finding document according to the url)  
 
    ./DocSegment Tianwang.raw.2559638448        //Tianwang.raw.2559638448為爬回來的文件 ,每個頁面包含http頭  
 
        got Tianwang.raw.2559638448.seg       
 
 
 
//Tianwang.raw.2559638448   爬取的原始網(wǎng)頁文件在文檔內(nèi)部每一個文檔之間應(yīng)該是通過version,</html>和回車做標(biāo)志位分割的  
 
version: 1.0 
 
url: http://***.105.138.175/Default2.asp?lang=gb  
 
origin: http://***.105.138.175/  
 
date: Fri, 23 May 2008 20:01:36 GMT  
 
ip: 162.105.138.175 
 
length: 38413 
 
 
 
HTTP/1.1 200 OK  
 
Server: Microsoft-IIS/5.0 
 
Date: Fri, 23 May 2008 11:17:49 GMT  
 
Connection: keep-alive  
 
Connection: Keep-Alive  
 
Content-Length: 38088 
 
Content-Type: text/html; Charset=gb2312  
 
Expires: Fri, 23 May 2008 11:17:49 GMT  
 
Set-Cookie: ASPSESSIONIDSSTRDCAB=IMEOMBIAIPDFCKPAEDJFHOIH; path=/  
 
Cache-control: private 
 
 
 
 
 
 
 
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" 
 
" 
<html>  
 
<head>  
 
<title>Apabi數(shù)字資源平臺</title>  
 
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">  
 
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">  
 
<META NAME="DESCRIPTION" CONTENT="數(shù)字圖書館 方正數(shù)字圖書館 電子圖書 電子書 ebook e書 Apabi 數(shù)字資源平臺">  
 
<link rel="stylesheet" type="text/css" href="css\common.css">  
 
 
 
<style type="text/css">  
 
<!--  
 
.style4 {color: #666666}  
 
-->  
 
</style>  
 
 
 
<script LANGUAGE="vbscript">  
 
...  
 
</script>  
 
 
 
<Script Language="javascript">  
 
...  
 
</Script>  
 
</head>  
 
<body leftmargin="0" topmargin="0">  
 
</body>  
 
</html>  
 
//Tianwang.raw.2559638448   end  
 
 
 
//Tianwang.raw.2559638448.seg   將每個頁面分成一行如下(注意中間沒有回車作為分隔)  
 

 
...  
 
...  
 
...  
 

 
...  
 
...  
 
...  
 
//Tianwang.raw.2559638448.seg   end  
 
 
 
//下是 Tiny search 非必須因素  
 
4. Create forward index (docic-->termid)     //建立正向索引  
 
    ./CrtForwardIdx Tianwang.raw.2559638448.seg > moon.fidx  
 
 
 
//Tianwang.raw.2559638448.seg 將每個頁面分成一行如下<BR>//分詞   DocID<BR>1<BR>三星/  s/  手機/  論壇/  ,/  手機/  鈴聲/  下載/  ,/  手機/  圖片/  下載/  ,/  手機/<BR>2<BR>...<BR>...<BR>... 

1.  The document index (Doc.idx) keeps information about each document.

It is a fixed width ISAM (Index sequential access mode) index, orderd by docID.

The information stored in each entry includes a pointer into the repository,

a document length, a document checksum.

 

//Doc.idx  文檔編號 文檔長度 checksum hash碼

0 0 bc9ce846d7987c4534f53d423380ba70

1 76760 4f47a3cad91f7d35f4bb6b2a638420e5

2 141624 d019433008538f65329ae8e39b86026c

3 142350 5705b8f58110f9ad61b1321c52605795

//Doc.idx end

 

  The url index (url.idx) is used to convert URLs into docIDs.

 

//url.idx

5c36868a9c5117eadbda747cbdb0725f 0

3272e136dd90263ee306a835c6c70d77 1

6b8601bb3bb9ab80f868d549b5c5a5f3 2

3f9eba99fa788954b5ff7f35a5db6e1f 3

//url.idx end

 

It is a list of URL checksums with their corresponding docIDs and is sorted by

checksum. In order to find the docID of a particular URL, the URL's checksum

is computed and a binary search is performed on the checksums file to find its

docID.

 

 ./DocIndex

  got Doc.idx, Url.idx, DocId2Url.idx //Data文件夾中的Doc.idx DocId2Url.idx和Doc.idx中

 

//DocId2Url.idx

http://*.*.edu.cn/index.aspx

http://*.*.edu.cn/showcontent1.jsp?NewsID=118

http://*.*.edu.cn/0102.html

http://*.*.edu.cn/0103.html

//DocId2Url.idx end

 

2.  sort Url.idx|uniq > Url.idx.sort_uniq //Data文件夾中的Url.idx.sort_uniq

 

//Url.idx.sort_uniq

//對hash值進行排序

000bfdfd8b2dedd926b58ba00d40986b 1111

000c7e34b653b5135a2361c6818e48dc 1831

0019d12f438eec910a06a606f570fde8 366

0033f7c005ec776f67f496cd8bc4ae0d 2103

 

3. Segment document to terms, (with finding document according to the url)

 ./DocSegment Tianwang.raw.2559638448  //Tianwang.raw.2559638448為爬回來的文件 ,每個頁面包含http頭

  got Tianwang.raw.2559638448.seg  

 

//Tianwang.raw.2559638448 爬取的原始網(wǎng)頁文件在文檔內(nèi)部每一個文檔之間應(yīng)該是通過version,</html>和回車做標(biāo)志位分割的

version: 1.0

url: http://***.105.138.175/Default2.asp?lang=gb

origin: http://***.105.138.175/

date: Fri, 23 May 2008 20:01:36 GMT

ip: 162.105.138.175

length: 38413

 

HTTP/1.1 200 OK

Server: Microsoft-IIS/5.0

Date: Fri, 23 May 2008 11:17:49 GMT

Connection: keep-alive

Connection: Keep-Alive

Content-Length: 38088

Content-Type: text/html; Charset=gb2312

Expires: Fri, 23 May 2008 11:17:49 GMT

Set-Cookie: ASPSESSIONIDSSTRDCAB=IMEOMBIAIPDFCKPAEDJFHOIH; path=/

Cache-control: private

 

 

 

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"

"

<html>

<head>

<title>Apabi數(shù)字資源平臺</title>

<meta http-equiv="Content-Type" content="text/html; charset=gb2312">

<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">

<META NAME="DESCRIPTION" CONTENT="數(shù)字圖書館 方正數(shù)字圖書館 電子圖書 電子書 ebook e書 Apabi 數(shù)字資源平臺">

<link rel="stylesheet" type="text/css" href="css\common.css">

 

<style type="text/css">

<!--

.style4 {color: #666666}

-->

</style>

 

<script LANGUAGE="vbscript">

...

</script>

 

<Script Language="javascript">

...

</Script>

</head>

<body leftmargin="0" topmargin="0">

</body>

</html>

//Tianwang.raw.2559638448 end

 

//Tianwang.raw.2559638448.seg 將每個頁面分成一行如下(注意中間沒有回車作為分隔)

1

...

...

...

2

...

...

...

//Tianwang.raw.2559638448.seg end

 

//下是 Tiny search 非必須因素

4. Create forward index (docic-->termid)  //建立正向索引

 ./CrtForwardIdx Tianwang.raw.2559638448.seg > moon.fidx

 

//Tianwang.raw.2559638448.seg 將每個頁面分成一行如下//分詞   DocID1三星/  s/  手機/  論壇/  ,/  手機/  鈴聲/  下載/  ,/  手機/  圖片/  下載/  ,/  手機/2.........view plaincopy to clipboardprint?
//Tianwang.raw.2559638448.seg end  
 
 
//moon.fidx  
 
//每篇文檔號對應(yīng)文檔內(nèi)分出來的    分詞  DocID  
 
都會  2391 
 
使   2391 
 
那些  2391 
 
擁有  2391 
 
它   2391 
 
的   2391 
 
人   2391 
 
的   2391 
 
視野  2391 
 
變   2391 
 
窄   2391 
 
在   2180 
 
研究生部    2180 
 
主頁  2180 
 
培養(yǎng)  2180 
 
管理  2180 
 
欄目  2180 
 
下載  2180 
 
)   2180 
 
、   2180 
 
關(guān)于  2180 
 
做好  2180 
 
年   2180 
 
國家  2180 
 
公派  2180 
 
研究生 2180 
 
項目  2180 
 
//moon.fidx end  
 
 
 
5.# set | grep "LANG" 
 
LANG=en; export LANG;  
 
sort moon.fidx > moon.fidx.sort  
 
 
 
6. Create inverted index (termid-->docid)    //建立倒排索引  
 
    ./CrtInvertedIdx moon.fidx.sort > sun.iidx  
 
 
 
//sun.iidx  //文件規(guī)模大概減少1/2  
 
花工   236 
 
花海   2103 
 
花卉   1018 1061 1061 1061 1730 1730 1730 1730 1730 1852 949 949 
 
花蕾   447 447 
 
花木   1061 
 
花呢   1430 
 
花期   447 447 447 447 447 525 
 
花錢   174 236 
 
花色   1730 1730 
 
花色品種     1660 
 
花生   450 526 
 
花式   1428 1430 1430 1430 
 
花紋   1430 1430 
 
花序   447 447 447 447 447 450 
 
花絮   136 137 
 
花芽   450 450 
 
//sun.iidx  end  
 
 
 
TSESearch   CGI program for query  
 
Snapshot    CGI program for page snapshot  
 
 
<P>  
author:http://hi.baidu.com/jrckkyy  
 
author:http://blog.csdn.net/jrckkyy  
</P> 

 

posted on 2009-12-10 22:55 學(xué)者站在巨人的肩膀上 閱讀(1316) 評論(1)  編輯 收藏 引用 所屬分類: 中文文本信息處理

評論

# re: 自頂向下學(xué)搜索引擎——北大天網(wǎng)搜索引擎TSE分析及完全注釋[5]倒排索引的建立及文件介紹 2009-12-12 13:18 淘寶皇冠大全
阿呆搜地哦的  回復(fù)  更多評論
  

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            亚洲一区在线视频| 国产伪娘ts一区| 久久久五月天| 亚洲欧洲日产国产综合网| 蜜桃av久久久亚洲精品| 99综合精品| 久久久久久久国产| 一本色道久久88精品综合| 国产日本精品| 亚洲自拍啪啪| 午夜伦理片一区| 一本色道久久综合亚洲精品不卡| 国产日产欧美一区| 国产欧美另类| 激情婷婷久久| 亚洲国产欧洲综合997久久| 1024精品一区二区三区| 国产亚洲人成a一在线v站| 国产日韩欧美精品一区| 国产精品日韩精品欧美在线| 国产精品国产| 国产亚洲人成a一在线v站 | 亚洲无人区一区| 久久www免费人成看片高清| 亚洲国内自拍| 亚洲天堂久久| 日韩系列在线| 夜夜躁日日躁狠狠久久88av| 国产农村妇女毛片精品久久麻豆| 亚洲人成艺术| 在线一区二区三区四区五区| 亚洲精品一二| 亚洲精品网址在线观看| 一区二区三区久久网| 亚洲一区二区在线免费观看视频 | 亚洲专区一区二区三区| 欧美电影美腿模特1979在线看| 亚洲美女中文字幕| 久久久久高清| 欧美日韩亚洲网| 日韩亚洲国产欧美| 久久久久久久久久久久久女国产乱 | 亚洲欧美另类国产| 亚洲成色999久久网站| 麻豆91精品| 亚洲高清不卡一区| 亚洲专区在线| 免费永久网站黄欧美| 国产精品ⅴa在线观看h| 国产又爽又黄的激情精品视频| 永久域名在线精品| 亚洲国产精品一区| 欧美日本精品一区二区三区| 亚洲国产一区二区三区在线播| 欧美午夜精品久久久久久人妖| 国产精品捆绑调教| 最新国产成人在线观看| 亚洲精品免费在线观看| 欧美国产视频日韩| 欧美一区视频| 久久婷婷av| 久久久精彩视频| 亚洲一区二区三区四区五区午夜| 久久国产一区| 亚洲一区综合| 亚洲综合第一| 亚洲人成网站影音先锋播放| 亚洲国产经典视频| 欧美片在线观看| 在线视频你懂得一区| 蜜桃久久av一区| 欧美成年人网站| 国产香蕉97碰碰久久人人| 亚洲欧美日韩在线综合| 亚洲欧美一区二区三区极速播放| 国产精品国产三级欧美二区| 久久精品91久久香蕉加勒比| 麻豆91精品| 久久成人免费网| 欧美激情aⅴ一区二区三区| 亚洲国产成人av好男人在线观看| 欧美国产日产韩国视频| 在线观看欧美精品| 一区二区三区免费看| 国产精品一区二区三区四区 | 亚洲免费在线观看视频| 久久九九99| 国产精品久久久久一区二区三区共| 久久婷婷国产综合精品青草| 一区二区三区在线免费视频| 久久亚洲国产精品一区二区| 美女视频黄a大片欧美| 韩国三级电影久久久久久| 卡通动漫国产精品| 亚洲国产美女久久久久| 日韩一二在线观看| 国产日产精品一区二区三区四区的观看方式| 亚洲午夜av电影| 理论片一区二区在线| 亚洲国产欧美一区二区三区同亚洲| 欧美日韩国产一区二区| 欧美一区视频在线| av成人手机在线| 亚洲人体一区| 久久福利资源站| 欧美国产亚洲另类动漫| 欧美一区日韩一区| 国产精品区免费视频| 欧美h视频在线| 久久午夜色播影院免费高清| 久久―日本道色综合久久| 影音国产精品| 久久精品噜噜噜成人av农村| 亚洲精品国产精品国自产在线 | 性欧美超级视频| 亚洲第一天堂无码专区| 亚洲一区三区视频在线观看| 国产一区亚洲一区| 欧美色中文字幕| 欧美福利在线| 久久午夜电影| 欧美激情网友自拍| 欧美大片国产精品| 你懂的一区二区| 久久精品噜噜噜成人av农村| 亚洲欧美激情诱惑| 国产精品欧美风情| 一区二区三区国产精华| 亚洲国产精品久久91精品| 久久九九久久九九| 国产一区二区三区的电影| 国产精品成人一区二区网站软件| 欧美亚洲第一区| 国产精品视频导航| 国产拍揄自揄精品视频麻豆| 欧美日韩国产999| 久久精品99久久香蕉国产色戒 | 久久久999精品| 另类天堂av| 欧美日本一区| 国产日韩欧美在线| 亚洲国产精品一区在线观看不卡| 欧美色欧美亚洲高清在线视频| 国产精品国产自产拍高清av| 欧美区国产区| 国产午夜一区二区三区| 狠狠色综合色区| 一本大道久久精品懂色aⅴ| 小处雏高清一区二区三区| 女仆av观看一区| 亚洲影音先锋| 欧美精品在欧美一区二区少妇| 国产精品亚洲第一区在线暖暖韩国| 原创国产精品91| 久久一区亚洲| 欧美一区二区免费观在线| 国产精品国产| 久久免费精品日本久久中文字幕| 免费在线视频一区| 在线亚洲国产精品网站| 亚洲欧美日韩国产成人| 欧美高清不卡| 亚洲欧洲精品一区| 久久精品国产一区二区电影| 久久久久9999亚洲精品| 亚洲黄色影院| 一本色道久久综合亚洲精品不 | 午夜精品美女久久久久av福利| 羞羞漫画18久久大片| 亚洲第一黄网| 麻豆精品精华液| 亚洲激情成人在线| 亚洲第一精品夜夜躁人人爽| 女同性一区二区三区人了人一| 黄色成人在线观看| 亚洲区国产区| 国产精品自在在线| 亚洲国产成人精品久久久国产成人一区 | 亚洲国产mv| 国产视频一区二区三区在线观看| 久久综合色婷婷| 欧美日韩1区| 亚洲男人影院| 久久久久久久一区二区| 亚洲日本理论电影| 免费亚洲婷婷| 欧美日韩免费高清一区色橹橹| 99这里只有精品| 日韩视频国产视频| 国产婷婷色综合av蜜臀av| 欧美大片91| 欧美视频在线观看| 久久久久一区| 国产精品一页| 亚洲国产影院| 伊人影院久久| 久久精品国产清高在天天线| 日韩午夜在线观看视频| 亚洲级视频在线观看免费1级| 国产欧美日韩精品专区|