青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

學著站在巨人的肩膀上

金融數學,InformationSearch,Compiler,OS,

  C++博客 :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理 ::
  12 隨筆 :: 0 文章 :: 8 評論 :: 0 Trackbacks

不好意思讓大家久等了,前一陣一直在忙考試,終于結束了。呵呵!廢話不多說了下面我們開始吧!

TSE用的是將抓取回來的網頁文檔全部裝入一個大文檔,讓后對這一個大文檔內的數據整體統一的建索引,其中包含了幾個步驟。

view plaincopy to clipboardprint?
1.  The document index (Doc.idx) keeps information about each document.  
 
It is a fixed width ISAM (Index sequential access mode) index, orderd by docID.  
 
The information stored in each entry includes a pointer into the repository,  
 
a document length, a document checksum.  
 
 
 
//Doc.idx  文檔編號 文檔長度    checksum hash碼  
 
0   0   bc9ce846d7987c4534f53d423380ba70  
 
1   76760   4f47a3cad91f7d35f4bb6b2a638420e5  
 
2   141624  d019433008538f65329ae8e39b86026c  
 
3   142350  5705b8f58110f9ad61b1321c52605795  
 
//Doc.idx   end  
 
 
 
  The url index (url.idx) is used to convert URLs into docIDs.  
 
 
 
//url.idx  
 
5c36868a9c5117eadbda747cbdb0725f    0 
 
3272e136dd90263ee306a835c6c70d77    1 
 
6b8601bb3bb9ab80f868d549b5c5a5f3    2 
 
3f9eba99fa788954b5ff7f35a5db6e1f    3 
 
//url.idx   end  
 
 
 
It is a list of URL checksums with their corresponding docIDs and is sorted by  
 
checksum. In order to find the docID of a particular URL, the URL's checksum  
 
is computed and a binary search is performed on the checksums file to find its  
 
docID.  
 
 
 
    ./DocIndex  
 
        got Doc.idx, Url.idx, DocId2Url.idx //Data文件夾中的Doc.idx DocId2Url.idx和Doc.idx中  
 
 
 
//DocId2Url.idx  
 
0   http://*.*.edu.cn/index.aspx  
 
1   http://*.*.edu.cn/showcontent1.jsp?NewsID=118  
 
2   http://*.*.edu.cn/0102.html  
 
3   http://*.*.edu.cn/0103.html  
 
//DocId2Url.idx end  
 
 
 
2.  sort Url.idx|uniq > Url.idx.sort_uniq    //Data文件夾中的Url.idx.sort_uniq  
 
 
 
//Url.idx.sort_uniq  
 
//對hash值進行排序  
 
000bfdfd8b2dedd926b58ba00d40986b    1111 
 
000c7e34b653b5135a2361c6818e48dc    1831 
 
0019d12f438eec910a06a606f570fde8    366 
 
0033f7c005ec776f67f496cd8bc4ae0d    2103 
 
 
 
3. Segment document to terms, (with finding document according to the url)  
 
    ./DocSegment Tianwang.raw.2559638448        //Tianwang.raw.2559638448為爬回來的文件 ,每個頁面包含http頭  
 
        got Tianwang.raw.2559638448.seg       
 
 
 
//Tianwang.raw.2559638448   爬取的原始網頁文件在文檔內部每一個文檔之間應該是通過version,</html>和回車做標志位分割的  
 
version: 1.0 
 
url: http://***.105.138.175/Default2.asp?lang=gb  
 
origin: http://***.105.138.175/  
 
date: Fri, 23 May 2008 20:01:36 GMT  
 
ip: 162.105.138.175 
 
length: 38413 
 
 
 
HTTP/1.1 200 OK  
 
Server: Microsoft-IIS/5.0 
 
Date: Fri, 23 May 2008 11:17:49 GMT  
 
Connection: keep-alive  
 
Connection: Keep-Alive  
 
Content-Length: 38088 
 
Content-Type: text/html; Charset=gb2312  
 
Expires: Fri, 23 May 2008 11:17:49 GMT  
 
Set-Cookie: ASPSESSIONIDSSTRDCAB=IMEOMBIAIPDFCKPAEDJFHOIH; path=/  
 
Cache-control: private 
 
 
 
 
 
 
 
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" 
 
" 
<html>  
 
<head>  
 
<title>Apabi數字資源平臺</title>  
 
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">  
 
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">  
 
<META NAME="DESCRIPTION" CONTENT="數字圖書館 方正數字圖書館 電子圖書 電子書 ebook e書 Apabi 數字資源平臺">  
 
<link rel="stylesheet" type="text/css" href="css\common.css">  
 
 
 
<style type="text/css">  
 
<!--  
 
.style4 {color: #666666}  
 
-->  
 
</style>  
 
 
 
<script LANGUAGE="vbscript">  
 
...  
 
</script>  
 
 
 
<Script Language="javascript">  
 
...  
 
</Script>  
 
</head>  
 
<body leftmargin="0" topmargin="0">  
 
</body>  
 
</html>  
 
//Tianwang.raw.2559638448   end  
 
 
 
//Tianwang.raw.2559638448.seg   將每個頁面分成一行如下(注意中間沒有回車作為分隔)  
 

 
...  
 
...  
 
...  
 

 
...  
 
...  
 
...  
 
//Tianwang.raw.2559638448.seg   end  
 
 
 
//下是 Tiny search 非必須因素  
 
4. Create forward index (docic-->termid)     //建立正向索引  
 
    ./CrtForwardIdx Tianwang.raw.2559638448.seg > moon.fidx  
 
 
 
//Tianwang.raw.2559638448.seg 將每個頁面分成一行如下<BR>//分詞   DocID<BR>1<BR>三星/  s/  手機/  論壇/  ,/  手機/  鈴聲/  下載/  ,/  手機/  圖片/  下載/  ,/  手機/<BR>2<BR>...<BR>...<BR>... 

1.  The document index (Doc.idx) keeps information about each document.

It is a fixed width ISAM (Index sequential access mode) index, orderd by docID.

The information stored in each entry includes a pointer into the repository,

a document length, a document checksum.

 

//Doc.idx  文檔編號 文檔長度 checksum hash碼

0 0 bc9ce846d7987c4534f53d423380ba70

1 76760 4f47a3cad91f7d35f4bb6b2a638420e5

2 141624 d019433008538f65329ae8e39b86026c

3 142350 5705b8f58110f9ad61b1321c52605795

//Doc.idx end

 

  The url index (url.idx) is used to convert URLs into docIDs.

 

//url.idx

5c36868a9c5117eadbda747cbdb0725f 0

3272e136dd90263ee306a835c6c70d77 1

6b8601bb3bb9ab80f868d549b5c5a5f3 2

3f9eba99fa788954b5ff7f35a5db6e1f 3

//url.idx end

 

It is a list of URL checksums with their corresponding docIDs and is sorted by

checksum. In order to find the docID of a particular URL, the URL's checksum

is computed and a binary search is performed on the checksums file to find its

docID.

 

 ./DocIndex

  got Doc.idx, Url.idx, DocId2Url.idx //Data文件夾中的Doc.idx DocId2Url.idx和Doc.idx中

 

//DocId2Url.idx

http://*.*.edu.cn/index.aspx

http://*.*.edu.cn/showcontent1.jsp?NewsID=118

http://*.*.edu.cn/0102.html

http://*.*.edu.cn/0103.html

//DocId2Url.idx end

 

2.  sort Url.idx|uniq > Url.idx.sort_uniq //Data文件夾中的Url.idx.sort_uniq

 

//Url.idx.sort_uniq

//對hash值進行排序

000bfdfd8b2dedd926b58ba00d40986b 1111

000c7e34b653b5135a2361c6818e48dc 1831

0019d12f438eec910a06a606f570fde8 366

0033f7c005ec776f67f496cd8bc4ae0d 2103

 

3. Segment document to terms, (with finding document according to the url)

 ./DocSegment Tianwang.raw.2559638448  //Tianwang.raw.2559638448為爬回來的文件 ,每個頁面包含http頭

  got Tianwang.raw.2559638448.seg  

 

//Tianwang.raw.2559638448 爬取的原始網頁文件在文檔內部每一個文檔之間應該是通過version,</html>和回車做標志位分割的

version: 1.0

url: http://***.105.138.175/Default2.asp?lang=gb

origin: http://***.105.138.175/

date: Fri, 23 May 2008 20:01:36 GMT

ip: 162.105.138.175

length: 38413

 

HTTP/1.1 200 OK

Server: Microsoft-IIS/5.0

Date: Fri, 23 May 2008 11:17:49 GMT

Connection: keep-alive

Connection: Keep-Alive

Content-Length: 38088

Content-Type: text/html; Charset=gb2312

Expires: Fri, 23 May 2008 11:17:49 GMT

Set-Cookie: ASPSESSIONIDSSTRDCAB=IMEOMBIAIPDFCKPAEDJFHOIH; path=/

Cache-control: private

 

 

 

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"

"

<html>

<head>

<title>Apabi數字資源平臺</title>

<meta http-equiv="Content-Type" content="text/html; charset=gb2312">

<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">

<META NAME="DESCRIPTION" CONTENT="數字圖書館 方正數字圖書館 電子圖書 電子書 ebook e書 Apabi 數字資源平臺">

<link rel="stylesheet" type="text/css" href="css\common.css">

 

<style type="text/css">

<!--

.style4 {color: #666666}

-->

</style>

 

<script LANGUAGE="vbscript">

...

</script>

 

<Script Language="javascript">

...

</Script>

</head>

<body leftmargin="0" topmargin="0">

</body>

</html>

//Tianwang.raw.2559638448 end

 

//Tianwang.raw.2559638448.seg 將每個頁面分成一行如下(注意中間沒有回車作為分隔)

1

...

...

...

2

...

...

...

//Tianwang.raw.2559638448.seg end

 

//下是 Tiny search 非必須因素

4. Create forward index (docic-->termid)  //建立正向索引

 ./CrtForwardIdx Tianwang.raw.2559638448.seg > moon.fidx

 

//Tianwang.raw.2559638448.seg 將每個頁面分成一行如下//分詞   DocID1三星/  s/  手機/  論壇/  ,/  手機/  鈴聲/  下載/  ,/  手機/  圖片/  下載/  ,/  手機/2.........view plaincopy to clipboardprint?
//Tianwang.raw.2559638448.seg end  
 
 
//moon.fidx  
 
//每篇文檔號對應文檔內分出來的    分詞  DocID  
 
都會  2391 
 
使   2391 
 
那些  2391 
 
擁有  2391 
 
它   2391 
 
的   2391 
 
人   2391 
 
的   2391 
 
視野  2391 
 
變   2391 
 
窄   2391 
 
在   2180 
 
研究生部    2180 
 
主頁  2180 
 
培養  2180 
 
管理  2180 
 
欄目  2180 
 
下載  2180 
 
)   2180 
 
、   2180 
 
關于  2180 
 
做好  2180 
 
年   2180 
 
國家  2180 
 
公派  2180 
 
研究生 2180 
 
項目  2180 
 
//moon.fidx end  
 
 
 
5.# set | grep "LANG" 
 
LANG=en; export LANG;  
 
sort moon.fidx > moon.fidx.sort  
 
 
 
6. Create inverted index (termid-->docid)    //建立倒排索引  
 
    ./CrtInvertedIdx moon.fidx.sort > sun.iidx  
 
 
 
//sun.iidx  //文件規模大概減少1/2  
 
花工   236 
 
花海   2103 
 
花卉   1018 1061 1061 1061 1730 1730 1730 1730 1730 1852 949 949 
 
花蕾   447 447 
 
花木   1061 
 
花呢   1430 
 
花期   447 447 447 447 447 525 
 
花錢   174 236 
 
花色   1730 1730 
 
花色品種     1660 
 
花生   450 526 
 
花式   1428 1430 1430 1430 
 
花紋   1430 1430 
 
花序   447 447 447 447 447 450 
 
花絮   136 137 
 
花芽   450 450 
 
//sun.iidx  end  
 
 
 
TSESearch   CGI program for query  
 
Snapshot    CGI program for page snapshot  
 
 
<P>  
author:http://hi.baidu.com/jrckkyy  
 
author:http://blog.csdn.net/jrckkyy  
</P> 

 

posted on 2009-12-10 22:55 學者站在巨人的肩膀上 閱讀(1317) 評論(1)  編輯 收藏 引用 所屬分類: 中文文本信息處理

評論

# re: 自頂向下學搜索引擎——北大天網搜索引擎TSE分析及完全注釋[5]倒排索引的建立及文件介紹 2009-12-12 13:18 淘寶皇冠大全
阿呆搜地哦的  回復  更多評論
  

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            欧美午夜在线观看| 亚洲精品欧美日韩专区| 亚洲精品日日夜夜| 亚洲精品国产系列| 99精品国产在热久久婷婷| 亚洲视频第一页| 久久久久久69| 亚洲福利视频二区| 日韩午夜三级在线| 香蕉亚洲视频| 欧美精品麻豆| 国产一区二区三区久久精品| 亚洲第一综合天堂另类专| 一区二区欧美亚洲| 可以看av的网站久久看| 一本色道久久综合亚洲91| 欧美一级理论片| 欧美国产一区二区| 国产精品区免费视频| 在线看国产一区| 亚洲女同精品视频| 亚洲国产婷婷| 久久久7777| 国产精品综合久久久| 亚洲激情欧美| 久久天天综合| 亚洲欧洲一区二区天堂久久| 国产精品久久久久久久久久久久 | 午夜在线成人av| 欧美国产日韩一区二区三区| 午夜精品久久久久久久久| 欧美伦理视频网站| 黄色成人在线观看| 性欧美暴力猛交另类hd| 欧美在线免费一级片| 一区二区三区四区五区精品| 亚洲一区二区三区在线观看视频| 久久久久久久网站| 亚洲最新合集| 欧美不卡在线| 一区在线影院| 先锋亚洲精品| 99re6热在线精品视频播放速度| 久久精品免费播放| 国产亚洲观看| 久久久福利视频| 亚洲一区二区在线看| 欧美日韩在线三级| 一区二区三区四区五区在线| 欧美成年人视频网站欧美| 影音先锋一区| 亚洲一区二区三区视频| 久久精品91| 一本色道久久综合亚洲精品小说| 欧美电影免费观看| 91久久精品一区| 欧美jjzz| 免费亚洲一区| 亚洲精品一区中文| 亚洲人被黑人高潮完整版| 欧美成人免费在线观看| 亚洲福利在线观看| 亚洲高清在线播放| 欧美日韩午夜激情| 亚洲一区在线免费| 午夜一级久久| 在线国产精品播放| 欧美有码在线视频| 亚洲国产精品视频一区| 欧美成人黑人xx视频免费观看| 亚洲第一色中文字幕| 亚洲第一福利社区| 欧美日本不卡| 国产精品私房写真福利视频| 久久久久免费| 西瓜成人精品人成网站| 狠狠色丁香婷婷综合久久片| 久久阴道视频| 欧美激情一区二区三区在线| 一区二区三区国产| 亚洲欧美精品伊人久久| 国产欧美精品久久| 欧美成人中文字幕在线| 欧美日韩xxxxx| 久久成人精品无人区| 久久综合伊人77777蜜臀| 一区二区三区你懂的| 欧美亚洲午夜视频在线观看| 在线电影一区| 亚洲天堂免费观看| 在线日本成人| 亚洲视频精品| 亚洲国产精品一区二区久| 亚洲视频在线免费观看| 在线播放不卡| 亚洲免费一区二区| 亚洲人成网站999久久久综合| 亚洲一区二区三区久久| 亚洲国产日韩在线一区模特| 亚洲资源av| 亚洲免费观看高清完整版在线观看熊 | 亚洲理论电影网| 亚洲图片你懂的| 亚洲日本aⅴ片在线观看香蕉| 亚洲免费视频中文字幕| 一个色综合av| 你懂的成人av| 久久躁狠狠躁夜夜爽| 国产精品夜夜夜| 亚洲精品资源美女情侣酒店| 在线看视频不卡| 午夜精品一区二区三区在线| 中文一区字幕| 欧美精品日韩综合在线| 看片网站欧美日韩| 国产午夜久久| 亚洲一区视频| 亚洲在线网站| 欧美视频在线一区二区三区| 亚洲黄色一区二区三区| 亚洲欧洲一区二区三区久久| 久久激情婷婷| 久久精品人人做人人综合| 国产精品久久久久久久一区探花| 亚洲精品1区2区| 亚洲精品综合久久中文字幕| 久久综合伊人77777尤物| 久久亚洲春色中文字幕| 国产农村妇女毛片精品久久莱园子| 亚洲另类在线视频| 国产精品99久久久久久久女警| 欧美激情亚洲综合一区| 91久久久在线| 亚洲视频专区在线| 国产精品国产三级国产aⅴ无密码| 99视频精品免费观看| 欧美成人免费全部| 99re在线精品| 午夜精品久久久久久久蜜桃app| 制服丝袜亚洲播放| 欧美日韩精品在线视频| 一本色道88久久加勒比精品| 中文国产成人精品| 欧美日韩另类视频| 中文av一区特黄| 久久福利视频导航| 亚洲福利免费| 欧美精选午夜久久久乱码6080| 亚洲精品一区二区三区蜜桃久| 在线视频欧美日韩精品| 国产精品久久影院| 久久激情五月婷婷| 亚洲国产成人久久| 亚洲午夜久久久久久尤物| 国产精品自拍网站| 久久久之久亚州精品露出| 亚洲高清免费在线| 亚洲欧美日韩成人| 一区在线视频观看| 欧美日韩精品免费观看| 午夜电影亚洲| 欧美激情视频在线播放| 亚洲视频999| 伊人成人在线视频| 欧美午夜久久| 久久久另类综合| 艳女tv在线观看国产一区| 久久久99久久精品女同性| 亚洲人成在线免费观看| 国产精品你懂的在线| 久久久久九九九九| 一区二区三区精品在线| 免费欧美网站| 亚洲免费视频网站| 亚洲欧洲日本国产| 国产精品视频一| 免费欧美日韩| 小处雏高清一区二区三区 | 亚洲天堂成人在线观看| 麻豆av一区二区三区| 亚洲欧美另类中文字幕| 亚洲国产毛片完整版| 国产欧美激情| 欧美午夜一区二区| 欧美韩日一区| 久久久av网站| 午夜国产不卡在线观看视频| 日韩写真在线| 亚洲激情在线观看| 麻豆久久精品| 久久国产精品久久久久久电车 | 性久久久久久久久久久久| 91久久精品国产91性色tv| 国产一区二区三区不卡在线观看| 欧美日韩精品在线观看| 欧美激情成人在线视频| 久久综合五月| 久久综合狠狠| 久久综合九色99| 久久av在线看|