青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

學著站在巨人的肩膀上

金融數(shù)學,InformationSearch,Compiler,OS,

  C++博客 :: 首頁 :: 新隨筆 :: 聯(lián)系 :: 聚合  :: 管理 ::
  12 隨筆 :: 0 文章 :: 8 評論 :: 0 Trackbacks

author:http://hi.baidu.com/jrckkyy

author:http://blog.csdn.net/jrckkyy

上一篇主要介紹了倒排索引建立相關的文件及中間文件。
TSE建立索引在運行程序上的大致步驟可以簡化分為以下幾步:

1、運行命令#./DocIndex
會用到一個文件 tianwang.raw.520    //爬取回來的原始文件,包含多個網(wǎng)頁的所有信息,所以很大,這也是一個有待解決的問題,到底存成大文件(如果過大會超過2G或4G的限制,而且文件過大索引效率過低)還是小文件(文件數(shù)過多用于打開關閉文件句柄的消耗過大)還有待思考,還就是存儲方案的解決最終肯定是要存為分布式的,最終總文件量肯定是會上TB的,TSE只支持小型的搜索引擎需求。          
會產(chǎn)生一下三個文件 Doc.idx, Url.idx, DocId2Url.idx    //Data文件夾中的Doc.idx DocId2Url.idx和Doc.idx

2、運行命令#sort Url.idx|uniq > Url.idx.sort_uniq    //Data文件夾中的Url.idx.sort_uniq
會用到一個文件 Url.idx文件 //md5 hash 之后的url完整地址和document id值對
會產(chǎn)生一個文件 Url.idx.sort_uniq //URL消重,md5 hash排序,提高檢索效率

3、運行命令#./DocSegment Tianwang.raw.2559638448 
會用到一個文件 Tianwang.raw.2559638448  //Tianwang.raw.2559638448為爬回來的文件 ,每個頁面包含http頭,分詞為后面建立到排索引做準備
會產(chǎn)生一個文件 Tianwang.raw.2559638448.seg //分詞文件,由一行document id號和一行文檔分詞組(只對每個文檔<html></html>中<head></head><body></body>等文字標記中的文本進行分組)構成

4、運行命令#./CrtForwardIdx Tianwang.raw.2559638448.seg > moon.fidx //建立獨立的正向索引

5、運行命令
#set | grep "LANG"
#LANG=en; export LANG;
#sort moon.fidx > moon.fidx.sort

6、運行命令#./CrtInvertedIdx moon.fidx.sort > sun.iidx //建立倒排索引

我們先從建立索引的第一個程序DocIndex.cpp開始分析。(注釋約定:Tianwang.raw.2559638448是抓回來合并成的大文件,后面就叫大文件,里面包含了很多篇html文檔,里面的文檔有規(guī)律的分隔就叫做一篇一篇的文檔)


//DocIndex.h start-------------------------------------------------------------

 


#ifndef _COMM_H_040708_
#define _COMM_H_040708_

#include

#include
#include
#include
#include
#include
#include
#include


using namespace std;

const unsigned HEADER_BUF_SIZE = 1024;
const unsigned RstPerPage = 20; //前臺搜索結果數(shù)據(jù)集返回條數(shù)

//iceway
//const unsigned MAX_DOC_IDX_ID = 21312;  //DocSegment.cpp中要用到
const unsigned MAX_DOC_IDX_ID = 22104;


//const string IMG_INFO_NAME("./Data/s1.1");
const string INF_INFO_NAME("./Data/sun.iidx"); //倒排索引文件
//朱德  14383 16151 16151 16151 1683 207 6302 7889 8218 8218 8637
//朱古力  1085 1222

//9萬多條 字元文件 包括特殊符號,標點,漢字
const string DOC_IDX_NAME("./Data/Doc.idx"); //倒排索引文件
const string RAWPAGE_FILE_NAME("./Data/Tianwang.swu.iceway.1.0");

//iceway
const string DOC_FILE_NAME = "Tianwang.swu.iceway.1.0";  //Docindex.cpp中要用到
const string Data_DOC_FILE_NAME = "./Data/Tianwang.swu.iceway.1.0";  //Snapshot.cpp中要用到


//const string RM_THUMBNAIL_FILES("rm -f ~/public_html/ImgSE/timg/*");

//const string THUMBNAIL_DIR("/ImgSE/timg/");


#endif _COMM_H_040708_
//DocIndex.h end--------------------------------------------------------------//DocIndex.cpp start-----------------------------------------------------------

#include
#include
#include "Md5.h"
#include "Url.h"
#include "Document.h"

//iceway(mnsc)
#include "Comm.h"
#include

using namespace std;

int main(int argc, char* argv[])
{
    //ifstream ifs("Tianwang.raw.2559638448");
 //ifstream ifs("Tianwang.raw.3023555472");
 //iceway(mnsc)
 ifstream ifs(DOC_FILE_NAME.c_str()); //打開Tianwang.raw.3023555472文件,最原始的文件
 if (!ifs)
 {
     cerr << "Cannot open " << "tianwang.img.info" << " for input\n";
     return -1;
    }
 ofstream ofsUrl("Url.idx", ios::in|ios::out|ios::trunc|ios::binary); //建立并打開Url.idx文件
 if( !ofsUrl )
 {
  cout << "error open file " << endl;
 }

 ofstream ofsDoc("Doc.idx", ios::in|ios::out|ios::trunc|ios::binary); //建立并打開Doc.idx文件
 if( !ofsDoc )
 {
  cout << "error open file " << endl;
 }

 ofstream ofsDocId2Url("DocId2Url.idx", ios::in|ios::out|ios::trunc|ios::binary); //建立并打開DocId2Url.idx文件
 if( !ofsDocId2Url )
 {
  cout << "error open file " << endl;
 }

 int cnt=0; //文檔編號從0開始計算
 string strLine,strPage;
 CUrl iUrl;
 CDocument iDocument;
 CMD5 iMD5;
 
 int nOffset = ifs.tellg();
 while (getline(ifs, strLine))
 {
  if (strLine[0]=='\0' || strLine[0]=='#' || strLine[0]=='\n')
  {
   nOffset = ifs.tellg();
   continue;
  }

  if (!strncmp(strLine.c_str(), "version: 1.0", 12)) //判斷第一行是否是version: 1.0如果是就解析下去
  { 
   if(!getline(ifs, strLine)) break;
   if (!strncmp(strLine.c_str(), "url: ", 4)) //判斷第二行是否是url: 如果是則解析下去
   {
    iUrl.m_sUrl = strLine.substr(5); //截取url: 五個字符之后的url內(nèi)容
    iMD5.GenerateMD5( (unsigned char*)iUrl.m_sUrl.c_str(), iUrl.m_sUrl.size() ); //對url用md5 hash處理
    iUrl.m_sChecksum = iMD5.ToString(); //將字符數(shù)組組合成字符串這個函數(shù)在Md5.h中實現(xiàn)

   } else
   {
    continue;
   }

   while (getline(ifs, strLine))
   {
    if (!strncmp(strLine.c_str(), "length: ", 8)) //一直讀下去直到判斷澹澹(相對第五行)惺欠袷莑ength: 是則接下下去
    {
     sscanf(strLine.substr(8).c_str(), "%d", &(iDocument.m_nLength)); //將該塊所代表網(wǎng)頁的實際網(wǎng)頁內(nèi)容長度放入iDocument數(shù)據(jù)結構中
     break;
    }
   }

   getline(ifs, strLine); //跳過相對第六行故意留的一個空行

   iDocument.m_nDocId = cnt; //將文檔編號賦值到iDocument數(shù)據(jù)結構中
   iDocument.m_nPos = nOffset; //文檔結尾在大文件中的結束行號
   char *pContent = new char[iDocument.m_nLength+1]; //新建該文檔長度的字符串指針

   memset(pContent, 0, iDocument.m_nLength+1); //每一位初始化為0
   ifs.read(pContent, iDocument.m_nLength); //根據(jù)獲得的文檔長度讀取澹(其中包含協(xié)議頭)讀取文檔內(nèi)容
   iMD5.GenerateMD5( (unsigned char*)pContent, iDocument.m_nLength );
   iDocument.m_sChecksum = iMD5.ToString(); //將字符數(shù)組組合成字符串這個函數(shù)在Md5.h中實現(xiàn)
   
   delete[] pContent;
   
   ofsUrl << iUrl.m_sChecksum ; //將md5hash后的url寫入Url.idx文件
   ofsUrl << "\t" << iDocument.m_nDocId << endl; //在一行中一個tab距離分隔,將文件編號寫入Url.idx文件

   ofsDoc << iDocument.m_nDocId ; //將文件編號寫入Doc.idx文件
   ofsDoc << "\t" << iDocument.m_nPos ; //在一行中一個tab距離分隔,將該文檔結束行號澹(同樣也是下一文檔開始行號)寫入Doc.idx文件
   //ofsDoc << "\t" << iDocument.m_nLength ;
   ofsDoc << "\t" << iDocument.m_sChecksum << endl; //在一行中一個tab距離分隔,將md5hash后的url寫入Doc.idx文件

   ofsDocId2Url << iDocument.m_nDocId ; //將文件編號寫入DocId2Url.idx文件
   ofsDocId2Url << "\t" << iUrl.m_sUrl << endl; //將該文檔的完整url寫入DocId2Url.idx文件

   cnt++; //文檔編號加一說明該以文檔分析完畢,生成下一文檔的編號
  }

  nOffset = ifs.tellg();

 }

 //最后一行只有文檔號和上一篇文檔結束號
 ofsDoc << cnt ;
 ofsDoc << "\t" << nOffset << endl;


 return(0);
}

//DocIndex.cpp end-----------------------------------------------------------author:http://hi.baidu.com/jrckkyy

author:http://blog.csdn.net/jrckkyy

 

 

posted on 2009-12-10 23:00 學者站在巨人的肩膀上 閱讀(1352) 評論(1)  編輯 收藏 引用 所屬分類: 中文文本信息處理

評論

# re: 自頂向下學搜索引擎——北大天網(wǎng)搜索引擎TSE分析及完全注釋[6]倒排索引的建立的程序分析(1) 2009-12-12 13:18 夢芭莎內(nèi)衣
阿喀琉斯貸記卡是看見的  回復  更多評論
  

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            欧美高清视频| 国产欧美综合一区二区三区| 亚洲二区视频| 亚洲第一级黄色片| 欧美成人免费小视频| 亚洲精品免费一区二区三区| 亚洲精品在线看| 欧美午夜免费影院| 久久本道综合色狠狠五月| 性色av一区二区三区在线观看| 国产一区二区在线观看免费播放| 久久久久久亚洲精品中文字幕| 久久久精品2019中文字幕神马| 永久免费精品影视网站| 亚洲国产精品www| 国产精品成人一区二区| 久久久99国产精品免费| 免费看av成人| 亚洲天堂偷拍| 久久久www免费人成黑人精品| 在线日韩精品视频| 亚洲精品免费观看| 国产日韩在线看| 亚洲高清成人| 国产九色精品成人porny| 欧美成人高清| 国产精品久久久久久久app| 蜜臀va亚洲va欧美va天堂| 欧美日本一道本在线视频| 久久九九精品99国产精品| 欧美精品在线观看一区二区| 欧美一区综合| 欧美久久影院| 免费欧美电影| 国产精品一区在线观看你懂的| 亚洲第一精品夜夜躁人人躁| 国产精品美女久久久久aⅴ国产馆 国产精品美女久久久 | 久久综合九九| 欧美性感一类影片在线播放| 狂野欧美激情性xxxx| 欧美视频在线看| 女主播福利一区| 国产精品羞羞答答| 日韩视频在线观看国产| 亚洲国产mv| 欧美在线短视频| 亚洲欧美日韩精品久久久| 欧美第一黄网免费网站| 免费不卡欧美自拍视频| 国产欧美综合在线| 一区二区三区高清| 一区二区三区免费看| 欧美阿v一级看视频| 麻豆精品视频在线观看| 国产日韩欧美一二三区| 亚洲一品av免费观看| 99伊人成综合| 欧美另类69精品久久久久9999| 久久综合网色—综合色88| 国产日韩在线一区二区三区| 亚洲午夜视频在线| 亚洲手机视频| 国产精品xnxxcom| 日韩亚洲在线| 亚洲天堂av电影| 欧美日韩亚洲天堂| 一区二区不卡在线视频 午夜欧美不卡在 | 亚洲在线免费| 欧美一级二区| 国产视频一区二区在线观看| 亚洲午夜在线观看视频在线| 亚洲视频在线视频| 欧美三级电影精品| 亚洲影视九九影院在线观看| 午夜亚洲伦理| 国产三级欧美三级日产三级99| 亚洲一区二区av电影| 香蕉av777xxx色综合一区| 国产精品你懂的在线欣赏| 亚洲欧美在线一区二区| 久久久久国产一区二区| 亚洲二区在线视频| 欧美成人国产va精品日本一级| 亚洲欧洲日产国产综合网| 99视频在线观看一区三区| 欧美色欧美亚洲另类七区| 亚洲一级影院| 欧美14一18处毛片| 夜夜爽av福利精品导航 | 麻豆av福利av久久av| 亚洲黄页视频免费观看| 亚洲欧美日韩精品一区二区| 国产午夜亚洲精品羞羞网站| 久久一区精品| 99精品视频免费观看| 久久九九国产| 99视频超级精品| 国产精品专区一| 欧美成年人视频网站欧美| 在线亚洲+欧美+日本专区| 久久久噜噜噜久久狠狠50岁| 亚洲精品乱码久久久久久| 国产精品v亚洲精品v日韩精品| 久久国产精彩视频| 亚洲精品女av网站| 亚洲欧美日韩爽爽影院| 一区在线免费观看| 欧美午夜在线一二页| 久久久久久亚洲综合影院红桃| av成人免费在线观看| 卡一卡二国产精品| 午夜精品久久久久久久蜜桃app | 国产精品亚洲综合色区韩国| 久久综合导航| 午夜在线视频一区二区区别| 亚洲国产影院| 免费久久99精品国产| 欧美一级午夜免费电影| 亚洲精品一区二区三区在线观看| 国产日韩欧美综合| 欧美日韩综合在线| 欧美岛国在线观看| 久久偷窥视频| 香蕉久久a毛片| 一区二区三区欧美视频| 亚洲黄色影院| 亚洲电影免费在线观看| 久久亚洲国产成人| 久久国产免费| 欧美一区二区三区免费看| 亚洲午夜久久久久久尤物 | 国产亚洲欧美日韩一区二区| 欧美性感一类影片在线播放| 欧美看片网站| 欧美成人免费网站| 老色鬼久久亚洲一区二区| 欧美在线www| 欧美一进一出视频| 欧美一级视频免费在线观看| 亚洲小说欧美另类社区| 一区二区三区 在线观看视| 最新中文字幕亚洲| 亚洲国产专区| 日韩视频三区| 日韩视频在线观看| a4yy欧美一区二区三区| 99精品国产99久久久久久福利| 亚洲美女啪啪| 一本色道久久综合亚洲精品婷婷| 亚洲另类在线视频| 99国内精品| 亚洲性夜色噜噜噜7777| 亚洲尤物在线视频观看| 性色av一区二区三区| 欧美在线观看视频在线 | 亚洲一区二区三区在线观看视频| 亚洲午夜国产成人av电影男同| 99在线视频精品| 亚洲免费在线观看视频| 性欧美暴力猛交另类hd| 久久久无码精品亚洲日韩按摩| 久久夜色精品国产欧美乱| 欧美成人免费一级人片100| 欧美激情一区| 国产精品久在线观看| 国产一区二区无遮挡| 在线观看亚洲视频啊啊啊啊| 亚洲国产高清自拍| 一区二区三区|亚洲午夜| 亚洲欧美国产一区二区三区| 久久精品二区| 亚洲国产成人精品女人久久久 | 亚洲精品国精品久久99热| 亚洲视频一区二区在线观看| 欧美主播一区二区三区| 免费日本视频一区| 夜夜精品视频一区二区| 久久久不卡网国产精品一区| 欧美国产免费| 国产欧美视频一区二区| 亚洲国产精品日韩| 亚洲欧美日韩直播| 欧美国产先锋| 亚洲一区欧美| 免费在线成人av| 国产欧美日本在线| 亚洲毛片播放| 久久久精品一品道一区| 亚洲精品一区二区三区不| 性刺激综合网| 欧美日韩国产成人| 国内精品伊人久久久久av一坑| 一本色道久久88亚洲综合88| 久久精品国产69国产精品亚洲| 最新国产の精品合集bt伙计| 欧美一区二区三区视频免费| 欧美精品福利在线| 在线观看日韩www视频免费| 亚洲欧美日韩网| 亚洲欧洲日产国产网站|