青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

學著站在巨人的肩膀上

金融數學,InformationSearch,Compiler,OS,

  C++博客 :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理 ::
  12 隨筆 :: 0 文章 :: 8 評論 :: 0 Trackbacks

前面的DocIndex程序輸入一個Tianwang.raw.*****文件,會產生一下三個文件 Doc.idx, Url.idx, DocId2Url.idx,我們這里對DocSegment程序進行分析。

這里輸入 Tianwang.raw.*****,Doc.idx,Url.idx.sort_uniq等三個文件,輸出一個Tianwang.raw.***.seg 分詞完畢的文件

int main(int argc, char* argv[])
{
    string strLine, strFileName=argv[1];
    CUrl iUrl;
    vector<CUrl> vecCUrl;
    CDocument iDocument;
    vector<CDocument> vecCDocument;
    unsigned int docId = 0;

    //ifstream ifs("Tianwang.raw.2559638448");
    ifstream ifs(strFileName.c_str());  //DocSegment Tianwang.raw.****
    if (!ifs) 
    {
        cerr << "Cannot open tianwang.img.info for input\n";
        return -1;
    }

    ifstream ifsUrl("Url.idx.sort_uniq");   //排序并消重后的url字典
    if (!ifsUrl) 
    {
        cerr << "Cannot open Url.idx.sort_uniq for input\n";
        return -1;
    }
    ifstream ifsDoc("Doc.idx"); //字典文件
    if (!ifsDoc) 
    {
        cerr << "Cannot open Doc.idx for input\n";
        return -1;
    }

    while (getline(ifsUrl,strLine)) //偏離url字典存入一個向量內存中
    {
        char chksum[33];
        int  docid;

        memset(chksum, 0, 33);
        sscanf( strLine.c_str(), "%s%d", chksum, &docid );
        iUrl.m_sChecksum = chksum;
        iUrl.m_nDocId = docid;
        vecCUrl.push_back(iUrl);
    }

    while (getline(ifsDoc,strLine))     //偏離字典文件將其放入一個向量內存中
    {
        int docid,pos,length;
        char chksum[33];

        memset(chksum, 0, 33);
        sscanf( strLine.c_str(), "%d%d%d%s", &docid, &pos, &length,chksum );
        iDocument.m_nDocId = docid;
        iDocument.m_nPos = pos;
        iDocument.m_nLength = length;
        iDocument.m_sChecksum = chksum;
        vecCDocument.push_back(iDocument);
    }

 

    strFileName += ".seg";
    ofstream fout(strFileName.c_str(), ios::in|ios::out|ios::trunc|ios::binary);    //設置完成分詞后的數據輸出文件
    for ( docId=0; docId<MAX_DOC_ID; docId++ )
    {

        // find document according to docId
        int length = vecCDocument[docId+1].m_nPos - vecCDocument[docId].m_nPos -1;
        char *pContent = new char[length+1];
        memset(pContent, 0, length+1);
        ifs.seekg(vecCDocument[docId].m_nPos);
        ifs.read(pContent, length);

        char *s;
        s = pContent;

        // skip Head
        int bytesRead = 0,newlines = 0;
        while (newlines != 2 && bytesRead != HEADER_BUF_SIZE-1) 
        {
            if (*s == '\n')
                newlines++;
            else
                newlines = 0;
            s++;
            bytesRead++;
        }
        if (bytesRead == HEADER_BUF_SIZE-1) continue;


        // skip header
        bytesRead = 0,newlines = 0;
        while (newlines != 2 && bytesRead != HEADER_BUF_SIZE-1) 
        {
            if (*s == '\n')
                newlines++;
            else
                newlines = 0;
            s++;
            bytesRead++;
        }
        if (bytesRead == HEADER_BUF_SIZE-1) continue;

        //iDocument.m_sBody = s;
        iDocument.RemoveTags(s);    //去除<>
        iDocument.m_sBodyNoTags = s;

        delete[] pContent;
        string strLine = iDocument.m_sBodyNoTags;

        CStrFun::ReplaceStr(strLine, " ", " ");
        CStrFun::EmptyStr(strLine); // set " \t\r\n" to " "


        // segment the document 具體分詞處理
        CHzSeg iHzSeg;
        strLine = iHzSeg.SegmentSentenceMM(iDict,strLine);
        fout << docId << endl << strLine;
        fout << endl;
        
    }

    return(0);
}
這里只是浮光掠影式的過一遍大概的代碼,后面我會有專題詳細講解 parse html 和 segment docment 等技術

 

 

posted on 2009-12-10 23:02 學者站在巨人的肩膀上 閱讀(1178) 評論(1)  編輯 收藏 引用 所屬分類: 中文文本信息處理

評論

# re: 自頂向下學搜索引擎——北大天網搜索引擎TSE分析及完全注釋[6]倒排索引的建立的程序分析(2) 2009-12-12 13:17 凡客誠品網
捱三頂四看來達到  回復  更多評論
  

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            国产亚洲精品bt天堂精选| 欧美亚洲系列| 欧美77777| 欧美伊人久久久久久午夜久久久久| 亚洲第一精品影视| 国产精品永久| 国产欧美va欧美va香蕉在| 欧美日韩一区国产| 欧美日韩亚洲一区二区三区四区| 欧美成人综合网站| 欧美大胆a视频| 国产精品99久久久久久久久久久久| 亚洲福利在线视频| 老鸭窝亚洲一区二区三区| 欧美在线关看| 久久国产精品网站| 久久激情网站| 久久亚洲综合网| 亚洲精品黄色| 久久视频在线看| 在线一区二区三区四区| 亚洲精品国产精品国产自| 欧美韩日一区二区| 亚洲国产精品123| 亚洲国产高清在线观看视频| 91久久久久久| 一本色道久久综合狠狠躁篇的优点 | 91久久久一线二线三线品牌| 国产精品久久久久一区| 久久久www免费人成黑人精品 | 最新日韩在线视频| 久久国产黑丝| 欧美aa国产视频| 亚洲欧洲日韩综合二区| 99热精品在线观看| 亚洲综合色噜噜狠狠| 久久人人超碰| 欧美色图一区二区三区| 国产偷自视频区视频一区二区| 国产精品久久久久久久久免费| 免费毛片一区二区三区久久久| 亚洲高清视频在线| 亚洲福利视频免费观看| 亚洲精品国产品国语在线app | 国产欧美日韩激情| 亚洲国产精品免费| 日韩一级黄色av| 久久成人18免费观看| 欧美激情免费观看| 在线一区欧美| 久久久久国产精品厨房| 欧美伦理91| 激情久久五月| 亚洲欧美一区二区三区极速播放| 国产精品国内视频| 亚洲一区一卡| 欧美一级艳片视频免费观看| 麻豆精品网站| 亚洲午夜激情在线| 久久午夜视频| 欧美精品v日韩精品v国产精品| 国产亚洲精品资源在线26u| 一本久道久久综合中文字幕| 猫咪成人在线观看| 香蕉成人伊视频在线观看| 久久久99久久精品女同性| 久久黄色网页| 国产精品视频专区| 99在线精品视频在线观看| 久久精品在线免费观看| 亚洲一区中文字幕在线观看| 久久久激情视频| 一区二区三区偷拍| 欧美激情 亚洲a∨综合| 亚洲第一在线视频| 久久狠狠亚洲综合| 亚洲欧美视频在线| 国产精品扒开腿做爽爽爽软件| 1024亚洲| 老巨人导航500精品| 欧美一区深夜视频| 国产午夜久久久久| 久久久久久久91| 日韩亚洲欧美一区二区三区| 欧美剧在线免费观看网站| 亚洲黄色小视频| 欧美国产三区| 欧美大色视频| 一本久久知道综合久久| 91久久精品网| 久久精品国产一区二区三| 国产欧美一区二区三区久久 | 亚洲在线观看视频| 中文av字幕一区| 国产精品久久久久一区二区三区共| 亚洲精选一区二区| 亚洲精品资源美女情侣酒店| 蜜桃av一区二区三区| 亚洲黄色在线视频| 亚洲精品欧美精品| 欧美午夜一区二区三区免费大片| 午夜精品美女久久久久av福利| 中文亚洲免费| 国产精品久久久久久久第一福利| 午夜精品一区二区三区在线播放 | 国产精品第十页| 久久久久久一区二区| 久久午夜色播影院免费高清| 亚洲人成7777| 日韩午夜视频在线观看| 国产精品入口| 欧美不卡在线视频| 欧美午夜精品久久久久久人妖| 欧美在线免费观看视频| 久久字幕精品一区| 亚洲欧美日韩国产精品| 一区二区成人精品| 好吊色欧美一区二区三区四区 | 亚洲激情在线播放| 亚洲一区影音先锋| 老司机午夜精品视频在线观看| 亚洲视频福利| 欧美激情1区2区| 两个人的视频www国产精品| 国产精品视频一二三| 亚洲欧洲午夜| 在线播放日韩| 久久精品国产99| 午夜精品久久| 欧美丝袜一区二区| 亚洲精品国产欧美| 亚洲美女精品久久| 欧美国产成人在线| 亚洲国产精品综合| 亚洲精品一区二区三区婷婷月| 久久免费偷拍视频| 免费不卡欧美自拍视频| 尤妮丝一区二区裸体视频| 久久久久久黄| 嫩草成人www欧美| 最新国产成人在线观看| 欧美成年人视频网站欧美| 亚洲高清一区二区三区| 亚洲人成网站777色婷婷| 免费不卡视频| 亚洲激情视频在线| 这里只有精品电影| 国产精品成人国产乱一区| 在线综合亚洲欧美在线视频| 亚洲欧美激情视频在线观看一区二区三区 | 一本色道精品久久一区二区三区| 久久综合伊人77777蜜臀| 欧美国产精品人人做人人爱| 亚洲第一区色| 欧美人成免费网站| 亚洲一区成人| 久久三级视频| 亚洲免费av观看| 国产精品久久久久天堂| 欧美一区二区三区在线| 免费久久99精品国产自在现线| 亚洲国产乱码最新视频| 欧美日韩欧美一区二区| 欧美一级片久久久久久久| 男人的天堂亚洲在线| 亚洲一级黄色av| 韩国av一区| 欧美区国产区| 性做久久久久久免费观看欧美| 噜噜噜在线观看免费视频日韩| 亚洲美女黄色| 国内视频一区| 欧美日韩国产一区二区| 欧美在线视频一区二区| 亚洲精品激情| 久久亚洲春色中文字幕久久久| 艳女tv在线观看国产一区| 国产亚洲人成a一在线v站| 欧美成人午夜| 欧美伊人影院| 99re热这里只有精品免费视频| 欧美国产日韩一区二区| 国产精品一区久久久| 亚洲电影在线免费观看| 亚洲精品1区2区| 欧美成人免费在线| 在线中文字幕日韩| 欧美成人a视频| 亚洲天堂偷拍| 国内自拍一区| 欧美网站在线观看| 久久人人爽人人爽| 亚洲一区高清| 亚洲精品美女| 免费看的黄色欧美网站| 欧美一区二区在线看| 一区二区三区久久网| 在线日韩视频| 国产亚洲午夜| 国产精品美女|