青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

學(xué)著站在巨人的肩膀上

金融數(shù)學(xué),InformationSearch,Compiler,OS,

  C++博客 :: 首頁(yè) :: 新隨筆 :: 聯(lián)系 :: 聚合  :: 管理 ::
  12 隨筆 :: 0 文章 :: 8 評(píng)論 :: 0 Trackbacks

前面的DocIndex程序輸入一個(gè)Tianwang.raw.*****文件,會(huì)產(chǎn)生一下三個(gè)文件 Doc.idx, Url.idx, DocId2Url.idx,我們這里對(duì)DocSegment程序進(jìn)行分析。

這里輸入 Tianwang.raw.*****,Doc.idx,Url.idx.sort_uniq等三個(gè)文件,輸出一個(gè)Tianwang.raw.***.seg 分詞完畢的文件

int main(int argc, char* argv[])
{
    string strLine, strFileName=argv[1];
    CUrl iUrl;
    vector<CUrl> vecCUrl;
    CDocument iDocument;
    vector<CDocument> vecCDocument;
    unsigned int docId = 0;

    //ifstream ifs("Tianwang.raw.2559638448");
    ifstream ifs(strFileName.c_str());  //DocSegment Tianwang.raw.****
    if (!ifs) 
    {
        cerr << "Cannot open tianwang.img.info for input\n";
        return -1;
    }

    ifstream ifsUrl("Url.idx.sort_uniq");   //排序并消重后的url字典
    if (!ifsUrl) 
    {
        cerr << "Cannot open Url.idx.sort_uniq for input\n";
        return -1;
    }
    ifstream ifsDoc("Doc.idx"); //字典文件
    if (!ifsDoc) 
    {
        cerr << "Cannot open Doc.idx for input\n";
        return -1;
    }

    while (getline(ifsUrl,strLine)) //偏離url字典存入一個(gè)向量?jī)?nèi)存中
    {
        char chksum[33];
        int  docid;

        memset(chksum, 0, 33);
        sscanf( strLine.c_str(), "%s%d", chksum, &docid );
        iUrl.m_sChecksum = chksum;
        iUrl.m_nDocId = docid;
        vecCUrl.push_back(iUrl);
    }

    while (getline(ifsDoc,strLine))     //偏離字典文件將其放入一個(gè)向量?jī)?nèi)存中
    {
        int docid,pos,length;
        char chksum[33];

        memset(chksum, 0, 33);
        sscanf( strLine.c_str(), "%d%d%d%s", &docid, &pos, &length,chksum );
        iDocument.m_nDocId = docid;
        iDocument.m_nPos = pos;
        iDocument.m_nLength = length;
        iDocument.m_sChecksum = chksum;
        vecCDocument.push_back(iDocument);
    }

 

    strFileName += ".seg";
    ofstream fout(strFileName.c_str(), ios::in|ios::out|ios::trunc|ios::binary);    //設(shè)置完成分詞后的數(shù)據(jù)輸出文件
    for ( docId=0; docId<MAX_DOC_ID; docId++ )
    {

        // find document according to docId
        int length = vecCDocument[docId+1].m_nPos - vecCDocument[docId].m_nPos -1;
        char *pContent = new char[length+1];
        memset(pContent, 0, length+1);
        ifs.seekg(vecCDocument[docId].m_nPos);
        ifs.read(pContent, length);

        char *s;
        s = pContent;

        // skip Head
        int bytesRead = 0,newlines = 0;
        while (newlines != 2 && bytesRead != HEADER_BUF_SIZE-1) 
        {
            if (*s == '\n')
                newlines++;
            else
                newlines = 0;
            s++;
            bytesRead++;
        }
        if (bytesRead == HEADER_BUF_SIZE-1) continue;


        // skip header
        bytesRead = 0,newlines = 0;
        while (newlines != 2 && bytesRead != HEADER_BUF_SIZE-1) 
        {
            if (*s == '\n')
                newlines++;
            else
                newlines = 0;
            s++;
            bytesRead++;
        }
        if (bytesRead == HEADER_BUF_SIZE-1) continue;

        //iDocument.m_sBody = s;
        iDocument.RemoveTags(s);    //去除<>
        iDocument.m_sBodyNoTags = s;

        delete[] pContent;
        string strLine = iDocument.m_sBodyNoTags;

        CStrFun::ReplaceStr(strLine, " ", " ");
        CStrFun::EmptyStr(strLine); // set " \t\r\n" to " "


        // segment the document 具體分詞處理
        CHzSeg iHzSeg;
        strLine = iHzSeg.SegmentSentenceMM(iDict,strLine);
        fout << docId << endl << strLine;
        fout << endl;
        
    }

    return(0);
}
這里只是浮光掠影式的過(guò)一遍大概的代碼,后面我會(huì)有專題詳細(xì)講解 parse html 和 segment docment 等技術(shù)

 

 

posted on 2009-12-10 23:02 學(xué)者站在巨人的肩膀上 閱讀(1170) 評(píng)論(1)  編輯 收藏 引用 所屬分類: 中文文本信息處理

評(píng)論

# re: 自頂向下學(xué)搜索引擎——北大天網(wǎng)搜索引擎TSE分析及完全注釋[6]倒排索引的建立的程序分析(2) 2009-12-12 13:17 凡客誠(chéng)品網(wǎng)
捱三頂四看來(lái)達(dá)到  回復(fù)  更多評(píng)論
  


只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。
網(wǎng)站導(dǎo)航: 博客園   IT新聞   BlogJava   博問(wèn)   Chat2DB   管理


青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            久久99在线观看| 欧美亚洲视频| 亚洲日本va午夜在线电影| 国产日产欧美a一级在线| 久久精品国产亚洲一区二区| 亚洲二区在线| 久久精品免费播放| 久久综合给合久久狠狠狠97色69| 免费观看久久久4p| 久久久99久久精品女同性| 亚洲国产成人精品久久| 欧美成在线视频| 一本色道久久88精品综合| 欧美一区二区免费视频| 好看的亚洲午夜视频在线| 午夜精品福利在线观看| 亚洲欧洲在线免费| 欧美一级片在线播放| 亚洲国产精品精华液2区45| 欧美三区在线| 欧美日韩不卡| 男女av一区三区二区色多| 国产精品日韩电影| 欧美精品v国产精品v日韩精品| 亚洲一区二区三区四区五区黄| 麻豆精品一区二区av白丝在线| 日韩视频在线免费| 国产日韩欧美黄色| 国产精品亚洲综合一区在线观看 | 合欧美一区二区三区| 美女日韩在线中文字幕| 午夜精品一区二区三区在线| 亚洲精品女av网站| 欧美经典一区二区| 欧美高清你懂得| 久久久精品国产免大香伊| 99re66热这里只有精品4| 亚洲日本乱码在线观看| 91久久精品美女高潮| 亚洲国产精品99久久久久久久久| 国产午夜一区二区三区| 国产精品久久毛片a| 国产欧美激情| 亚洲精品免费电影| 亚洲午夜精品一区二区| 午夜精品福利一区二区蜜股av| 亚洲一区二区三区免费视频| 久久激情中文| 欧美日韩国产影院| 欧美成人午夜77777| 国产精品视频午夜| 在线观看亚洲视频| 亚洲一区二区三区中文字幕在线 | 欧美不卡一区| 国产精品久久久对白| 黄色成人av网| 亚洲午夜91| 久久视频这里只有精品| 国产精品日日摸夜夜摸av| 欧美四级剧情无删版影片| 国产亚洲一级高清| 中文av一区特黄| 欧美一区二区三区日韩| 国产精品视频网| 亚洲黄色毛片| 国产精品亚洲成人| 免费不卡中文字幕视频| 国产精品九色蝌蚪自拍| 免费黄网站欧美| 欧美精品午夜视频| 久久久久久久久久久久久久一区| 日韩视频免费看| 国产一区二区三区自拍| 欧美专区中文字幕| 欧美精品一区二区三区四区| 一本色道久久综合亚洲精品婷婷 | 欧美精品一区二区三区四区| 亚洲国产精品va在看黑人| 日韩午夜中文字幕| 亚洲天堂av图片| 国内精品一区二区三区| 一区二区免费在线观看| 欧美破处大片在线视频| 亚洲美女中出| 米奇777在线欧美播放| 久久精品主播| 国产精品99免视看9| 久久精品国产亚洲一区二区三区| 亚洲欧美日韩国产| 99综合在线| 欧美三级网页| 亚洲福利视频一区| 欧美精彩视频一区二区三区| 欧美亚洲自偷自偷| 国产精品久久久久久妇女6080| 美玉足脚交一区二区三区图片| 国产亚洲aⅴaaaaaa毛片| 在线视频你懂得一区二区三区| 亚洲精品视频中文字幕| 久久最新视频| 亚洲人成网站777色婷婷| 一区二区免费在线观看| 亚洲福利在线观看| 亚洲天堂免费观看| 国产一区二区主播在线| 亚洲精品国产精品国产自| 亚洲一区二区三区在线观看视频 | 亚洲视频网在线直播| 欧美日韩国产区一| 亚洲私人影吧| 久久久久久穴| 宅男噜噜噜66一区二区66| 国产精品性做久久久久久| 亚洲福利免费| 欧美午夜精品久久久| 一区二区成人精品| 久久精品视频一| 一本色道久久综合亚洲91| 久久综合给合久久狠狠色| 欧美电影免费观看| 欧美一区二区| 亚洲欧美日韩精品久久| 亚洲国产精品成人综合色在线婷婷| 老司机精品福利视频| 久久国产一二区| 蜜桃精品一区二区三区| 欧美视频日韩视频在线观看| 麻豆av一区二区三区久久| 国产精品美女视频网站| 最新国产乱人伦偷精品免费网站| 亚洲日本成人| 黄色一区二区三区| 国产精品成人午夜| 国产精品日韩欧美一区二区三区| 欧美日韩综合视频网址| 国产日韩亚洲欧美| 99精品视频免费全部在线| 久久爱www久久做| 亚洲大胆在线| 久久久精品国产一区二区三区| 欧美sm重口味系列视频在线观看| 欧美久久久久久久| 欧美激情亚洲国产| 老司机午夜精品| 国产伦精品一区二区三区四区免费 | 这里只有精品在线播放| 欧美日韩性视频在线| 免费成人小视频| 久久精品亚洲精品国产欧美kt∨| 久久精品国产综合精品| 乱中年女人伦av一区二区| 欧美成人高清视频| 国产精品99久久久久久久久| 蜜桃av综合| 欧美成人日韩| 91久久在线视频| 欧美日韩国产综合久久| 9l视频自拍蝌蚪9l视频成人| 亚洲一区二区三区高清 | 美女主播视频一区| 亚洲第一中文字幕在线观看| 欧美+日本+国产+在线a∨观看| 欧美激情影音先锋| 一区二区三区产品免费精品久久75| 欧美日韩一区二区三区视频| 亚洲综合国产| 欧美大成色www永久网站婷| 99精品福利视频| 欧美日韩一区二区精品| 亚洲欧美日韩人成在线播放| 亚洲私人影院在线观看| 欧美激情小视频| 夜夜嗨一区二区| 亚洲欧美日韩国产中文在线| 国产精品香蕉在线观看| 久久精品一区四区| 亚洲精品久久久久| 亚洲欧美日本日韩| 91久久精品美女| 国产精品国产三级国产aⅴ浪潮| 欧美一区二区在线| 亚洲国产精品一区制服丝袜| 欧美一级成年大片在线观看| 91久久一区二区| 国产一区二区精品丝袜| 欧美成人性生活| 久久精品中文字幕一区二区三区| 99精品欧美一区二区蜜桃免费| 久久久精品一区二区三区| 亚洲精品欧洲精品| 国产亚洲欧美一区在线观看| 欧美日韩亚洲成人| 另类春色校园亚洲| 久久国产主播精品| 亚洲手机成人高清视频| 亚洲精品一区二区在线| 美女精品视频一区| 久久精品动漫| 午夜精品偷拍| 一本色道久久综合亚洲精品不卡 |