• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            學(xué)著站在巨人的肩膀上

            金融數(shù)學(xué),InformationSearch,Compiler,OS,

              C++博客 :: 首頁(yè) :: 新隨筆 :: 聯(lián)系 :: 聚合  :: 管理 ::
              12 隨筆 :: 0 文章 :: 8 評(píng)論 :: 0 Trackbacks

            通過(guò)前面的三篇文章相信你已經(jīng)對(duì)神秘的搜索引擎有了一個(gè)感性的認(rèn)識(shí),和普通的php類似的腳本語(yǔ)言服務(wù)器類似,通過(guò)獲取前臺(tái)關(guān)鍵字,通過(guò)字典分詞,和事先建立建立好的倒排索引進(jìn)行相關(guān)性分析,得出查詢結(jié)構(gòu)格式化輸出結(jié)果。而這里的技術(shù)難點(diǎn)在于

            1、字典的選取(事實(shí)上根據(jù)不同時(shí)代不同地方人們的語(yǔ)言習(xí)慣是不一樣的所以說(shuō)字典的最小元的取值是不同的)

            2、倒排索引的建立(這里就要涉及到爬蟲(chóng)的抓取和索引的建立后面將重點(diǎn)介紹這2點(diǎn),搜索引擎的效率和服務(wù)質(zhì)量實(shí)效性瓶頸在這里)

            3、相關(guān)性分析(對(duì)抓回來(lái)的文檔分詞建索引和用戶關(guān)鍵字分詞算法上要對(duì)應(yīng))

            后面文章會(huì)重點(diǎn)介紹爬蟲(chóng)的抓取和索引的建立。

            posted on 2009-12-10 22:54 學(xué)者站在巨人的肩膀上 閱讀(996) 評(píng)論(0)  編輯 收藏 引用 所屬分類: 中文文本信息處理

            只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。
            網(wǎng)站導(dǎo)航: 博客園   IT新聞   BlogJava   博問(wèn)   Chat2DB   管理


            中文字幕一区二区三区久久网站 | 久久久久久国产a免费观看不卡 | 狠狠色婷婷久久一区二区| 久久久久人妻一区二区三区| 99久久精品国产一区二区| 久久国产成人精品麻豆| 香蕉99久久国产综合精品宅男自 | 欧美色综合久久久久久| 麻豆精品久久久久久久99蜜桃 | 亚洲精品无码久久久久AV麻豆| 囯产精品久久久久久久久蜜桃| 久久午夜电影网| 中文字幕日本人妻久久久免费| 久久亚洲国产欧洲精品一| 久久亚洲中文字幕精品一区| 91精品国产91久久| 久久久久亚洲av无码专区 | 久久久久无码中| 色诱久久av| 伊人久久亚洲综合影院| 97久久香蕉国产线看观看| 亚洲国产欧洲综合997久久| 久久国语露脸国产精品电影| 国产香蕉久久精品综合网| 国产三级精品久久| 人妻无码久久精品| 模特私拍国产精品久久| 亚洲人成伊人成综合网久久久| 亚洲国产精品无码久久一线| 东京热TOKYO综合久久精品| 久久婷婷久久一区二区三区| 久久精品国产清自在天天线| 久久久无码精品亚洲日韩京东传媒 | 伊人久久亚洲综合影院| 久久久久久久波多野结衣高潮 | 蜜臀av性久久久久蜜臀aⅴ| 国产精品久久久久久久久免费| 久久伊人影视| 久久九九全国免费| 久久国产精品77777| 一本大道久久东京热无码AV|