學著站在巨人的肩膀上

金融數學,InformationSearch,Compiler,OS,

C++博客 :: 首頁 :: 新隨筆 :: 聯系 :: 聚合

:: 管理 ::

12 隨筆 :: 0 文章 :: 8 評論 :: 0 Trackbacks

<

2009年12月

>

日

一

二

三

四

五

六

29

30

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

6

7

8

9

公告

發布經典原創文章

常用鏈接

留言簿(1)

隨筆分類

中文文本信息處理(9) (rss)

隨筆檔案

搜索

閱讀排行榜

評論排行榜

自頂向下學搜索引擎——北大天網搜索引擎TSE分析及完全注釋[4]小結

通過前面的三篇文章相信你已經對神秘的搜索引擎有了一個感性的認識，和普通的php類似的腳本語言服務器類似，通過獲取前臺關鍵字，通過字典分詞，和事先建立建立好的倒排索引進行相關性分析，得出查詢結構格式化輸出結果。而這里的技術難點在于

1、字典的選取（事實上根據不同時代不同地方人們的語言習慣是不一樣的所以說字典的最小元的取值是不同的）

2、倒排索引的建立（這里就要涉及到爬蟲的抓取和索引的建立后面將重點介紹這2點，搜索引擎的效率和服務質量實效性瓶頸在這里）

3、相關性分析（對抓回來的文檔分詞建索引和用戶關鍵字分詞算法上要對應）

后面文章會重點介紹爬蟲的抓取和索引的建立。

posted on 2009-12-10 22:54 學者站在巨人的肩膀上閱讀(1004) 評論(0) 編輯收藏引用所屬分類: 中文文本信息處理

只有注冊用戶登錄后才能發表評論。
【推薦】100%開源！大型工業跨平臺軟件C++源碼提供，建模，組態！

相關文章: 自頂向下學搜索引擎——北大天網搜索引擎TSE分析及完全注釋[6]倒排索引的建立的程序分析(4) 自頂向下學搜索引擎——北大天網搜索引擎TSE分析及完全注釋[6]倒排索引的建立的程序分析(3) 自頂向下學搜索引擎——北大天網搜索引擎TSE分析及完全注釋[6]倒排索引的建立的程序分析(2) 自頂向下學搜索引擎——北大天網搜索引擎TSE分析及完全注釋[6]倒排索引的建立的程序分析(1) 自頂向下學搜索引擎——北大天網搜索引擎TSE分析及完全注釋[5]倒排索引的建立及文件介紹自頂向下學搜索引擎——北大天網搜索引擎TSE分析及完全注釋[4]小結自頂向下學搜索引擎——北大天網搜索引擎TSE分析及完全注釋[3]來到關鍵字分詞及相關性分析程序自頂向下學搜索引擎——北大天網搜索引擎TSE分析及完全注釋[2]路過查詢處理程序自頂向下學搜索引擎——北大天網搜索引擎TSE分析及完全注釋[1]尋找搜索引擎入口

網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品