程序描繪人生
知識改變命運，學習成就未來。

隨筆 - 89 文章 - 118 trackbacks - 0

<

2025年11月

>

日

一

二

三

四

五

六

26

27

28

29

30

31

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

1

2

3

4

5

6

留言簿(16)

隨筆分類(56)

隨筆檔案(89)

文章分類

推薦博客

在你身邊
胡滿超的非技術博客

搜索

閱讀排行榜

這就是搜索引擎－筆試4-索引壓縮

詞典壓縮：減小詞典的內存占用

好的壓縮算法：壓縮率，壓縮速度，解壓速度（最重要）

一元編碼

1	0
2	10
3	110
4	1110
5	11110

Elias Gamma:

x=2^e+d

e+1:一元編碼

d:二元編碼

Elias Delta:

x=2^e+d

e+1:再使用Elias Gamma編碼一次

d:二元編碼

Golomb & Rice

因子1=(X-1)/b，因子1+1，一元編碼

因子2=(X-1) mod b，使用二元編碼，編碼寬度在log(b)

Golomb: b=0.69*Avg(序列平均值)

Rice：2的整數(shù)次冪，所有小于Avg中最接近Avg的數(shù)值

變長壓縮算法SimpleX

Simple9: 32位比特位，4個比特為管理數(shù)據(jù)存儲區(qū)，28個比特壓縮數(shù)據(jù)存儲區(qū)

Simple9的28位有9種表示形式

Simple16: 28位有16種表示形式，并且通過非當項完全固定長度，解決數(shù)據(jù)區(qū)有浪費位的情況

PForDelta：目前解壓速度最快的一種倒排文件壓縮算法

1，對待編碼的連續(xù)K個數(shù)值（一般為128），確定10%的大數(shù)數(shù)值，根據(jù)70%小數(shù)確定奪取的比特寬度，確定整個序列

2，對原始數(shù)據(jù)遍歷，將大數(shù)放置到尾端，并轉換成鏈表結構的序列

3、將所有數(shù)字壓縮到隊列中

文檔編號重排序

網(wǎng)頁的文檔ID+單詞詞頻信息，文檔ID使用D-Gap進行編碼

將內容越相似的網(wǎng)頁，在編排文檔號時越相鄰

海量數(shù)據(jù)文本聚類速度較慢，將URL相似的網(wǎng)頁聚合在一起，假設同一個網(wǎng)站的很多頁面表達的主題內容是近似的

靜態(tài)索引裁剪：主動拋棄一部分不重要的信息（索引項）來達到數(shù)據(jù)壓縮的效果

以單詞為中心的索引裁剪：

判斷單詞與文檔的相似性，每個詞典中的單詞，其對應的倒排排列中至少保留K個索引項，還要保留若干富余項目

實驗證明，如果首先對所有索引項的原始得分減去得分最低索引項的得分，再采?。▽個項進行折扣，乘一個折扣因子，得出閾值a，剩下的大于a保留）方法進行裁剪，效果會大大提升

因為

索引項得分分差相關不大，比較集中在某個區(qū)間，所以減掉得分最低項

以文檔為中心的索引裁剪：更為常用

在建立索引之前進行數(shù)據(jù)預處理，把與文檔主題表達不相關的單詞拋棄，如停用詞

posted on 2013-11-04 12:56 胡滿超閱讀(891) 評論(0) 編輯收藏引用所屬分類: 搜索引擎

只有注冊用戶登錄后才能發(fā)表評論。


相關文章: 深入淺出LSH 這就是搜索引擎－筆試6-鏈接分析這就是搜索引擎－筆試5-檢索模型與搜索排序這就是搜索引擎－筆試4-索引壓縮這就是搜索引擎－筆試3-搜索引擎索引這就是搜索引擎－筆試2 這就是搜索引擎－筆試1 轉: 怎樣量化評價搜索引擎的結果質量

網(wǎng)站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品