青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

Javen-Studio 咖啡小屋

http://javenstudio.org - C++ Java 分布式 搜索引擎
Naven's Research Laboratory - Thinking of Life, Imagination of Future

  C++博客 :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理 ::
  24 隨筆 :: 57 文章 :: 170 評論 :: 4 Trackbacks
 

1           什么是索引

為了使用Lucene來索引數據,首先你得把它轉換成一個純文本(plain-texttokens的數據流(stream),并通過它創建出Document對象,其包含的Fields成員容納這些文本數據。一旦你準備好些Document對象,你就可以調用IndexWriter類的addDocument(Document)方法來傳遞這些對象到Lucene并寫入索引中。當你做這些的時候,Lucene首先分析(analyzer)這些數據來使得它們更適合索引。詳見《Lucene In Action

 

 

下面先了解一下索引結構的一些術語。

1.1       索引數據結構介紹

1.1.1    術語定義

Lucene中基本的概念(fundamental concepts)是indexDocumentFieldterm

1            一條索引(index)包含(contains)了一連串(a sequence of)文檔(documents)。

2            一個文檔(document)是由一連串fields組成。

3            一個field是由一連串命名了(a named sequence of)的terms組成。

4            一個term是一個string(字符串)。

相同的字符串(same string)但是在兩個不同的fields中被認為(considered)是不同的term。因此(thusterm被描述為(represent as)一對字符串(a pair of strings),第一個string取名(naming)為該field的名字,第二個string取名為包含在該field中的文本(text within the field)。

1.1.2    倒排索引(inverted indexing

索引(index)存儲terms的統計數據(statistics about terms),為了使得基于term的檢索(term-based search)效率更高(more efficient)。Lucene的索引分成(fall into)被廣為熟悉的(known as)索引種類(family of indexex)叫做倒排索引(inverted index)。這是因為它可以列舉(list),對一個term來說,所有包含它的文檔(documents that contain it)。這與自然關聯規則(natural relationship)是相反,即由documents列舉它所包含的terms

1.1.3    Fields的種類

Lucene中,fields可以被存儲(stored),在這種情況(in which case)下它們的文本被逐字地(literally)以一種非倒排的方式(in non-inverted manner)存儲進index中。那些被倒排的fieldsthat are inverted)稱為(called)被索引(indexed)。一個field可以都被存儲(stored)并且被索引(indexed)。

一個field的文本可以被分解為(be tokenized intoterms以便被索引(indexed),或者field的文本可以被逐字地使用為(used literally as)一個term來被索引(be indexed)。大多數fields被分解(be tokenized),但是有時候對某種唯一性(certain identifier)的field來逐字地索引(be indexed literally)又是非常有用的,如url

1.1.4    片斷(segments

Lucene的索引可以由多個復合的子索引(multiple sub-indexes)或者片斷(segments)組成(be composed of)。每一個segment都是一個完全獨立的索引(fully independent index),它能夠被分離地進行檢索(be searched seperately)。索引按如下方式進行演化(evolve):

1.          為新添加的文檔(newly added documents)創建新的片斷(segments)。

2.          合并已存在的片斷(merging existing segments)。

檢索可以涉及(involve)多個復合(multiple)的segments,并且/或者多個復合(multiple)的indexes。每一個index潛在地(potentially)包含(composed of)一套(a set ofsegments

1.1.5    文檔編號(document numbers

在內部(internally),Lucene通過一個整數的(interger)文檔編號(document number)來表示文檔。第一篇被添加到索引中的文檔編號為0be numbered zero),每一篇隨后(subsequent)被添加的document獲得一個比前一篇更大的數字(a number one greater than the previous)。

需要注意的是一篇文檔的編號(document’s number)可以更改,所以在Lucene之外(outside of)存儲這些編號時需要特別小心(caution should be taken)。詳細地說(in particular),編號在如下的情況(following situations)可以更改:

1            存儲在每個segment中的編號僅僅是在所在的segment中是唯一的(unique),在它能夠被使用在(be used in)一個更大的上下文(a larger context)中前必須被轉變(converted)。標準的技術(standard technique)是給每一個segment分配(allocate)一個范圍的值(a range of values),基于該segment所使用的編號的范圍(the range of numbers)。為了將一篇文檔的編號從一個segment轉變為一個擴展的值(an external value),該片斷的基礎的文檔編號(base document number)被添加(is added)。為了將一個擴展的值(external value)轉變回一個segment的特定的值(specific value),該segment將該擴展的值所在的范圍標識出來(be indentified),并且該segment的基礎值(base value)將被減少(substracted)。例如,兩個包含5篇文檔的segments可能會被合并(combined),所以第一個segment有一個基礎的值(base value)為0,第二個segment則為5。在第二個segment中的第3篇文檔(document three from the second segment)將有一個擴展的值為8

2            當文檔被刪除的時候,在編號序列中(in the numbering)將產生(created)間隔段(gaps)。這些最后(eventually)在索引通過合并演進時(index evolves through merging)將會被清除(removed)。當segments被合并后(merged),已刪除的文檔將會被丟棄(dropped),一個剛被合并的(freshly-mergedsegment因此在它的編號序列中(in its numbering)不再有間隔段(gaps)。

 

1.1.6    索引結構概述

每一個片斷的索引(segment index)管理(maintains)如下的數據:

1            Fields名稱:這包含了(contains)在索引中使用的一系列fields的名稱(the set of field names)。

2            已存儲的field的值:它包含了,對每篇文檔來說,一個屬性-值數據對(attribute-value pairs)的清單(a list of),其中屬性即為field的名字。這些被用來存儲關于文檔的備用信息(auxiliary information),比如它的標題(title)、url、或者一個訪問一個數據庫(database)的唯一標識(identifier)。這套存儲的fields就是那些在檢索時對每一個命中的(hits)文檔所返回的(returned)信息。這些是通過文檔編號(document number)來做為key得到的。

3            Term字典(dictionary):一個包含(contains)所有terms的字典,被使用在所有文檔中所有被索引的fields中。它還包含了該term所在的文檔的數目(the number of documents which contains the term),并且指向了(pointer toterm的頻率(frequency)和接近度(proximity)的數據(data)。

4            Term頻率數據(frequency data):對字典中的每一個term來說,所有包含該termcontains the term)的文檔的編號(numbers of all documents),以及該term出現在該文檔中的頻率(frequency)。

5            Term接近度數據(proximity data):對字典中的每一個term來說,該term出現在(occur)每一篇文檔中的位置(positions)。

6            調整因子(normalization factors):對每一篇文檔的每一個field來說,為一個存儲的值(a value is stored)用來加入到(multiply into)命中該field的分數(score for hits on that field)中。

7            Term向量(vectors):對每一篇文檔的每一個field來說,term向量(有時候被稱做文檔向量)可以被存儲。一個term向量由term文本和term的頻率(frequency)組成(consists of)。怎么添加term向量到你的索引中請參考Field類的構造方法(constructors)。

8            刪除的文檔(deleted documents):一個可選的(optional)文件標示(indicating)哪一篇文檔被刪除。

 

關于這些項的詳細信息在隨后的章節(subsequent sections)中逐一介紹。

1.1.7    索引文件中定義的數據類型

數據類型

所占字節長度(字節)

說明

Byte

1

基本數據類型,其他數據類型以此為基礎定義

UInt32

4

32位無符號整數,高位優先

UInt64

8

64位無符號整數,高位優先

VInt

不定,最少1字節

動態長度整數,每字節的最高位表明還剩多少字節,每字節的低七位表明整數的值,高位優先。可以認為值可以為無限大。其示例如下

字節1

字節2

字節3

0

00000000

 

 

1

00000001

 

 

2

00000010

 

 

127

01111111

 

 

128

10000000

00000001

 

129

10000001

00000001

 

130

10000010

00000001

 

16383

10000000

10000000

00000001

16384

10000001

10000000

00000001

16385

10000010

10000000

00000001

 

Chars

不定,最少1字節

采用UTF-8編碼[20]Unicode字符序列

String

不定,最少2字節

VIntChars組成的字符串類型,VInt表示Chars的長度,Chars則表示了String的值

 

1.1.8    每個索引所包含的文件

本節介紹的文件存在于每個索引中(exist one-per-index),下圖描述索引中的文件及組成結構:

 

1.1.8.1 Segments文件

索引中活動(active)的Segments被存儲在segment info文件中,segments_N,在索引中可能會包含一個或多個segments_N文件。然而,最大一代的那個文件(the one with largest generation)是活動的片斷文件(這時更舊的segments_N文件依然存在(are present)是因為它們暫時(temporarily)還不能被刪除,或者,一個writer正在處理提交請求(in the process of committing),或者一個用戶定義的(customIndexDeletionPolicy正被使用)。這個文件按照名稱列舉每一個片斷(lists each segment by name),詳細描述分離的標準(seperate norm)和要刪除的文件(deletion files),并且還包含了每一個片斷的大小。

2.1版本來說,還有一個文件segments.gen。這個文件包含了該索引中當前生成的代(current generation)(segments_N中的_N)。這個文件僅用于一個后退處理(fallback)以防止(in case)當前代(current generation)不能被準確地(accurately)通過單獨地目錄文件列舉(by directory listing alone)來確定(determened)(由于某些NFS客戶端因為基于時間的目錄(time-based directory)的緩存終止(cache expiration)而引起)。這個文件簡單地包含了一個int32的版本頭(version header)(SegmentInfos.FORMAT_LOCKLESS=-2),遵照代的記錄(followed by the generation recorded)規則,對int64來說會寫兩次(write twice)。

 

版本

Segments包含的項

數目

類型

描述

2.1之前版本

Format

1

Int32

Lucene1.4中為-1,而在Lucene 2.1中為-3SegmentsInfos.FORMAT_SINGLE_NORM_FILE

Version

1

Int64

統計在刪除和添加文檔時,索引被更改了多少次。

NameCounter

1

Int32

用于為新的片斷文件生成新的名字。

SegCount

1

Int32

片斷的數目

SegName

SegCount

String

片斷的名字,用于所有構成片斷索引的文件的文件名前綴。

SegSize

SegCount

Int32

包含在片斷索引中的文檔的數目。

2.1及之后版本

Format

1

Int32

同上

Version

1

Int64

同上

NameCounter

1

Int32

同上

SegCount

1

Int32

同上

SegName

SegCount

String

同上

SegSize

SegCount

Int32

同上

DelGen

SegCount

Int64

為分離的刪除文件的代的數目(generation count of the separate deletes file),如果值為-1,表示沒有分離的刪除文件。如果值為0,表示這是一個2.1版本之前的片斷,這時你必須檢查文件是否存在_X.del這樣的文件。任意大于0的值,表示有分離的刪除文件,文件名為_X_N.del

HasSingleNormFile

SegCount

Int8

該值如果為1,表示Norm域(field)被寫為一個單一連接的文件(single joined file)中(擴展名為.nrm),如果值為0,表示每一個fieldnorms被存儲為分離的.fN文件中,參考下面的“標準化因素(Normalization Factors)”

NumField

SegCount

Int32

表示NormGen數組的大小,如果為-1表示沒有NormGen被存儲。

NormGen

SegCount * NumField

Int64

記錄分離的標準文件(separate norm file)的代(generation),如果值為-1,表示沒有normGens被存儲,并且當片斷文件是2.1之前版本生成的時,它們全部被假設為0assumed to be 0)。而當片斷文件是2.1及更高版本生成的時,它們全部被假設為-1。這時這個代(generation)的意義與上面DelGen的意義一樣。

IsCompoundFile

SegCount

Int8

記錄是否該片斷文件被寫為一個復合的文件,如果值為-1表示它不是一個復合文件(compound file),如果為1則為一個復合文件。另外如果值為0,表示我們需要檢查文件系統是否存在_X.cfs

 

1.1.8.2 Lock文件

寫鎖(write lock)文件名為“write.lock”,它缺省存儲在索引目錄中。如果鎖目錄(lock directory)與索引目錄不一致,寫鎖將被命名為“XXXX-write.lock”,其中“XXXX”是一個唯一的前綴(unique prefix),來源于(derived from)索引目錄的全路徑(full path)。當這個寫鎖出現時,一個writer當前正在修改索引(添加或者清除文檔)。這個寫鎖確保在一個時刻只有一個writer修改索引。

需要注意的是在2.1版本之前(prior to),Lucene還使用一個commit lock,這個鎖在2.1版本里被刪除了。

1.1.8.3 Deletable文件

Lucene 2.1版本之前,有一個“deletable”文件,包含了那些需要被刪除文檔的詳細資料。在2.1版本后,一個writer會動態地(dynamically)計算哪些文件需要刪除,因此,沒有文件被寫入文件系統。

posted on 2007-06-13 01:37 Javen-Studio 閱讀(1064) 評論(0)  編輯 收藏 引用

只有注冊用戶登錄后才能發表評論。
網站導航: 博客園   IT新聞   BlogJava   博問   Chat2DB   管理


青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            欧美自拍偷拍午夜视频| 欧美1区2区3区| 一本久道久久久| 久久精品免费电影| 久久久久国产精品一区三寸 | 国语自产精品视频在线看8查询8| 这里只有精品电影| 欧美伊久线香蕉线新在线| 国产精品一区二区久激情瑜伽| 亚洲一区黄色| 亚洲国产mv| 亚洲无线视频| 欧美99久久| 国产精品国产a级| 麻豆精品一区二区av白丝在线| 免费久久久一本精品久久区| 国产一区二区0| 欧美日韩xxxxx| 久久婷婷国产麻豆91天堂| 亚洲电影免费观看高清完整版在线观看| 久久精品国产一区二区三区免费看| 韩日在线一区| 一本色道久久综合亚洲二区三区| 国产自产在线视频一区| 欧美日韩三级电影在线| 欧美成在线观看| 久久天天狠狠| 国产精品久在线观看| 欧美裸体一区二区三区| 欧美久久精品午夜青青大伊人| 欧美午夜不卡| 国产精品初高中精品久久| 伊人狠狠色j香婷婷综合| 国产一区二区三区久久悠悠色av| 亚洲人成在线播放网站岛国| 亚洲精品美女在线观看| 亚洲区在线播放| 欧美在线在线| 欧美在线影院在线视频| 欧美亚洲午夜视频在线观看| 欧美在线免费观看| 国产精品网站在线观看| 国产精品日韩久久久| 亚洲最新视频在线播放| 国产精品视频yy9299一区| 亚洲视频播放| 一区二区三区精品国产| 午夜欧美不卡精品aaaaa| 久久久久久久999| 久久九九久精品国产免费直播| 国产亚洲一区二区三区在线观看 | 乱码第一页成人| 日韩手机在线导航| 亚洲欧美日韩久久精品| 老色批av在线精品| 国产精品一区二区在线观看网站| 久久精品女人的天堂av| 狼狼综合久久久久综合网 | 国产欧美精品日韩区二区麻豆天美 | 国产嫩草影院久久久久| 久久中文字幕导航| 午夜精品视频在线观看| 欧美人交a欧美精品| 久久一综合视频| 国产精品久久波多野结衣| 欧美激情一区二区三区高清视频| 日韩一级片网址| 亚洲国产精品专区久久| 久久先锋资源| 国产一区二区三区四区| 性色av一区二区三区在线观看| 日韩视频一区二区三区| 一区二区三区在线免费视频| 欧美久久九九| 亚洲国产婷婷综合在线精品 | 久久综合久久综合九色| 久久精品国产一区二区三| 国产精品一区二区三区观看| 日韩亚洲欧美在线观看| 亚洲影院色无极综合| 亚洲欧美成人在线| 亚洲大片在线| 亚洲视频综合| 亚洲国产精品欧美一二99| 99视频精品在线| 亚洲图片在区色| 国产嫩草影院久久久久| 久久久综合视频| 午夜精品福利在线观看| 国产综合精品| 欧美日韩国产不卡| 欧美一区激情| 亚洲人成高清| 亚洲激情专区| 国产精品剧情在线亚洲| 蜜臀久久久99精品久久久久久| 亚洲免费高清| 久久嫩草精品久久久久| 欧美日韩一区在线观看视频| 亚洲一级黄色| 亚洲精品久久在线| 欧美一区1区三区3区公司| 在线国产精品一区| 国产精品色网| 欧美视频一区二区在线观看 | 99热这里只有成人精品国产| 美女成人午夜| 久久久噜噜噜久久| 亚洲欧美激情一区| 日韩午夜av| 亚洲美女免费视频| 亚洲精品国产拍免费91在线| 香港成人在线视频| 欧美视频1区| 国产精品露脸自拍| 欧美日韩专区在线| 国产精品v日韩精品v欧美精品网站| 免费成人性网站| 欧美视频一区在线观看| 欧美性猛交xxxx乱大交蜜桃| 国产精品久久波多野结衣| 国产真实乱偷精品视频免| 亚洲丶国产丶欧美一区二区三区| 亚洲丁香婷深爱综合| 亚洲国产欧美一区二区三区同亚洲 | 欧美成人免费一级人片100| 国产精品二区影院| 欧美日韩国产亚洲一区| 国产精品国产三级国产| 国语精品中文字幕| 亚洲视频在线视频| 久久综合伊人77777麻豆| 91久久中文字幕| 麻豆久久精品| 毛片av中文字幕一区二区| 欧美激情五月| 久久久久久一区二区| 蜜臀av在线播放一区二区三区| 国产精品成人一区二区三区吃奶| 在线成人免费观看| 久久久xxx| 欧美影院在线播放| 国产精品美女www爽爽爽视频| 国内精品视频666| 久久精品国产一区二区三区免费看 | 国产伦精品一区二区三区视频孕妇 | 午夜精品三级视频福利| 欧美—级在线免费片| 久久精品理论片| 国产精品欧美一区二区三区奶水| 99av国产精品欲麻豆| av成人福利| 欧美激情片在线观看| 美国十次成人| 亚洲高清资源| 亚洲精品乱码久久久久久日本蜜臀| 久久精品国产免费看久久精品| 久久精品国产亚洲a| 国产中文一区| 亚洲国产aⅴ天堂久久| 久久婷婷国产综合精品青草| 狠狠色噜噜狠狠色综合久| 麻豆成人精品| 欧美福利影院| 国产自产高清不卡| 麻豆91精品| 国产精品成人午夜| 鲁大师影院一区二区三区| 欧美日韩精品欧美日韩精品 | 亚洲精品国产视频| 亚洲性xxxx| 亚洲美女免费精品视频在线观看| 午夜精品久久| 欧美福利视频在线| 久久三级福利| 亚洲激情电影在线| 国产精品久久久久久久免费软件| 久久精品国产91精品亚洲| 欧美女人交a| 美女国产精品| 激情五月婷婷综合| 亚欧成人在线| 欧美在线免费| 国产日韩欧美一区二区三区在线观看 | 亚洲欧美在线x视频| 免费不卡在线观看| 免费在线亚洲欧美| 久久综合久久综合这里只有精品 | 欧美理论电影在线播放| 蜜桃av综合| 亚洲人成在线播放| 免费一区二区三区| 亚洲欧洲三级| 亚洲字幕一区二区| 国产欧美在线播放| 久久国产精品72免费观看| 久久视频一区| 日韩小视频在线观看专区| 欧美日韩国产综合视频在线观看| 亚洲国产日韩综合一区|