青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

Javen-Studio 咖啡小屋

http://javenstudio.org - C++ Java 分布式 搜索引擎
Naven's Research Laboratory - Thinking of Life, Imagination of Future

  C++博客 :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理 ::
  24 隨筆 :: 57 文章 :: 170 評論 :: 4 Trackbacks

Annotated Lucene(中文版)

Annotated Lucene 作者:naven


3           索引類關系圖

下面逐個介紹與建立索引有關的一些類及它們的關系。 

 

3.1      org.apache.lucene.store.IndexWriter

一個IndexWriter對象只創建并維護一個索引。IndexWriter通過指定存放的目錄(Directory)以及文檔分析器(Analyzer)來構建,direcotry代表索引存儲(resides)在哪里;analyzer表示如何來分析文檔的內容;similarity用來規格化(normalize)文檔,給文檔算分(scoring);IndexWriter類里還有一些SegmentInfos對象用于存儲索引片段信息,以及發生故障回滾等。以下是它們的類圖:


 

3.2       org.apache.lucene.store.Directory

一個Directory對象是一系列統一的文件列表(a flat list of files)。文件可以在它們被創建的時候一次寫入,一旦文件被創建,它再次打開后只能用于讀?。?/span>read)或者刪除(delete)操作。并且同時在讀取和寫入的時候允許隨機訪問(random access)。

在這里并不直接使用Java I/O API,但是更確切地說,所有I/O操作都是通過這個API處理的。這使得讀寫操作方式更統一起來,如基于內存的索引(RAM-based indices)的實現(即RAMDirectory)、通過JDBC存儲在數據庫中的索引、將一個索引存儲為一個文件的實現(即FSDirectory)。

Directory的鎖機制是一個LockFactory的實例實現的,可以通過調用Directory實例的setLockFactory()方法來更改。


 

3.3       org.apache.lucene.store.FSDirectory

FSDirectory類直接實現Directory抽象類為一個包含文件的目錄。目錄鎖的實現使用缺省的SimpleFSLockFactory,但是可以通過兩種方式修改,即給getLockFactory()傳入一個LockFactory實例,或者通過調用setLockFactory()方法明確制定LockFactory類。

目錄將被緩存(cache)起來,對一個指定的符合規定的路徑(canonical path)來說,同樣的FSDirectory實例通常通過getDirectory()方法返回。這使得同步機制(synchronization)能對目錄起作用。


 

3.4       org.apache.lucene.store.RAMDirectory

RAMDirectory類是一個駐留內存的(memory-residentDirectory抽象類的實現。目錄鎖的實現使用缺省的SingleInstanceLockFactory,但是可以通過setLockFactory()方法修改。

 

 

 

3.5       org.apache.lucene.store.IndexInput

IndexInput類是一個為了從一個目錄(Directory)中讀取文件的抽象基類,是一個隨機訪問(random-access)的輸入流(input stream),用于所有Lucene讀取Index的操作。BufferedIndexInput是一個實現了帶緩沖的IndexInput的基礎實現。


 

3.6       org.apache.lucene.store.IndexOutput

IndexOutput類是一個為了寫入文件到一個目錄(Directory)中的抽象基類,是一個隨機訪問(random-access)的輸出流(output stream),用于所有Lucene寫入Index的操作。BufferedIndexOutput是一個實現了帶緩沖的IndexOutput的基礎實現。RAMOuputStream是一個內存駐留(memory-resident)的IndexOutput的實現類。


 

3.7       org.apache.lucene.store.Analyzer

Analyzer類構建用于分析文本的TokenStream對象,因此(thus)它表示(represent)用于從文本中分解(extract)出組成索引的terms的一個規則器(policy)。典型的(typical)實現首先創建一個Tokenizer,它將那些從Reader對象中讀取字符流(stream of characters)打碎為(break into)原始的Tokensraw Tokens)。然后一個或更多的TokenFilters可以應用在這個Tokenizer的輸出上。警告:你必須在你的子類(subclass)中覆寫(override)定義在這個類中的其中一個方法,否則的話Analyzer將會進入一個無限循環(infinite loop)中。


 

3.8       org.apache.lucene.store.StandardAnalyzer

StandardAnalyzer類是使用一個Englishstop words列表來進行tokenize分解出文本中word,使用StandardTokenizer類分解詞,再加上StandardFilter以及LowerCaseFilter以及StopFilter這些過濾器進行處理的這樣一個Analyzer類的實現。


 

3.9       org.apache.lucene.search. Similarity

Similarity類實現算分(scoring)的API,它的子類實現了檢索算分的算法。DefaultSimilarity類是缺省的算分的實現,SimilarityDelegator類是用于委托算分(delegating scoring)的實現,在Query.getSimilarity(Searcher)}的實現里起作用,以便覆寫(override)一個SearcherSimilarity實現類的僅有的確定方法(certain methods)。



 

查詢q相對于文檔d的分數與在文檔和查詢向量(query vectors)之間的余弦距離(cosing-distance)或者點乘積(dot-product)有關系(correlates to),文檔和查詢向量存于一個信息檢索(Information Retrieval)的向量空間模型(Vector Space Model (VSM))之中。一篇文檔的向量與查詢向量越接近(closer to),它的得分也越高(scored higher),這個分數按如下公式計算:

 


 

其中:

1.          tf(t in d) term的出現次數(frequency)有關系(correlate to),定義為(defined asterm t在當前算分(currently scored)的文檔d中出現(appear in)的次數(number of times)。對一個給定(gived)的term,那些出現此term的次數越多(more occurences)的文檔將獲得越高的分數(higher score)。缺省的tf(t in d)算法實現在DefaultSimilarity類中,公式如下:


 

2.          idf(t) 代表(stand for)反轉文檔頻率(Inverse Document Frequency)。這個分數與反轉(inverse of)的docFreq(出現過term t的文檔數目)有關系。這個分數的意義是越不常出現(rarer)的term將為最后的總分貢獻(contribution)更多的分數。缺省idff(t in d)算法實現在DefaultSimilarity類中,公式如下:

 

3.          coord(q,d) 是一個評分因子,基于(based on)有多少個查詢terms在特定的文檔(specified document)中被找到。通常(typically),一篇包含了越多的查詢terms的文檔將比另一篇包含更少查詢terms的文檔獲得更高的分數。這是一個搜索時的因子(search time factor)是在搜索的時候起作用(in effect at search time),它在Similarity對象的coord(q,d)函數中計算。

4.          queryNorm(q) 是一個修正因子(normalizing factor),用來使不同查詢間的分數更可比較(comparable)。這個因子不影響文檔的排名(ranking)(因為搜索排好序的文檔(ranked document)會增加(multiplied)相同的因數(same factor)),更確切地說只是(but rather just)為了嘗試(attempt to)使得不同查詢條件(甚至不同索引(different indexes))之間更可比較性。這是一個搜索時的因子是在搜索的時候起作用,由Similarity對象計算。缺省queryNorm(q)算法實現在DefaultSimilarity類中,公式如下:

 

sumOfSquaredWeights(查詢的terms)是由查詢Weight對象計算的,例如一個布爾(boolean)條件查詢的計算公式為:

 

5.          t.getBoost() 是一個搜索時(search time)的代表查詢q中的term tboost數值,具體指定在(as specified in)查詢的文本中(參見查詢語法),或者由應用程序調用setBoost()來指定。需要注意的是實際上(really)沒有一個直接(direct)的API來訪問(accessing)一個多個term的查詢(multi term query)中的一個term boost值,更確切地說(but rather),多個termsmulti terms)在一個查詢里的表示形式(represent as)是多個TermQuery對象,所以查詢里的一個termboost值的訪問是通過調用子查詢(sub-query)的getBoost()方法實現的。

6.          norm(t,d) 是提煉取得(encapsulate)一小部分boost值(在索引時間)和長度因子(length factor):

ú            document boost 在添加文檔到索引之前通過調用doc.setBoost()來設置。

ú            Field boost 在添加Field到文檔之前通過調用field.setBoost()來設置。

ú            lengthNorm(field)在文檔添加到索引的時候,根據(in accordance with)文檔中該fieldtokens數目計算得出,所以更短(shorter)的field會貢獻更多的分數。lengthNorm是在索引的時候起作用,由Similarity類計算得出。

當一篇文檔被添加到索引的時候,所有上面計算出的因子將相乘起來(multiplied)。如果文檔擁有多個相同名字的fieldsmultiple fields with same name),所有這些fieldsboost值也會被一起相乘起來(multiplied together):

 

然而norm數值的結果在被存儲(stored)之前被編碼成(encoded as)一個單獨的字節(single byte)。在檢索的時候,這個norm字節值從索引目錄(index directory)中讀取出來,并解碼回(decoded back)一個norm浮點數值(float value)。這個編/解碼(encoding/decoding)行為,會縮減(reduce)索引的大小(index size),這得自于(come with)精度損耗的代價(price of precision loss- 它不保證decode(encode(x))=x,舉例來說decode(encode(0.89))=0.75。還有需要注意的是,檢索的時候再修改評分(scoring)的這個norm部分已近太遲了,例如,為檢索使用不同的Similarity。






Annotated Lucene 作者:naven 日期:2007-5-1

 

posted on 2007-05-05 01:57 Javen-Studio 閱讀(2521) 評論(0)  編輯 收藏 引用

只有注冊用戶登錄后才能發表評論。
網站導航: 博客園   IT新聞   BlogJava   博問   Chat2DB   管理


青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            国产区精品视频| 久久精品亚洲一区| 久久都是精品| 亚洲欧美一区二区视频| 亚洲免费一在线| 亚洲欧美激情视频| 欧美一区二区成人6969| 久久精品免费看| 免费看的黄色欧美网站| 亚洲国产成人porn| 亚洲精品乱码久久久久久黑人| 亚洲美女91| 亚洲综合日韩在线| 久久免费精品视频| 欧美日韩精品| 国产一区二区三区网站| 91久久精品日日躁夜夜躁国产| 亚洲精选久久| 久久国产精品久久久| 欧美成人性网| 亚洲一区亚洲| 噜噜噜91成人网| 国产精品乱码一区二三区小蝌蚪 | 欧美日韩国产一区二区| 欧美三级乱码| 韩国一区电影| 亚洲影视在线| 亚洲电影天堂av| 亚洲欧美日韩在线播放| 玖玖玖免费嫩草在线影院一区| 欧美日韩中文精品| 好看的亚洲午夜视频在线| 一区二区不卡在线视频 午夜欧美不卡在| 亚洲免费影院| 亚洲激情视频在线播放| 久久精品国产第一区二区三区| 免费影视亚洲| 国产一区二区精品久久99| 9国产精品视频| 欧美国产精品va在线观看| 亚洲综合三区| 国产精品v日韩精品v欧美精品网站| 黄色资源网久久资源365| 午夜国产精品视频免费体验区| 最新国产精品拍自在线播放| 久久久另类综合| 欧美一区二区免费观在线| 国产精品手机在线| 亚洲黄色免费电影| 久久免费黄色| 亚洲一区二区三区四区视频| 欧美大片91| 欧美主播一区二区三区| 欧美日韩免费观看一区二区三区| 伊人男人综合视频网| 久久久久久999| 午夜精品久久久久影视| 国产精品亚洲产品| 欧美一区二区三区四区在线观看地址| 一区二区三区高清视频在线观看| 欧美精品一区二区三| 99国内精品久久久久久久软件| 亚洲电影在线看| 欧美高清成人| 一本色道久久综合亚洲精品小说| 亚洲日本成人| 欧美色精品天天在线观看视频 | 国产真实久久| 久久久久久久尹人综合网亚洲| 欧美一区二区三区免费观看| 国产视频欧美视频| 久久久噜噜噜久久久| 久久久久高清| 亚洲第一中文字幕| 亚洲成人在线网站| 欧美精品尤物在线| 亚洲制服av| 欧美在线综合| 亚洲二区在线视频| 亚洲精品视频啊美女在线直播| 欧美手机在线| 久久五月天婷婷| 欧美精品成人一区二区在线观看| 亚洲一区二区毛片| 欧美一区二区三区日韩| 亚洲国产精品va在线看黑人| 亚洲日韩欧美视频一区| 国产精品h在线观看| 久久精品噜噜噜成人av农村| 嫩草国产精品入口| 亚洲免费在线视频一区 二区| 性色av一区二区怡红| 91久久线看在观草草青青| 9久草视频在线视频精品| 国产日韩欧美制服另类| 亚洲第一视频网站| 国产精品久久久久久久午夜| 久久午夜精品| 欧美日韩国产精品| 久久亚洲综合色| 欧美日韩一区高清| 免费看亚洲片| 国产精品久久毛片a| 欧美大尺度在线观看| 国产精品久久久久久久免费软件| 欧美成年网站| 亚洲影院免费观看| 亚洲黄色一区| 欧美性色综合| 欧美凹凸一区二区三区视频| 欧美日韩中文字幕日韩欧美| 久久噜噜噜精品国产亚洲综合| 欧美精品在线看| 毛片基地黄久久久久久天堂| 欧美图区在线视频| 欧美黄色免费网站| 国产亚洲综合在线| 亚洲网站啪啪| 中国亚洲黄色| 欧美激情视频网站| 欧美高清hd18日本| 精品成人国产| 久久精品免费| 久久精品中文字幕一区| 国产精品国产三级国产普通话蜜臀| 欧美激情四色| 亚洲国产高清高潮精品美女| 久久精品国产一区二区三区免费看 | 国产亚洲欧美一区二区三区| 一区二区三区蜜桃网| 亚洲免费观看高清完整版在线观看熊 | 欧美一区二区三区精品| 亚洲亚洲精品在线观看| 欧美激情视频一区二区三区不卡| 欧美xxxx在线观看| 亚洲大片在线观看| 久久人人看视频| 狂野欧美一区| 在线观看亚洲a| 久久亚洲欧洲| 亚洲第一精品在线| 亚洲看片网站| 欧美色大人视频| 亚洲影视在线播放| 亚洲欧美在线播放| 国产伦精品一区二区三区高清| 亚洲欧美另类综合偷拍| 欧美一区视频在线| 国产中文一区二区| 免费在线观看一区二区| 亚洲国产婷婷香蕉久久久久久99| 99国产精品| 国产精品丝袜xxxxxxx| 午夜宅男欧美| 欧美岛国激情| 中文有码久久| 国产日韩欧美不卡| 久久视频一区二区| 最新国产の精品合集bt伙计| 亚洲一区在线观看免费观看电影高清| 欧美视频一区二| 欧美在线观看视频| 亚洲国产高清一区二区三区| 亚洲精品一品区二品区三品区| 久久精品2019中文字幕| 在线成人小视频| 欧美激情亚洲视频| 亚洲视频二区| 久热re这里精品视频在线6| 亚洲激情综合| 国产精品女人毛片| 久久综合色播五月| av成人激情| 毛片av中文字幕一区二区| 一区二区国产精品| 激情成人中文字幕| 欧美色综合天天久久综合精品| 欧美一级网站| 一区二区三区高清在线| 欧美ed2k| 欧美在线观看视频在线| 亚洲精品一区在线| 国内精品久久久久久久果冻传媒| 欧美日韩国产成人高清视频| 久久免费高清视频| 亚洲欧美一级二级三级| 亚洲精品视频免费观看| 蜜桃av综合| 久久精品国产亚洲a| 亚洲视频一区二区免费在线观看| 在线观看视频一区二区欧美日韩| 国产精品亚洲欧美| 欧美日韩国产在线看| 久热精品在线视频| 欧美一区二区在线播放| 中文在线资源观看网站视频免费不卡| 亚洲第一黄网| 欧美二区在线播放| 久久香蕉精品| 久久久亚洲影院你懂的|