青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

登山之道

C++博客 :: 首頁 :: 新隨筆 :: :: :: 管理

Lucene入門級筆記五 -- 分詞器，使用中文分詞器，擴(kuò)展詞庫，停用詞

Posted on 2011-04-17 19:25 Kevin_Zhang 閱讀(3515) 評論(1) 編輯收藏引用所屬分類: 搜索引擎

1. 常見的中文分詞器有：極易分詞的(MMAnalyzer) 、"庖丁分詞"分詞器(PaodingAnalzyer)、IKAnalyzer 等等。其中 MMAnalyzer 和 PaodingAnalzyer 不支持 lucene3.0及以后版本。

使用方式都類似，在構(gòu)建分詞器時

Analyzer analyzer = new [My]Analyzer();

2. 這里只示例 IKAnalyzer，目前只有它支持Lucene3.0 以后的版本。

首先需要導(dǎo)入 IKAnalyzer3.2.0Stable.jar 包

3. 示例代碼

view plaincopy to clipboardprint?

public class AnalyzerTest {

@Test

public void test() throws Exception {

String text = "An IndexWriter creates and maintains an index.";

/* 標(biāo)準(zhǔn)分詞器：單子分詞 */

Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_30);

testAnalyzer(analyzer, text);

String text2 = "測試中文環(huán)境下的信息檢索";

testAnalyzer(new IKAnalyzer(), text2); // 使用IKAnalyzer，詞庫分詞

}

/**

* 使用指定的分詞器對指定的文本進(jìn)行分詞，并打印結(jié)果

*

* @param analyzer

* @param text

* @throws Exception

*/

private void testAnalyzer(Analyzer analyzer, String text) throws Exception {

System.out.println("當(dāng)前使用的分詞器：" + analyzer.getClass());

TokenStream tokenStream = analyzer.tokenStream("content", new StringReader(text));

tokenStream.addAttribute(TermAttribute.class);

while (tokenStream.incrementToken()) {

TermAttribute termAttribute = tokenStream.getAttribute(TermAttribute.class);

System.out.println(termAttribute.term());

}

}

}

public class AnalyzerTest {

@Test

public void test() throws Exception {

String text = "An IndexWriter creates and maintains an index.";

/* 標(biāo)準(zhǔn)分詞器：單子分詞 */

Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_30);

testAnalyzer(analyzer, text);

String text2 = "測試中文環(huán)境下的信息檢索";

testAnalyzer(new IKAnalyzer(), text2); // 使用IKAnalyzer，詞庫分詞

}

/**

* 使用指定的分詞器對指定的文本進(jìn)行分詞，并打印結(jié)果

*

* @param analyzer

* @param text

* @throws Exception

*/

private void testAnalyzer(Analyzer analyzer, String text) throws Exception {

System.out.println("當(dāng)前使用的分詞器：" + analyzer.getClass());

TokenStream tokenStream = analyzer.tokenStream("content", new StringReader(text));

tokenStream.addAttribute(TermAttribute.class);

while (tokenStream.incrementToken()) {

TermAttribute termAttribute = tokenStream.getAttribute(TermAttribute.class);

System.out.println(termAttribute.term());

}

}

}

3. 如何擴(kuò)展詞庫：很多情況下，我們可能需要定制自己的詞庫，例如 XXX 公司，我們希望這能被分詞器識別，并拆分成一個詞。

IKAnalyzer 可以很方便的實(shí)現(xiàn)我們的這種需求。

新建 IKAnalyzer.cfg.xml

view plaincopy to clipboardprint?

<?xml version="1.0" encoding="UTF-8"?>

<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">

<properties>

<entry key="ext_dict">/mydict.dic</entry>

</properties>

<?xml version="1.0" encoding="UTF-8"?>

<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">

<properties>

<entry key="ext_dict">/mydict.dic</entry>

</properties>

解析：

<entry key="ext_dict">/mydict.dic</entry> 擴(kuò)展了一個自己的詞典，名字叫 mydict.dic

因此我們要建一個文本文件，名為：mydict.dic （此處使用的 .dic 并非必須）

在這個文本文件里寫入：

北京XXXX科技有限公司

這樣就添加了一個詞匯。

如果要添加多個，則新起一行：

詞匯一

詞匯二

詞匯三

需要注意的是，這個文件一定要使用 UTF-8編碼

4. 停用詞：

有些詞在文本中出現(xiàn)的頻率非常高，但是對文本所攜帶的信息基本不產(chǎn)生影響，例如英文的"a、an、the、of"，或中文的"的、了、著"，以及各種標(biāo)點(diǎn)符號等，這樣的詞稱為停用詞（stop word）。

文本經(jīng)過分詞之后，停用詞通常被過濾掉，不會被進(jìn)行索引。在檢索的時候，用戶的查詢中如果含有停用詞，檢索系統(tǒng)也會將其過濾掉（因?yàn)橛脩糨斎氲牟樵冏址惨M(jìn)行分詞處理）。

排除停用詞可以加快建立索引的速度，減小索引庫文件的大小。

IKAnalyzer 中自定義停用詞也非常方便，和配置 "擴(kuò)展詞庫" 操作類型，只需要在 IKAnalyzer.cfg.xml 加入如下配置：

<entry key="ext_stopwords">/ext_stopword.dic</entry>

同樣這個配置也指向了一個文本文件 /ext_stopword.dic （后綴名任意），格式如下：

也

了

仍

從

本文來自CSDN博客，轉(zhuǎn)載請標(biāo)明出處：http://blog.csdn.net/wenlin56/archive/2010/12/13/6074124.aspx

Feedback

# re: Lucene入門級筆記五 -- 分詞器，使用中文分詞器，擴(kuò)展詞庫，停用詞 回復(fù) 更多評論

2016-07-05 20:08 by 回家看回家看

54544554

刷新評論列表

只有注冊用戶登錄后才能發(fā)表評論。


相關(guān)文章: Lucene入門級筆記五 -- 分詞器，使用中文分詞器，擴(kuò)展詞庫，停用詞網(wǎng)頁解析開源項(xiàng)目一個 Java 搜索引擎的實(shí)現(xiàn)，第 2 部分: 網(wǎng)頁預(yù)處理一個 Java 搜索引擎的實(shí)現(xiàn)，第 1 部分: 網(wǎng)絡(luò)爬蟲 java 下載網(wǎng)頁 Apache+php+mysql在XP下搭配詳解 MonoDevelop heritrix1.14.4 tomcatPlugin下載地址 Heritrix-1.14.1怎么配置?

網(wǎng)站導(dǎo)航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

<ins id="pjuwb"></ins>

<blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>

<noscript id="pjuwb"></noscript>

<sup id="pjuwb"><pre id="pjuwb"></pre></sup>

<dd id="pjuwb"></dd>

<abbr id="pjuwb"></abbr>

一区二区三区欧美成人| 久久国产一区二区| 一本色道精品久久一区二区三区| 国产亚洲欧美日韩美女| 国产精品99久久久久久宅男| 欧美成人中文字幕| 久久精品视频va| 欧美福利专区| 欧美激情中文字幕乱码免费| 国产一区二区三区电影在线观看 | 国产精品对白刺激久久久| 91久久精品美女高潮| 激情偷拍久久| 快she精品国产999| 巨胸喷奶水www久久久免费动漫| 欧美日韩直播| 国产精品久久久久毛片软件| 国产午夜亚洲精品理论片色戒| 在线免费观看视频一区| 国产一区二区在线观看免费| 国内精品久久久久影院日本资源| 亚洲欧美在线一区二区| 99re6热在线精品视频播放速度| 欧美一区二区福利在线| 亚洲理论在线| 日韩午夜中文字幕| 亚洲国产一区二区三区在线播| 国产精品一区二区三区久久| 国产精品久久久久9999吃药| 欧美二区在线| 亚洲人成7777| 欧美日韩高清免费| 久久高清福利视频| 亚洲精品免费在线| 亚洲欧美日本日韩| 欧美成人精品h版在线观看| 欧美色道久久88综合亚洲精品| 国产日韩欧美综合精品| 一区二区免费看| 亚洲高清在线视频| 欧美mv日韩mv亚洲| 伊人久久亚洲热| 欧美精品日韩| 欧美国产免费| 中日韩高清电影网| 免费日韩视频| 麻豆久久精品| 久久久视频精品| 亚洲精品在线免费| 伊人成年综合电影网| 国产一区二区久久| 国产精品日韩精品欧美在线 | 久久综合色综合88| 亚洲国产经典视频| 亚洲视频专区在线| 亚洲国产一区在线观看| 新狼窝色av性久久久久久| 久久久久久久久久久成人| 欧美日韩一区高清| 国产色视频一区| 亚洲午夜av电影| 国产精品一区二区三区四区五区| 久久综合久久美利坚合众国| 欧美韩日一区二区| 一区二区三区日韩欧美精品| 午夜精品久久久久影视| 欧美国产日韩一二三区| 国产精品网红福利| 久久国内精品自在自线400部| 一区二区精品国产| 国产精品久久久久久久久果冻传媒 | 久久福利影视| 久久久一本精品99久久精品66| 国产乱码精品| 狠狠色丁香久久婷婷综合丁香| 欧美紧缚bdsm在线视频| 99日韩精品| 午夜在线一区二区| 国产伦精品一区二区三区在线观看 | 黄色在线一区| 老司机精品导航| 欧美激情一区在线观看| 亚洲欧美国产不卡| 欧美黄色免费| 国产日韩精品一区观看| 免费在线观看一区二区| 性欧美暴力猛交69hd| 香蕉成人久久| 亚洲一区免费视频| 美国十次成人| 欧美日本免费| 亚洲欧美文学| 久久婷婷国产综合精品青草| 亚洲欧美色婷婷| 羞羞漫画18久久大片| 欧美精品三级日韩久久| 中文网丁香综合网| 久久精品在这里| 亚洲在线中文字幕| 久久综合电影| 亚洲欧美日本日韩| 欧美四级在线观看| 亚洲欧洲日本一区二区三区| 亚洲国产精品v| 亚洲一区二区视频在线观看| 国产精品xxxav免费视频| 99国产精品久久久久久久久久| 久久亚裔精品欧美| 最新国产乱人伦偷精品免费网站| 久久精品视频99| 亚洲青涩在线| 欧美人与性动交α欧美精品济南到| 久久久国产91| 国产精品一区久久久久| 香蕉成人久久| 久久精品成人| 欧美www在线| 欧美一区二区三区在线看| 国产午夜精品久久| 亚洲日本精品国产第一区| 亚洲美女淫视频| 亚洲成在人线av| 欧美freesex8一10精品| 久久夜色精品国产欧美乱| 欧美三级中文字幕在线观看| 欧美成人影音| 黄色一区二区三区四区| 欧美成人免费全部观看天天性色| 亚洲电影免费观看高清完整版在线观看| 亚洲社区在线观看| 久久成年人视频| 一区在线免费| 久久先锋影音| 亚洲欧洲日夜超级视频| 国产精品日韩欧美一区二区| 欧美中文字幕视频在线观看| 亚洲在线一区| 亚洲图片激情小说| 亚洲日本在线观看| 老色鬼精品视频在线观看播放| 亚洲影视在线| 精品999久久久| 国产自产在线视频一区| 欧美激情一区二区三级高清视频| 久久久人成影片一区二区三区观看| 亚洲精品视频免费观看| 久久成人综合视频| 免费观看成人www动漫视频| 亚洲美女中文字幕| 亚洲影音先锋| 国产精品国产三级国产普通话三级 | 99天天综合性| 99伊人成综合| 亚洲欧美中日韩| 欧美一区永久视频免费观看| 亚洲精一区二区三区| 日韩视频在线观看| 亚洲天堂av高清| 欧美日韩www| 性欧美videos另类喷潮| 亚洲欧美日韩国产精品| 亚洲老板91色精品久久| 毛片av中文字幕一区二区| 亚洲午夜精品久久久久久浪潮| 伊大人香蕉综合8在线视| 午夜精品一区二区三区在线视| 欧美综合第一页| 中国日韩欧美久久久久久久久| 亚洲一区二区精品视频| 亚洲九九精品| 欧美一区高清| 亚洲免费视频在线观看| 欧美日韩一级大片网址| 国产欧美不卡| 国产精品婷婷午夜在线观看| 国产精品成人一区二区三区吃奶| 久久久蜜桃一区二区人| 亚洲一区精彩视频| 亚洲欧美日韩国产中文| 亚洲国产黄色| 亚洲永久免费观看| 久久一区精品| 欧美日韩国产精品一区二区亚洲| 久久不射网站| 一区二区国产日产| 亚洲欧美激情视频| 欧美国产综合一区二区| 一本色道88久久加勒比精品 | 亚洲精品综合精品自拍| 99这里只有精品| 乱码第一页成人| 亚洲在线播放电影| 欧美日韩成人精品| 99国产精品视频免费观看| 蜜臀99久久精品久久久久久软件| 亚洲欧洲一区二区三区久久| 亚洲午夜国产一区99re久久 | 亚洲国产精品va在看黑人| 亚洲美女福利视频网站| 亚洲高清网站|