青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

登山之道

C++博客 :: 首頁(yè) :: 新隨筆 :: :: :: 管理

Lucene入門(mén)級(jí)筆記五 -- 分詞器，使用中文分詞器，擴(kuò)展詞庫(kù)，停用詞

Posted on 2011-04-17 19:25 Kevin_Zhang 閱讀(3515) 評(píng)論(1) 編輯收藏引用所屬分類: 搜索引擎

1. 常見(jiàn)的中文分詞器有：極易分詞的(MMAnalyzer) 、"庖丁分詞"分詞器(PaodingAnalzyer)、IKAnalyzer 等等。其中 MMAnalyzer 和 PaodingAnalzyer 不支持 lucene3.0及以后版本。

使用方式都類似，在構(gòu)建分詞器時(shí)

Analyzer analyzer = new [My]Analyzer();

2. 這里只示例 IKAnalyzer，目前只有它支持Lucene3.0 以后的版本。

首先需要導(dǎo)入 IKAnalyzer3.2.0Stable.jar 包

3. 示例代碼

view plaincopy to clipboardprint?

public class AnalyzerTest {

@Test

public void test() throws Exception {

String text = "An IndexWriter creates and maintains an index.";

/* 標(biāo)準(zhǔn)分詞器：?jiǎn)巫臃衷~ */

Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_30);

testAnalyzer(analyzer, text);

String text2 = "測(cè)試中文環(huán)境下的信息檢索";

testAnalyzer(new IKAnalyzer(), text2); // 使用IKAnalyzer，詞庫(kù)分詞

}

/**

* 使用指定的分詞器對(duì)指定的文本進(jìn)行分詞，并打印結(jié)果

*

* @param analyzer

* @param text

* @throws Exception

*/

private void testAnalyzer(Analyzer analyzer, String text) throws Exception {

System.out.println("當(dāng)前使用的分詞器：" + analyzer.getClass());

TokenStream tokenStream = analyzer.tokenStream("content", new StringReader(text));

tokenStream.addAttribute(TermAttribute.class);

while (tokenStream.incrementToken()) {

TermAttribute termAttribute = tokenStream.getAttribute(TermAttribute.class);

System.out.println(termAttribute.term());

}

}

}

public class AnalyzerTest {

@Test

public void test() throws Exception {

String text = "An IndexWriter creates and maintains an index.";

/* 標(biāo)準(zhǔn)分詞器：?jiǎn)巫臃衷~ */

Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_30);

testAnalyzer(analyzer, text);

String text2 = "測(cè)試中文環(huán)境下的信息檢索";

testAnalyzer(new IKAnalyzer(), text2); // 使用IKAnalyzer，詞庫(kù)分詞

}

/**

* 使用指定的分詞器對(duì)指定的文本進(jìn)行分詞，并打印結(jié)果

*

* @param analyzer

* @param text

* @throws Exception

*/

private void testAnalyzer(Analyzer analyzer, String text) throws Exception {

System.out.println("當(dāng)前使用的分詞器：" + analyzer.getClass());

TokenStream tokenStream = analyzer.tokenStream("content", new StringReader(text));

tokenStream.addAttribute(TermAttribute.class);

while (tokenStream.incrementToken()) {

TermAttribute termAttribute = tokenStream.getAttribute(TermAttribute.class);

System.out.println(termAttribute.term());

}

}

}

3. 如何擴(kuò)展詞庫(kù)：很多情況下，我們可能需要定制自己的詞庫(kù)，例如 XXX 公司，我們希望這能被分詞器識(shí)別，并拆分成一個(gè)詞。

IKAnalyzer 可以很方便的實(shí)現(xiàn)我們的這種需求。

新建 IKAnalyzer.cfg.xml

view plaincopy to clipboardprint?

<?xml version="1.0" encoding="UTF-8"?>

<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">

<properties>

<entry key="ext_dict">/mydict.dic</entry>

</properties>

<?xml version="1.0" encoding="UTF-8"?>

<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">

<properties>

<entry key="ext_dict">/mydict.dic</entry>

</properties>

解析：

<entry key="ext_dict">/mydict.dic</entry> 擴(kuò)展了一個(gè)自己的詞典，名字叫 mydict.dic

因此我們要建一個(gè)文本文件，名為：mydict.dic （此處使用的 .dic 并非必須）

在這個(gè)文本文件里寫(xiě)入：

北京XXXX科技有限公司

這樣就添加了一個(gè)詞匯。

如果要添加多個(gè)，則新起一行：

詞匯一

詞匯二

詞匯三

需要注意的是，這個(gè)文件一定要使用 UTF-8編碼

4. 停用詞：

有些詞在文本中出現(xiàn)的頻率非常高，但是對(duì)文本所攜帶的信息基本不產(chǎn)生影響，例如英文的"a、an、the、of"，或中文的"的、了、著"，以及各種標(biāo)點(diǎn)符號(hào)等，這樣的詞稱為停用詞（stop word）。

文本經(jīng)過(guò)分詞之后，停用詞通常被過(guò)濾掉，不會(huì)被進(jìn)行索引。在檢索的時(shí)候，用戶的查詢中如果含有停用詞，檢索系統(tǒng)也會(huì)將其過(guò)濾掉（因?yàn)橛脩糨斎氲牟樵冏址惨M(jìn)行分詞處理）。

排除停用詞可以加快建立索引的速度，減小索引庫(kù)文件的大小。

IKAnalyzer 中自定義停用詞也非常方便，和配置 "擴(kuò)展詞庫(kù)" 操作類型，只需要在 IKAnalyzer.cfg.xml 加入如下配置：

<entry key="ext_stopwords">/ext_stopword.dic</entry>

同樣這個(gè)配置也指向了一個(gè)文本文件 /ext_stopword.dic （后綴名任意），格式如下：

也

了

仍

從

本文來(lái)自CSDN博客，轉(zhuǎn)載請(qǐng)標(biāo)明出處：http://blog.csdn.net/wenlin56/archive/2010/12/13/6074124.aspx

Feedback

# re: Lucene入門(mén)級(jí)筆記五 -- 分詞器，使用中文分詞器，擴(kuò)展詞庫(kù)，停用詞 回復(fù) 更多評(píng)論

2016-07-05 20:08 by 回家看回家看

54544554

刷新評(píng)論列表

只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。


相關(guān)文章: Lucene入門(mén)級(jí)筆記五 -- 分詞器，使用中文分詞器，擴(kuò)展詞庫(kù)，停用詞網(wǎng)頁(yè)解析開(kāi)源項(xiàng)目一個(gè) Java 搜索引擎的實(shí)現(xiàn)，第 2 部分: 網(wǎng)頁(yè)預(yù)處理一個(gè) Java 搜索引擎的實(shí)現(xiàn)，第 1 部分: 網(wǎng)絡(luò)爬蟲(chóng) java 下載網(wǎng)頁(yè) Apache+php+mysql在XP下搭配詳解 MonoDevelop heritrix1.14.4 tomcatPlugin下載地址 Heritrix-1.14.1怎么配置?

網(wǎng)站導(dǎo)航: 博客園 IT新聞 BlogJava 博問(wèn) Chat2DB 管理

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

<ins id="pjuwb"></ins>

<blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>

<noscript id="pjuwb"></noscript>

<sup id="pjuwb"><pre id="pjuwb"></pre></sup>

<dd id="pjuwb"></dd>

<abbr id="pjuwb"></abbr>

亚洲欧美国产视频| 欧美午夜免费影院| 国产精品三级久久久久久电影| 亚洲制服av| 亚洲免费一在线| 宅男噜噜噜66国产日韩在线观看| 欧美激情在线观看| 美女视频黄免费的久久| 久久人人97超碰精品888| 欧美日韩国产精品免费观看| 久久精品91久久香蕉加勒比| 午夜精品一区二区三区在线播放| 亚洲一区二区欧美日韩| 亚洲一区三区电影在线观看| 国产精品v日韩精品v欧美精品网站| 欧美三级在线播放| 国产精品九九| 国产无遮挡一区二区三区毛片日本| 欧美午夜一区| 国产欧美精品日韩精品| 亚洲电影中文字幕| 亚洲人妖在线| 亚洲天天影视| 欧美中文字幕不卡| 蜜臀久久久99精品久久久久久| 亚洲精品看片| 亚洲精品综合| 欧美性jizz18性欧美| 亚洲视频综合| 性欧美超级视频| 久久日韩精品| 欧美国产一区二区三区激情无套| 一本久久精品一区二区| 久久精品视频在线| 欧美.www| 国产精品久久久久久久久免费| 国产精品自拍视频| 伊人成人网在线看| 欧美一区二区三区免费观看| 久久人体大胆视频| 亚洲精品黄色| 欧美一区二区三区四区在线观看地址 | 亚洲一区二区综合| 性色一区二区| 女仆av观看一区| av成人免费在线| 久久久亚洲综合| 国产精品欧美日韩久久| 亚洲制服欧美中文字幕中文字幕| 久久亚洲不卡| 国产精品久久久久久妇女6080 | 狂野欧美一区| 99国产精品私拍| 午夜在线观看欧美| 欧美日韩精品免费| 亚洲精品久久久久久久久| 久久久久久亚洲精品中文字幕| 99精品视频网| 欧美日本在线看| 亚洲免费久久| 亚洲黄网站黄| 欧美3dxxxxhd| 亚洲黄色在线观看| 亚洲丶国产丶欧美一区二区三区| 久久久免费av| 亚洲激情在线| 亚洲精品久久| 国产精品成人一区二区三区夜夜夜| 亚洲美女av在线播放| 亚洲国产天堂久久综合| 欧美理论在线| 午夜精品久久久久久久久久久久 | 欧美日韩99| 午夜精品久久久久影视| 免费在线视频一区| 欧美一区二区观看视频| 亚洲欧美日韩国产一区| 亚洲天堂黄色| 国产精品一二三| 久久国产色av| 老牛国产精品一区的观看方式| 亚洲国产成人一区| 亚洲欧洲一二三| 欧美日韩国产精品专区| 性色av一区二区怡红| 久久久久久久网站| 99精品欧美一区| 亚洲欧美变态国产另类| 国产一区二区三区四区老人| 巨胸喷奶水www久久久免费动漫| 免费成人小视频| 一个色综合导航| 欧美伊人久久| 亚洲剧情一区二区| 午夜视频在线观看一区二区三区| 在线播放不卡| a91a精品视频在线观看| 国产偷国产偷亚洲高清97cao| 亚洲第一精品福利| 国产日韩欧美麻豆| 亚洲激情第一区| 国产午夜精品麻豆| 亚洲国产精品一区二区久| 国产精品亚发布| 亚洲高清不卡| 国产欧美在线欧美| 亚洲人妖在线| 1024成人网色www| 性欧美办公室18xxxxhd| 这里只有精品在线播放| 久久青草欧美一区二区三区| 香蕉精品999视频一区二区| 欧美高清在线一区| 美国成人毛片| 国产视频一区免费看| 中文精品视频| 一区二区三区视频在线观看| 老司机午夜精品视频| 久久久爽爽爽美女图片| 国产精品视屏| 亚洲手机视频| 亚洲小说欧美另类婷婷| 欧美区亚洲区| 亚洲日本精品国产第一区| 在线免费精品视频| 久久精品成人欧美大片古装| 欧美一区二区网站| 国产精品日韩在线| 亚洲午夜伦理| 亚洲欧美一区二区视频| 欧美视频网址| 99精品欧美一区二区蜜桃免费| 亚洲三级免费观看| 欧美aa国产视频| 亚洲二区视频在线| 亚洲激情av在线| 欧美成人午夜视频| 欧美视频一区二区在线观看| 最近看过的日韩成人| 亚洲精品在线电影| 免费观看亚洲视频大全| 欧美国产一区二区| 亚洲精品久久久久久久久| 欧美国产日韩一区| 亚洲精品美女在线观看播放| 99亚洲一区二区| 欧美日韩在线另类| 亚洲视频综合在线| 欧美在线观看网址综合| 国产在线欧美日韩| 久久亚洲精品欧美| 亚洲国产精品嫩草影院| 99视频+国产日韩欧美| 欧美日韩精品免费看| 中文一区在线| 久久亚洲免费| 亚洲国产91精品在线观看| 欧美电影电视剧在线观看| 亚洲毛片在线看| 久久99在线观看| 亚洲国产99精品国自产| 欧美日韩国产一区| 午夜久久电影网| 欧美激情一区二区| 午夜在线观看免费一区| 精品999日本| 欧美网站在线观看| 久久精品欧洲| 一本色道综合亚洲| 久久伊人亚洲| 亚洲午夜视频在线| 伊人婷婷久久| 国产精品久久久久久亚洲毛片| 欧美在线综合| 最新亚洲一区| 久久欧美中文字幕| 亚洲午夜精品一区二区| 国一区二区在线观看| 欧美日韩亚洲综合| 久久久免费精品| 亚洲午夜一级| 亚洲激情在线播放| 久久天堂成人| 午夜精品福利一区二区三区av| 亚洲春色另类小说| 国产精品户外野外| 欧美不卡福利| 久久精品国内一区二区三区| 一区二区三区精品视频在线观看 | 日韩视频免费观看| 国产一级精品aaaaa看| 欧美日本韩国一区二区三区| 久久久久91| 欧美亚洲在线播放| 日韩图片一区| 欧美大片免费看| 麻豆久久精品| 久久人人爽国产| 久久精品视频免费| 香蕉久久夜色精品|