青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
登山之道
C++博客
::
首頁
::
新隨筆
:: :: ::
管理
Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞
Posted on 2011-04-17 19:25
Kevin_Zhang
閱讀(3515)
評論(1)
編輯
收藏
引用
所屬分類:
搜索引擎
1
. 常見的中文分詞器有:極易分詞的(MMAnalyzer) 、
"
庖丁分詞
"
分詞器(PaodingAnalzyer)、IKAnalyzer 等等。其中 MMAnalyzer 和 PaodingAnalzyer 不支持 lucene3.0及以后版本。
使用方式都類似,在構建分詞器時
Analyzer analyzer
=
new
[My]Analyzer();
2
. 這里只示例 IKAnalyzer,目前只有它支持Lucene3.
0
以后的版本。
首先需要導入 IKAnalyzer3.
2
.0Stable.jar 包
3
. 示例代碼
view plaincopy to clipboardprint
?
public
class
AnalyzerTest
{
@Test
public
void
test()
throws
Exception
{
String text
=
"
An IndexWriter creates and maintains an index.
"
;
/**/
/*
標準分詞器:單子分詞
*/
Analyzer analyzer
=
new
StandardAnalyzer(Version.LUCENE_30);
testAnalyzer(analyzer, text);
String text2
=
"
測試中文環境下的信息檢索
"
;
testAnalyzer(
new
IKAnalyzer(), text2);
//
使用IKAnalyzer,詞庫分詞
}
/** */
/**
* 使用指定的分詞器對指定的文本進行分詞,并打印結果
*
*
@param
analyzer
*
@param
text
*
@throws
Exception
*/
private
void
testAnalyzer(Analyzer analyzer, String text)
throws
Exception
{
System.out.println(
"
當前使用的分詞器:
"
+
analyzer.getClass());
TokenStream tokenStream
=
analyzer.tokenStream(
"
content
"
,
new
StringReader(text));
tokenStream.addAttribute(TermAttribute.
class
);
while
(tokenStream.incrementToken())
{
TermAttribute termAttribute
=
tokenStream.getAttribute(TermAttribute.
class
);
System.out.println(termAttribute.term());
}
}
}
public
class
AnalyzerTest
{
@Test
public
void
test()
throws
Exception
{
String text
=
"
An IndexWriter creates and maintains an index.
"
;
/**/
/*
標準分詞器:單子分詞
*/
Analyzer analyzer
=
new
StandardAnalyzer(Version.LUCENE_30);
testAnalyzer(analyzer, text);
String text2
=
"
測試中文環境下的信息檢索
"
;
testAnalyzer(
new
IKAnalyzer(), text2);
//
使用IKAnalyzer,詞庫分詞
}
/** */
/**
* 使用指定的分詞器對指定的文本進行分詞,并打印結果
*
*
@param
analyzer
*
@param
text
*
@throws
Exception
*/
private
void
testAnalyzer(Analyzer analyzer, String text)
throws
Exception
{
System.out.println(
"
當前使用的分詞器:
"
+
analyzer.getClass());
TokenStream tokenStream
=
analyzer.tokenStream(
"
content
"
,
new
StringReader(text));
tokenStream.addAttribute(TermAttribute.
class
);
while
(tokenStream.incrementToken())
{
TermAttribute termAttribute
=
tokenStream.getAttribute(TermAttribute.
class
);
System.out.println(termAttribute.term());
}
}
}
3
. 如何擴展詞庫:很多情況下,我們可能需要定制自己的詞庫,例如 XXX 公司,我們希望這能被分詞器識別,并拆分成一個詞。
IKAnalyzer 可以很方便的實現我們的這種需求。
新建 IKAnalyzer.cfg.xml
view plaincopy to clipboardprint
?
<?
xml version
=
"
1.0
"
encoding
=
"
UTF-8
"
?>
<!
DOCTYPE properties SYSTEM
"
http://java.sun.com/dtd/properties.dtd
"
>
<
properties
>
<!--
1
,文件要是 UTF
-
8
編碼。
2
,一行寫一個詞
-->
<!--
用戶可以在這里配置自己的擴展字典
-->
<
entry key
=
"
ext_dict
"
>/
mydict.dic
</
entry
>
</
properties
>
<?
xml version
=
"
1.0
"
encoding
=
"
UTF-8
"
?>
<!
DOCTYPE properties SYSTEM
"
http://java.sun.com/dtd/properties.dtd
"
>
<
properties
>
<!--
1
,文件要是 UTF
-
8
編碼。
2
,一行寫一個詞
-->
<!--
用戶可以在這里配置自己的擴展字典
-->
<
entry key
=
"
ext_dict
"
>/
mydict.dic
</
entry
>
</
properties
>
解析:
<
entry key
=
"
ext_dict
"
>/
mydict.dic
</
entry
>
擴展了一個自己的詞典,名字叫 mydict.dic
因此我們要建一個文本文件,名為:mydict.dic (此處使用的 .dic 并非必須)
在這個文本文件里寫入:
北京XXXX科技有限公司
這樣就添加了一個詞匯。
如果要添加多個,則新起一行:
詞匯一
詞匯二
詞匯三
需要注意的是,這個文件一定要使用 UTF
-
8編碼
4
. 停用詞:
有些詞在文本中出現的頻率非常高,但是對文本所攜帶的信息基本不產生影響,例如英文的
"
a、an、the、of
"
,或中文的
"
的、了、著
"
,以及各種標點符號等,這樣的詞稱為停用詞(stop word)。
文本經過分詞之后,停用詞通常被過濾掉,不會被進行索引。在檢索的時候,用戶的查詢中如果含有停用詞,檢索系統也會將其過濾掉(因為用戶輸入的查詢字符串也要進行分詞處理)。
排除停用詞可以加快建立索引的速度,減小索引庫文件的大小。
IKAnalyzer 中自定義停用詞也非常方便,和配置
"
擴展詞庫
"
操作類型,只需要在 IKAnalyzer.cfg.xml 加入如下配置:
<
entry key
=
"
ext_stopwords
"
>/
ext_stopword.dic
</
entry
>
同樣這個配置也指向了一個文本文件
/
ext_stopword.dic (后綴名任意),格式如下:
也
了
仍
從
本文來自CSDN博客,轉載請標明出處:http:
//
blog.csdn.net/wenlin56/archive/2010/12/13/6074124.aspx
Feedback
#
re: Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞
回復
更多評論
2016-07-05 20:08 by
回家看回家看
54544554
刷新評論列表
只有注冊用戶
登錄
后才能發表評論。
相關文章:
Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞
網頁解析開源項目
一個 Java 搜索引擎的實現,第 2 部分: 網頁預處理
一個 Java 搜索引擎的實現,第 1 部分: 網絡爬蟲
java 下載網頁
Apache+php+mysql在XP下搭配詳解
MonoDevelop
heritrix1.14.4
tomcatPlugin下載地址
Heritrix-1.14.1怎么配置?
網站導航:
博客園
IT新聞
BlogJava
博問
Chat2DB
管理
Powered by:
C++博客
Copyright © Kevin_Zhang
日歷
<
2011年4月
>
日
一
二
三
四
五
六
27
28
29
30
31
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
1
2
3
4
5
6
7
常用鏈接
我的隨筆
我的評論
我參與的隨筆
隨筆分類
數據庫(1)
ACM基礎知識(9)
ARM(2)
C/C++(12)
DOS(1)
Google Map API
Heritrix(1)
IT News(22)
JAVA(3)
Jsp
Linux(9)
Lucene(1)
PHP(6)
Python
Tree
Trie樹(1)
博弈
動態規劃(1)
回溯
匯編
計算幾何(1)
模擬(4)
排序(2)
嵌入式
數據結構(2)
數論(2)
數學(3)
搜索(2)
搜索引擎(12)
隨機數
貪心(1)
圖論(1)
圖形學(1)
萬花筒(22)
網絡流
硬件(1)
隨筆檔案
2011年6月 (5)
2011年5月 (22)
2011年4月 (24)
2010年12月 (1)
2010年11月 (13)
2010年10月 (7)
2010年9月 (14)
2010年8月 (52)
2010年7月 (9)
文章分類
ACM題目分類(13)
C
C#
C++
DP動態規劃
JAVA
LUNIX
Python
博弈
計算幾何
模擬
數論(1)
搜索(1)
貪心
圖論
文章檔案
2010年8月 (4)
2010年7月 (22)
程序的靈魂--算法
沙場秋點兵,壯士凱歌還
北大POJ
他山之石,可以攻玉
圍觀強人
搜索
最新評論
1.?re: Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞
54544554
--回家看回家看
2.?re: 水
評論內容較長,點擊標題查看
--Jason Huang
3.?re: 10項技能讓前端開發者價值百萬!
評論內容較長,點擊標題查看
--BURKERosie25
4.?re: (轉載)ACM經歷總結[未登錄]
謝謝
--xingyezhi
5.?re: 世界頭號營銷大師們的營銷素質
大道至簡,殊途同歸,值得借鑒。
--Kevin_Zhang
閱讀排行榜
1.?Java動態數組的用法詳解(12224)
2.? Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞(3515)
3.?用scanf輸入字符串空格不識別??(2109)
4.?php java交互 php/java bridge (1958)
5.?設置MFC坐標系(1822)
青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
欧美一区二区视频在线观看2020
|
亚洲激情校园春色
|
欧美剧在线免费观看网站
|
一本大道av伊人久久综合
|
美女任你摸久久
|
久久精品国产清高在天天线
|
亚洲免费观看
|
国产亚洲日本欧美韩国
|
在线观看成人av电影
|
欧美va亚洲va国产综合
|
激情av一区二区
|
香蕉久久一区二区不卡无毒影院
|
亚洲欧美区自拍先锋
|
亚洲大片在线观看
|
欧美日韩精品在线播放
|
欧美激情一区二区久久久
|
夜夜嗨av一区二区三区网站四季av
|
亚洲欧美日韩综合
|
亚洲一区免费
|
免费视频最近日韩
|
欧美日韩国产二区
|
国产午夜久久久久
|
在线高清一区
|
久久国产黑丝
|
国产精品日韩一区
|
国产精品成人v
|
欧美日韩在线一区二区
|
久久亚洲风情
|
欧美视频免费
|
亚洲黄色免费
|
欧美亚洲综合久久
|
亚洲风情在线资源站
|
亚洲手机视频
|
欧美日韩理论
|
一区二区三区免费网站
|
久久伊人免费视频
|
香蕉久久一区二区不卡无毒影院
|
国产精品jizz在线观看美国
|
亚洲日本视频
|
国产亚洲精品aa
|
欧美丝袜一区二区
|
亚洲视频一区在线
|
av成人老司机
|
国产精品五区
|
久久精品人人
|
久久精品国产精品亚洲
|
黑人巨大精品欧美黑白配亚洲
|
免费观看成人
|
久久精品网址
|
永久免费视频成人
|
亚洲第一在线
|
欧美日韩精品一区二区三区四区
|
欧美成人午夜视频
|
久久一区二区精品
|
免费视频亚洲
|
校园春色国产精品
|
欧美亚洲尤物久久
|
黄网站免费久久
|
亚洲国产欧美日韩
|
国产精品久久久久久妇女6080
|
欧美中文字幕精品
|
免费一区视频
|
久久精品一区蜜桃臀影院
|
嫩草影视亚洲
|
久久欧美肥婆一二区
|
欧美日韩精品一二三区
|
久久另类ts人妖一区二区
|
欧美激情导航
|
麻豆精品一区二区av白丝在线
|
欧美日韩情趣电影
|
久久久91精品国产一区二区三区
|
美国十次成人
|
久久看片网站
|
在线观看亚洲
|
久久婷婷麻豆
|
免费日本视频一区
|
欧美国产专区
|
亚洲精品视频二区
|
欧美国产亚洲另类动漫
|
欧美精品www
|
99国产精品久久久久久久
|
欧美日韩在线第一页
|
在线观看中文字幕不卡
|
国产精品一区久久
|
午夜在线视频观看日韩17c
|
欧美久久久久免费
|
欧美freesex8一10精品
|
激情伊人五月天久久综合
|
一本综合久久
|
免费短视频成人日韩
|
久久久国产精品一区
|
国产伦精品一区二区三区高清版
|
亚洲精品一级
|
午夜免费日韩视频
|
狠狠色综合一区二区
|
久久青草福利网站
|
99亚洲一区二区
|
久久天堂国产精品
|
夜夜精品视频
|
国产综合亚洲精品一区二
|
欧美a级一区
|
欧美亚洲免费
|
一区二区三区四区蜜桃
|
理论片一区二区在线
|
一本色道88久久加勒比精品
|
国产一区二区三区精品欧美日韩一区二区三区
|
欧美在线视频不卡
|
av成人免费观看
|
欧美激情bt
|
亚洲国产免费看
|
亚洲激情啪啪
|
狠狠色狠色综合曰曰
|
国产精品高潮粉嫩av
|
亚洲天堂av电影
|
国内揄拍国内精品久久
|
欧美日韩一区在线播放
|
欧美激情在线
|
免费不卡在线视频
|
久久天堂av综合合色
|
久久久精品欧美丰满
|
亚洲一区二区av电影
|
中文精品视频一区二区在线观看
|
91久久中文字幕
|
99精品热视频只有精品10
|
亚洲精品一区二区三区福利
|
亚洲国产一区二区三区青草影视
|
亚洲国产日韩在线
|
99国产精品99久久久久久粉嫩
|
日韩天堂在线视频
|
午夜亚洲性色福利视频
|
久久精品国产清高在天天线
|
久久久久久久久久看片
|
性色av香蕉一区二区
|
久久久噜噜噜久久中文字免
|
久久久亚洲欧洲日产国码αv
|
免费看亚洲片
|
欧美激情精品久久久久久蜜臀
|
在线日本高清免费不卡
|
亚洲欧洲午夜
|
亚洲欧美国产视频
|
久久久久国产成人精品亚洲午夜
|
久久激情视频久久
|
日韩视频免费观看
|
欧美日韩亚洲一区二区三区
|
一区二区激情小说
|
免费人成精品欧美精品
|
久久精品夜色噜噜亚洲aⅴ
|
国产精品每日更新在线播放网址
|
国产欧美精品日韩精品
|
国产亚洲精品资源在线26u
|
国产欧美一区二区精品性色
|
欧美三级视频在线
|
免费人成精品欧美精品
|
久久影院午夜片一区
|
久久亚洲精品中文字幕冲田杏梨
|
欧美制服丝袜
|
午夜精品视频一区
|
久久久国际精品
|
麻豆精品国产91久久久久久
|
亚洲综合三区
|
亚洲欧美日韩第一区
|
久久精品国语
|
欧美激情一级片一区二区
|
国产精品大片免费观看
|
日韩午夜黄色
|
亚洲免费观看高清完整版在线观看熊
|
国产欧美一区二区精品性色
|
亚洲欧洲日产国产综合网
|
欧美成人69av
|
欧美h视频在线
|
亚洲一区二区三区在线看
|
欧美在线啊v
|
亚洲一级片在线观看
|
日韩视频永久免费
|
欧美大胆成人
|
国产精品h在线观看
|
欧美一级成年大片在线观看
|
一本久道久久综合中文字幕
|
国产九九视频一区二区三区
|
亚洲性xxxx
|
久久久久国内
|
欧美激情精品久久久六区热门
|
另类图片国产
|
亚洲性夜色噜噜噜7777
|
久久精品在线观看
|
午夜国产精品视频
|
欧美精品系列
|
欧美成人日韩
|
精品va天堂亚洲国产
|
亚洲在线国产日韩欧美
|
99riav久久精品riav
|
久久久久成人精品
|
久久久久成人网
|
国产精品久久久久久久久搜平片
|
欧美黑人多人双交
|
在线成人av网站
|
久久国产夜色精品鲁鲁99
|
欧美综合二区
|
一区免费在线
|
欧美高清hd18日本
|