青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
登山之道
C++博客
::
首頁
::
新隨筆
:: :: ::
管理
Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞
Posted on 2011-04-17 19:25
Kevin_Zhang
閱讀(3515)
評論(1)
編輯
收藏
引用
所屬分類:
搜索引擎
1
. 常見的中文分詞器有:極易分詞的(MMAnalyzer) 、
"
庖丁分詞
"
分詞器(PaodingAnalzyer)、IKAnalyzer 等等。其中 MMAnalyzer 和 PaodingAnalzyer 不支持 lucene3.0及以后版本。
使用方式都類似,在構建分詞器時
Analyzer analyzer
=
new
[My]Analyzer();
2
. 這里只示例 IKAnalyzer,目前只有它支持Lucene3.
0
以后的版本。
首先需要導入 IKAnalyzer3.
2
.0Stable.jar 包
3
. 示例代碼
view plaincopy to clipboardprint
?
public
class
AnalyzerTest
{
@Test
public
void
test()
throws
Exception
{
String text
=
"
An IndexWriter creates and maintains an index.
"
;
/**/
/*
標準分詞器:單子分詞
*/
Analyzer analyzer
=
new
StandardAnalyzer(Version.LUCENE_30);
testAnalyzer(analyzer, text);
String text2
=
"
測試中文環境下的信息檢索
"
;
testAnalyzer(
new
IKAnalyzer(), text2);
//
使用IKAnalyzer,詞庫分詞
}
/** */
/**
* 使用指定的分詞器對指定的文本進行分詞,并打印結果
*
*
@param
analyzer
*
@param
text
*
@throws
Exception
*/
private
void
testAnalyzer(Analyzer analyzer, String text)
throws
Exception
{
System.out.println(
"
當前使用的分詞器:
"
+
analyzer.getClass());
TokenStream tokenStream
=
analyzer.tokenStream(
"
content
"
,
new
StringReader(text));
tokenStream.addAttribute(TermAttribute.
class
);
while
(tokenStream.incrementToken())
{
TermAttribute termAttribute
=
tokenStream.getAttribute(TermAttribute.
class
);
System.out.println(termAttribute.term());
}
}
}
public
class
AnalyzerTest
{
@Test
public
void
test()
throws
Exception
{
String text
=
"
An IndexWriter creates and maintains an index.
"
;
/**/
/*
標準分詞器:單子分詞
*/
Analyzer analyzer
=
new
StandardAnalyzer(Version.LUCENE_30);
testAnalyzer(analyzer, text);
String text2
=
"
測試中文環境下的信息檢索
"
;
testAnalyzer(
new
IKAnalyzer(), text2);
//
使用IKAnalyzer,詞庫分詞
}
/** */
/**
* 使用指定的分詞器對指定的文本進行分詞,并打印結果
*
*
@param
analyzer
*
@param
text
*
@throws
Exception
*/
private
void
testAnalyzer(Analyzer analyzer, String text)
throws
Exception
{
System.out.println(
"
當前使用的分詞器:
"
+
analyzer.getClass());
TokenStream tokenStream
=
analyzer.tokenStream(
"
content
"
,
new
StringReader(text));
tokenStream.addAttribute(TermAttribute.
class
);
while
(tokenStream.incrementToken())
{
TermAttribute termAttribute
=
tokenStream.getAttribute(TermAttribute.
class
);
System.out.println(termAttribute.term());
}
}
}
3
. 如何擴展詞庫:很多情況下,我們可能需要定制自己的詞庫,例如 XXX 公司,我們希望這能被分詞器識別,并拆分成一個詞。
IKAnalyzer 可以很方便的實現我們的這種需求。
新建 IKAnalyzer.cfg.xml
view plaincopy to clipboardprint
?
<?
xml version
=
"
1.0
"
encoding
=
"
UTF-8
"
?>
<!
DOCTYPE properties SYSTEM
"
http://java.sun.com/dtd/properties.dtd
"
>
<
properties
>
<!--
1
,文件要是 UTF
-
8
編碼。
2
,一行寫一個詞
-->
<!--
用戶可以在這里配置自己的擴展字典
-->
<
entry key
=
"
ext_dict
"
>/
mydict.dic
</
entry
>
</
properties
>
<?
xml version
=
"
1.0
"
encoding
=
"
UTF-8
"
?>
<!
DOCTYPE properties SYSTEM
"
http://java.sun.com/dtd/properties.dtd
"
>
<
properties
>
<!--
1
,文件要是 UTF
-
8
編碼。
2
,一行寫一個詞
-->
<!--
用戶可以在這里配置自己的擴展字典
-->
<
entry key
=
"
ext_dict
"
>/
mydict.dic
</
entry
>
</
properties
>
解析:
<
entry key
=
"
ext_dict
"
>/
mydict.dic
</
entry
>
擴展了一個自己的詞典,名字叫 mydict.dic
因此我們要建一個文本文件,名為:mydict.dic (此處使用的 .dic 并非必須)
在這個文本文件里寫入:
北京XXXX科技有限公司
這樣就添加了一個詞匯。
如果要添加多個,則新起一行:
詞匯一
詞匯二
詞匯三
需要注意的是,這個文件一定要使用 UTF
-
8編碼
4
. 停用詞:
有些詞在文本中出現的頻率非常高,但是對文本所攜帶的信息基本不產生影響,例如英文的
"
a、an、the、of
"
,或中文的
"
的、了、著
"
,以及各種標點符號等,這樣的詞稱為停用詞(stop word)。
文本經過分詞之后,停用詞通常被過濾掉,不會被進行索引。在檢索的時候,用戶的查詢中如果含有停用詞,檢索系統也會將其過濾掉(因為用戶輸入的查詢字符串也要進行分詞處理)。
排除停用詞可以加快建立索引的速度,減小索引庫文件的大小。
IKAnalyzer 中自定義停用詞也非常方便,和配置
"
擴展詞庫
"
操作類型,只需要在 IKAnalyzer.cfg.xml 加入如下配置:
<
entry key
=
"
ext_stopwords
"
>/
ext_stopword.dic
</
entry
>
同樣這個配置也指向了一個文本文件
/
ext_stopword.dic (后綴名任意),格式如下:
也
了
仍
從
本文來自CSDN博客,轉載請標明出處:http:
//
blog.csdn.net/wenlin56/archive/2010/12/13/6074124.aspx
Feedback
#
re: Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞
回復
更多評論
2016-07-05 20:08 by
回家看回家看
54544554
刷新評論列表
只有注冊用戶
登錄
后才能發表評論。
相關文章:
Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞
網頁解析開源項目
一個 Java 搜索引擎的實現,第 2 部分: 網頁預處理
一個 Java 搜索引擎的實現,第 1 部分: 網絡爬蟲
java 下載網頁
Apache+php+mysql在XP下搭配詳解
MonoDevelop
heritrix1.14.4
tomcatPlugin下載地址
Heritrix-1.14.1怎么配置?
網站導航:
博客園
IT新聞
BlogJava
博問
Chat2DB
管理
Powered by:
C++博客
Copyright © Kevin_Zhang
日歷
<
2016年7月
>
日
一
二
三
四
五
六
26
27
28
29
30
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
1
2
3
4
5
6
常用鏈接
我的隨筆
我的評論
我參與的隨筆
隨筆分類
數據庫(1)
ACM基礎知識(9)
ARM(2)
C/C++(12)
DOS(1)
Google Map API
Heritrix(1)
IT News(22)
JAVA(3)
Jsp
Linux(9)
Lucene(1)
PHP(6)
Python
Tree
Trie樹(1)
博弈
動態規劃(1)
回溯
匯編
計算幾何(1)
模擬(4)
排序(2)
嵌入式
數據結構(2)
數論(2)
數學(3)
搜索(2)
搜索引擎(12)
隨機數
貪心(1)
圖論(1)
圖形學(1)
萬花筒(22)
網絡流
硬件(1)
隨筆檔案
2011年6月 (5)
2011年5月 (22)
2011年4月 (24)
2010年12月 (1)
2010年11月 (13)
2010年10月 (7)
2010年9月 (14)
2010年8月 (52)
2010年7月 (9)
文章分類
ACM題目分類(13)
C
C#
C++
DP動態規劃
JAVA
LUNIX
Python
博弈
計算幾何
模擬
數論(1)
搜索(1)
貪心
圖論
文章檔案
2010年8月 (4)
2010年7月 (22)
程序的靈魂--算法
沙場秋點兵,壯士凱歌還
北大POJ
他山之石,可以攻玉
圍觀強人
搜索
最新評論
1.?re: Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞
54544554
--回家看回家看
2.?re: 水
評論內容較長,點擊標題查看
--Jason Huang
3.?re: 10項技能讓前端開發者價值百萬!
評論內容較長,點擊標題查看
--BURKERosie25
4.?re: (轉載)ACM經歷總結[未登錄]
謝謝
--xingyezhi
5.?re: 世界頭號營銷大師們的營銷素質
大道至簡,殊途同歸,值得借鑒。
--Kevin_Zhang
閱讀排行榜
1.?Java動態數組的用法詳解(12224)
2.? Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞(3515)
3.?用scanf輸入字符串空格不識別??(2109)
4.?php java交互 php/java bridge (1958)
5.?設置MFC坐標系(1822)
青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
久久综合色播五月
|
小黄鸭精品aⅴ导航网站入口
|
黄色一区三区
|
国产一区二区精品久久
|
国产亚洲日本欧美韩国
|
国产尤物精品
|
亚洲精品欧洲精品
|
亚洲影院色在线观看免费
|
欧美亚洲在线播放
|
久久亚洲捆绑美女
|
欧美电影资源
|
99精品热视频只有精品10
|
亚洲视频在线视频
|
久久爱另类一区二区小说
|
久久久久久亚洲精品不卡4k岛国
|
久久久久久欧美
|
欧美黄色小视频
|
国产精品久久久久久影视
|
国产日韩精品电影
|
在线精品国产成人综合
|
日韩视频在线观看免费
|
午夜精品福利视频
|
久久天天躁夜夜躁狠狠躁2022
|
欧美xxxx在线观看
|
一本到高清视频免费精品
|
午夜久久黄色
|
欧美日韩一区二区精品
|
国产欧美一区二区三区在线老狼
|
欧美日韩综合精品
|
好看的日韩视频
|
亚洲图片自拍偷拍
|
美脚丝袜一区二区三区在线观看
|
欧美激情精品久久久久
|
国产精品系列在线
|
亚洲国产精品日韩
|
欧美在线视频免费观看
|
亚洲国产欧美另类丝袜
|
亚洲欧美区自拍先锋
|
欧美激情二区三区
|
在线精品国精品国产尤物884a
|
亚洲欧美日韩直播
|
亚洲欧洲一级
|
六月天综合网
|
激情久久五月
|
久久久欧美精品
|
亚洲欧美日本国产专区一区
|
欧美精品观看
|
久久精选视频
|
国产美女扒开尿口久久久
|
亚洲片区在线
|
久久亚洲私人国产精品va
|
一区二区三区回区在观看免费视频
|
久久永久免费
|
国产在线一区二区三区四区
|
免费成人黄色av
|
亚洲深夜福利
|
欧美日韩福利
|
亚洲视频在线观看
|
日韩视频二区
|
欧美日韩一卡
|
亚洲伊人网站
|
一区二区日韩精品
|
欧美日韩国产首页在线观看
|
亚洲人精品午夜
|
欧美成年人视频网站
|
久久九九精品
|
亚洲国内在线
|
亚洲毛片在线免费观看
|
欧美另类在线观看
|
夜夜爽www精品
|
国产精品99久久99久久久二8
|
欧美色精品天天在线观看视频
|
亚洲国产精品成人综合
|
欧美大尺度在线
|
一本久道久久综合婷婷鲸鱼
|
亚洲激情欧美激情
|
欧美午夜免费影院
|
欧美在线亚洲一区
|
久久频这里精品99香蕉
|
亚洲日本成人
|
亚洲电影在线
|
国产精品国产三级欧美二区
|
午夜精品久久久久久久99黑人
|
亚洲系列中文字幕
|
国产日韩欧美精品
|
欧美成人免费观看
|
欧美日韩1区
|
久久精品国产免费
|
欧美精品色一区二区三区
|
日韩亚洲不卡在线
|
在线综合+亚洲+欧美中文字幕
|
国产日韩欧美在线看
|
免费观看成人
|
欧美性感一类影片在线播放
|
久久精品91久久久久久再现
|
久久―日本道色综合久久
|
亚洲免费观看在线观看
|
亚洲图片欧洲图片日韩av
|
狠狠入ady亚洲精品
|
亚洲人被黑人高潮完整版
|
国产精品资源在线观看
|
欧美电影免费观看高清完整版
|
欧美日韩黄视频
|
国产日产亚洲精品系列
|
亚洲精品女av网站
|
亚洲一区二区三区成人在线视频精品
|
国产日韩亚洲欧美
|
亚洲精品美女在线观看
|
国产日韩亚洲欧美精品
|
亚洲欧洲日产国产综合网
|
国产一区亚洲一区
|
av不卡在线看
|
亚洲激情影视
|
欧美一区二区三区精品电影
|
亚洲最黄网站
|
免费成人在线观看视频
|
久久九九热免费视频
|
欧美日韩免费在线
|
亚洲大片免费看
|
狠狠v欧美v日韩v亚洲ⅴ
|
在线亚洲激情
|
一级成人国产
|
欧美精品性视频
|
欧美高清在线
|
亚洲成人在线视频播放
|
欧美亚洲一区在线
|
亚洲欧美制服中文字幕
|
欧美日韩精品一区视频
|
亚洲国产精品久久人人爱蜜臀
|
国产综合久久久久影院
|
亚洲已满18点击进入久久
|
亚洲视频久久
|
欧美视频一区二区三区
|
亚洲精品国产日韩
|
99视频一区
|
欧美日韩日日骚
|
99天天综合性
|
午夜精品福利视频
|
国产精品久久看
|
亚洲欧美国产精品桃花
|
亚洲在线成人
|
国产精品亚洲а∨天堂免在线
|
亚洲视频 欧洲视频
|
亚洲欧美中文在线视频
|
国产精品久久久久久久7电影
|
一区二区高清视频
|
午夜在线a亚洲v天堂网2018
|
国产精品欧美经典
|
午夜精品短视频
|
久久九九国产精品
|
在线播放视频一区
|
欧美1级日本1级
|
亚洲精品乱码久久久久久
|
99国产精品视频免费观看
|
欧美日本免费
|
亚洲天堂av高清
|
久久精品视频一
|
亚洲第一精品夜夜躁人人爽
|
久久久www成人免费精品
|
国产精品综合久久久
|
亚洲欧美在线x视频
|
久久视频一区
|
亚洲婷婷免费
|
国内偷自视频区视频综合
|
久久久久在线观看
|
亚洲美女尤物影院
|
欧美在线观看视频一区二区
|
永久91嫩草亚洲精品人人
|
欧美日本国产
|
欧美一级大片在线免费观看
|
国产精品免费看片
|
香蕉久久久久久久av网站
|
久久久久久夜
|
一区二区电影免费在线观看
|
国产色产综合色产在线视频
|
久热精品视频在线观看一区
|
亚洲欧美国产制服动漫
|
老司机精品导航
|
亚洲少妇最新在线视频
|
国产精品一区免费观看
|
久久这里只有精品视频首页
|
日韩午夜在线
|
免费人成网站在线观看欧美高清
|
国产日韩精品在线观看
|
美日韩免费视频
|
亚洲一区二区三区精品在线观看
|
久久一区精品
|
新片速递亚洲合集欧美合集
|
亚洲日本视频
|
黄色成人片子
|
国产精品夜夜嗨
|
欧美日韩一区成人
|
麻豆成人在线观看
|
欧美一区二区福利在线
|
亚洲剧情一区二区
|
亚洲国产综合视频在线观看
|
久久中文久久字幕
|
欧美在线一级va免费观看
|
亚洲香蕉网站
|
一区二区三区日韩精品
|