青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
登山之道
C++博客
::
首頁
::
新隨筆
:: :: ::
管理
Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞
Posted on 2011-04-17 19:25
Kevin_Zhang
閱讀(3515)
評論(1)
編輯
收藏
引用
所屬分類:
搜索引擎
1
. 常見的中文分詞器有:極易分詞的(MMAnalyzer) 、
"
庖丁分詞
"
分詞器(PaodingAnalzyer)、IKAnalyzer 等等。其中 MMAnalyzer 和 PaodingAnalzyer 不支持 lucene3.0及以后版本。
使用方式都類似,在構建分詞器時
Analyzer analyzer
=
new
[My]Analyzer();
2
. 這里只示例 IKAnalyzer,目前只有它支持Lucene3.
0
以后的版本。
首先需要導入 IKAnalyzer3.
2
.0Stable.jar 包
3
. 示例代碼
view plaincopy to clipboardprint
?
public
class
AnalyzerTest
{
@Test
public
void
test()
throws
Exception
{
String text
=
"
An IndexWriter creates and maintains an index.
"
;
/**/
/*
標準分詞器:單子分詞
*/
Analyzer analyzer
=
new
StandardAnalyzer(Version.LUCENE_30);
testAnalyzer(analyzer, text);
String text2
=
"
測試中文環境下的信息檢索
"
;
testAnalyzer(
new
IKAnalyzer(), text2);
//
使用IKAnalyzer,詞庫分詞
}
/** */
/**
* 使用指定的分詞器對指定的文本進行分詞,并打印結果
*
*
@param
analyzer
*
@param
text
*
@throws
Exception
*/
private
void
testAnalyzer(Analyzer analyzer, String text)
throws
Exception
{
System.out.println(
"
當前使用的分詞器:
"
+
analyzer.getClass());
TokenStream tokenStream
=
analyzer.tokenStream(
"
content
"
,
new
StringReader(text));
tokenStream.addAttribute(TermAttribute.
class
);
while
(tokenStream.incrementToken())
{
TermAttribute termAttribute
=
tokenStream.getAttribute(TermAttribute.
class
);
System.out.println(termAttribute.term());
}
}
}
public
class
AnalyzerTest
{
@Test
public
void
test()
throws
Exception
{
String text
=
"
An IndexWriter creates and maintains an index.
"
;
/**/
/*
標準分詞器:單子分詞
*/
Analyzer analyzer
=
new
StandardAnalyzer(Version.LUCENE_30);
testAnalyzer(analyzer, text);
String text2
=
"
測試中文環境下的信息檢索
"
;
testAnalyzer(
new
IKAnalyzer(), text2);
//
使用IKAnalyzer,詞庫分詞
}
/** */
/**
* 使用指定的分詞器對指定的文本進行分詞,并打印結果
*
*
@param
analyzer
*
@param
text
*
@throws
Exception
*/
private
void
testAnalyzer(Analyzer analyzer, String text)
throws
Exception
{
System.out.println(
"
當前使用的分詞器:
"
+
analyzer.getClass());
TokenStream tokenStream
=
analyzer.tokenStream(
"
content
"
,
new
StringReader(text));
tokenStream.addAttribute(TermAttribute.
class
);
while
(tokenStream.incrementToken())
{
TermAttribute termAttribute
=
tokenStream.getAttribute(TermAttribute.
class
);
System.out.println(termAttribute.term());
}
}
}
3
. 如何擴展詞庫:很多情況下,我們可能需要定制自己的詞庫,例如 XXX 公司,我們希望這能被分詞器識別,并拆分成一個詞。
IKAnalyzer 可以很方便的實現我們的這種需求。
新建 IKAnalyzer.cfg.xml
view plaincopy to clipboardprint
?
<?
xml version
=
"
1.0
"
encoding
=
"
UTF-8
"
?>
<!
DOCTYPE properties SYSTEM
"
http://java.sun.com/dtd/properties.dtd
"
>
<
properties
>
<!--
1
,文件要是 UTF
-
8
編碼。
2
,一行寫一個詞
-->
<!--
用戶可以在這里配置自己的擴展字典
-->
<
entry key
=
"
ext_dict
"
>/
mydict.dic
</
entry
>
</
properties
>
<?
xml version
=
"
1.0
"
encoding
=
"
UTF-8
"
?>
<!
DOCTYPE properties SYSTEM
"
http://java.sun.com/dtd/properties.dtd
"
>
<
properties
>
<!--
1
,文件要是 UTF
-
8
編碼。
2
,一行寫一個詞
-->
<!--
用戶可以在這里配置自己的擴展字典
-->
<
entry key
=
"
ext_dict
"
>/
mydict.dic
</
entry
>
</
properties
>
解析:
<
entry key
=
"
ext_dict
"
>/
mydict.dic
</
entry
>
擴展了一個自己的詞典,名字叫 mydict.dic
因此我們要建一個文本文件,名為:mydict.dic (此處使用的 .dic 并非必須)
在這個文本文件里寫入:
北京XXXX科技有限公司
這樣就添加了一個詞匯。
如果要添加多個,則新起一行:
詞匯一
詞匯二
詞匯三
需要注意的是,這個文件一定要使用 UTF
-
8編碼
4
. 停用詞:
有些詞在文本中出現的頻率非常高,但是對文本所攜帶的信息基本不產生影響,例如英文的
"
a、an、the、of
"
,或中文的
"
的、了、著
"
,以及各種標點符號等,這樣的詞稱為停用詞(stop word)。
文本經過分詞之后,停用詞通常被過濾掉,不會被進行索引。在檢索的時候,用戶的查詢中如果含有停用詞,檢索系統也會將其過濾掉(因為用戶輸入的查詢字符串也要進行分詞處理)。
排除停用詞可以加快建立索引的速度,減小索引庫文件的大小。
IKAnalyzer 中自定義停用詞也非常方便,和配置
"
擴展詞庫
"
操作類型,只需要在 IKAnalyzer.cfg.xml 加入如下配置:
<
entry key
=
"
ext_stopwords
"
>/
ext_stopword.dic
</
entry
>
同樣這個配置也指向了一個文本文件
/
ext_stopword.dic (后綴名任意),格式如下:
也
了
仍
從
本文來自CSDN博客,轉載請標明出處:http:
//
blog.csdn.net/wenlin56/archive/2010/12/13/6074124.aspx
Feedback
#
re: Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞
回復
更多評論
2016-07-05 20:08 by
回家看回家看
54544554
刷新評論列表
只有注冊用戶
登錄
后才能發表評論。
相關文章:
Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞
網頁解析開源項目
一個 Java 搜索引擎的實現,第 2 部分: 網頁預處理
一個 Java 搜索引擎的實現,第 1 部分: 網絡爬蟲
java 下載網頁
Apache+php+mysql在XP下搭配詳解
MonoDevelop
heritrix1.14.4
tomcatPlugin下載地址
Heritrix-1.14.1怎么配置?
網站導航:
博客園
IT新聞
BlogJava
博問
Chat2DB
管理
Powered by:
C++博客
Copyright © Kevin_Zhang
日歷
<
2011年4月
>
日
一
二
三
四
五
六
27
28
29
30
31
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
1
2
3
4
5
6
7
常用鏈接
我的隨筆
我的評論
我參與的隨筆
隨筆分類
數據庫(1)
ACM基礎知識(9)
ARM(2)
C/C++(12)
DOS(1)
Google Map API
Heritrix(1)
IT News(22)
JAVA(3)
Jsp
Linux(9)
Lucene(1)
PHP(6)
Python
Tree
Trie樹(1)
博弈
動態規劃(1)
回溯
匯編
計算幾何(1)
模擬(4)
排序(2)
嵌入式
數據結構(2)
數論(2)
數學(3)
搜索(2)
搜索引擎(12)
隨機數
貪心(1)
圖論(1)
圖形學(1)
萬花筒(22)
網絡流
硬件(1)
隨筆檔案
2011年6月 (5)
2011年5月 (22)
2011年4月 (24)
2010年12月 (1)
2010年11月 (13)
2010年10月 (7)
2010年9月 (14)
2010年8月 (52)
2010年7月 (9)
文章分類
ACM題目分類(13)
C
C#
C++
DP動態規劃
JAVA
LUNIX
Python
博弈
計算幾何
模擬
數論(1)
搜索(1)
貪心
圖論
文章檔案
2010年8月 (4)
2010年7月 (22)
程序的靈魂--算法
沙場秋點兵,壯士凱歌還
北大POJ
他山之石,可以攻玉
圍觀強人
搜索
最新評論
1.?re: Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞
54544554
--回家看回家看
2.?re: 水
評論內容較長,點擊標題查看
--Jason Huang
3.?re: 10項技能讓前端開發者價值百萬!
評論內容較長,點擊標題查看
--BURKERosie25
4.?re: (轉載)ACM經歷總結[未登錄]
謝謝
--xingyezhi
5.?re: 世界頭號營銷大師們的營銷素質
大道至簡,殊途同歸,值得借鑒。
--Kevin_Zhang
閱讀排行榜
1.?Java動態數組的用法詳解(12224)
2.? Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞(3515)
3.?用scanf輸入字符串空格不識別??(2109)
4.?php java交互 php/java bridge (1958)
5.?設置MFC坐標系(1822)
青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
久久亚洲精品一区
|
国产欧美精品久久
|
亚洲性视频网址
|
夜夜狂射影院欧美极品
|
99re热这里只有精品视频
|
亚洲欧洲一级
|
最近中文字幕日韩精品
|
99精品视频网
|
欧美专区在线播放
|
久久精品理论片
|
欧美不卡视频一区
|
欧美日本一道本
|
夜夜嗨av一区二区三区网页
|
亚洲香蕉视频
|
亚洲一区二区视频在线
|
久久精品欧洲
|
欧美激情精品久久久久久免费印度
|
亚洲国产精品va在看黑人
|
9久re热视频在线精品
|
欧美中文字幕在线
|
欧美成人一区二免费视频软件
|
欧美三区在线
|
亚洲大黄网站
|
性欧美18~19sex高清播放
|
牛牛国产精品
|
亚洲欧美日韩第一区
|
久热精品视频
|
国产精品综合
|
一本色道久久加勒比精品
|
久久精品国产清自在天天线
|
亚洲片国产一区一级在线观看
|
亚洲欧美中文日韩v在线观看
|
久久青青草原一区二区
|
国产精品理论片
|
亚洲精选大片
|
久久在线免费
|
亚洲欧美精品
|
欧美日韩中文字幕日韩欧美
|
激情自拍一区
|
欧美中文字幕视频在线观看
|
91久久在线播放
|
久久精品午夜
|
国产亚洲精品成人av久久ww
|
亚洲天堂久久
|
亚洲人成毛片在线播放女女
|
久久中文在线
|
精品二区久久
|
久久久伊人欧美
|
亚洲一级在线
|
欧美日韩中文字幕日韩欧美
|
亚洲欧洲综合
|
欧美黄色网络
|
免费看亚洲片
|
亚洲欧洲在线播放
|
久久一区中文字幕
|
欧美在线视频观看免费网站
|
国产精品中文字幕欧美
|
亚洲一区视频
|
亚洲午夜视频在线观看
|
国产精品第一区
|
亚洲一区二区在
|
亚洲丝袜av一区
|
欧美日韩卡一卡二
|
日韩一区二区福利
|
亚洲人精品午夜
|
欧美日韩三区
|
亚洲欧美日韩网
|
亚洲综合第一页
|
国产日韩欧美在线播放
|
欧美在线播放
|
欧美在线首页
|
亚洲黄色av一区
|
日韩小视频在线观看专区
|
亚洲精品国产精品久久清纯直播
|
你懂的成人av
|
欧美成人亚洲
|
亚洲一区二区三区高清
|
亚洲网在线观看
|
国产一级揄自揄精品视频
|
久久综合给合
|
欧美福利在线
|
亚洲神马久久
|
欧美一二三视频
|
亚洲第一页在线
|
91久久综合
|
国产伦精品一区二区三区四区免费
|
久久高清免费观看
|
久久综合影音
|
亚洲一区三区在线观看
|
久久久久久国产精品mv
|
亚洲免费精彩视频
|
亚洲欧洲av一区二区
|
亚洲福利免费
|
亚洲一区国产
|
亚洲国产精品一区
|
亚洲天堂成人在线视频
|
永久免费毛片在线播放不卡
|
亚洲美女中文字幕
|
加勒比av一区二区
|
夜夜嗨网站十八久久
|
国内精品久久久久久久影视麻豆
|
欧美凹凸一区二区三区视频
|
一本色道综合亚洲
|
欧美在线播放一区
|
一区二区电影免费观看
|
久久精品中文
|
羞羞答答国产精品www一本
|
欧美一区二区三区在线观看
|
老司机精品视频一区二区三区
|
欧美福利一区二区三区
|
久久男女视频
|
国产精品亚洲综合色区韩国
|
亚洲国产日本
|
在线看视频不卡
|
欧美一区二区在线看
|
av成人动漫
|
欧美va亚洲va日韩∨a综合色
|
久久精品国产亚洲aⅴ
|
欧美日韩在线一区
|
亚洲精品一线二线三线无人区
|
在线不卡免费欧美
|
午夜精品一区二区三区在线播放
|
一本色道久久88综合亚洲精品ⅰ
|
亚洲天堂成人在线观看
|
9l视频自拍蝌蚪9l视频成人
|
久久av一区二区三区漫画
|
久久天天躁狠狠躁夜夜爽蜜月
|
国产精品国产三级国产
|
亚洲福利国产精品
|
在线观看亚洲一区
|
欧美中文字幕久久
|
久久五月天婷婷
|
国外成人免费视频
|
欧美伊人精品成人久久综合97
|
亚洲欧美日韩国产
|
国产精品理论片
|
午夜国产不卡在线观看视频
|
亚洲欧美日韩天堂
|
国产伦一区二区三区色一情
|
亚洲一区二区免费看
|
亚洲综合首页
|
国产精品一页
|
欧美亚洲三级
|
麻豆国产精品777777在线
|
一区二区三区在线观看欧美
|
久久美女艺术照精彩视频福利播放
|
久久国内精品自在自线400部
|
国产精品男gay被猛男狂揉视频
|
99天天综合性
|
午夜精品久久久久久久99热浪潮
|
国产精品美女黄网
|
欧美一区二区精品
|
欧美成年人视频
|
亚洲作爱视频
|
国产欧美日韩综合精品二区
|
久久久精品国产99久久精品芒果
|
欧美激情视频一区二区三区不卡
|
亚洲精品裸体
|
国产精品成人免费
|
欧美一区1区三区3区公司
|
美女视频黄免费的久久
|
亚洲精品视频在线看
|
欧美母乳在线
|
亚洲综合成人在线
|
欧美激情精品久久久
|
中文亚洲视频在线
|
国产一区二区三区视频在线观看
|
久久免费黄色
|
一区二区三区四区五区精品视频
|
欧美在线视频全部完
|
亚洲风情亚aⅴ在线发布
|
欧美视频在线免费
|
久久精品视频播放
|
亚洲精品1区2区
|
久久精品av麻豆的观看方式
|
亚洲欧洲日韩女同
|
国产欧美一区二区精品仙草咪
|
久久在线免费观看
|
一区二区高清
|
亚洲大黄网站
|
久久精品视频亚洲
|
日韩西西人体444www
|
国产视频一区二区在线观看
|
欧美国产精品一区
|
欧美在线免费观看视频
|
国产精品99久久久久久www
|
久久精品欧美日韩
|
亚洲伦理精品
|
精品不卡一区二区三区
|
欧美日韩国产首页
|
久久久久久尹人网香蕉
|
日韩视频一区二区
|
欧美电影免费网站
|
欧美在线一级视频
|
亚洲视频电影在线
|
亚洲日本中文
|
亚洲国产天堂网精品网站
|
国产精品视频自拍
|
欧美日韩亚洲高清
|
免费在线观看成人av
|