青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
登山之道
C++博客
::
首頁
::
新隨筆
:: :: ::
管理
Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞
Posted on 2011-04-17 19:25
Kevin_Zhang
閱讀(3508)
評論(1)
編輯
收藏
引用
所屬分類:
搜索引擎
1
. 常見的中文分詞器有:極易分詞的(MMAnalyzer) 、
"
庖丁分詞
"
分詞器(PaodingAnalzyer)、IKAnalyzer 等等。其中 MMAnalyzer 和 PaodingAnalzyer 不支持 lucene3.0及以后版本。
使用方式都類似,在構建分詞器時
Analyzer analyzer
=
new
[My]Analyzer();
2
. 這里只示例 IKAnalyzer,目前只有它支持Lucene3.
0
以后的版本。
首先需要導入 IKAnalyzer3.
2
.0Stable.jar 包
3
. 示例代碼
view plaincopy to clipboardprint
?
public
class
AnalyzerTest
{
@Test
public
void
test()
throws
Exception
{
String text
=
"
An IndexWriter creates and maintains an index.
"
;
/**/
/*
標準分詞器:單子分詞
*/
Analyzer analyzer
=
new
StandardAnalyzer(Version.LUCENE_30);
testAnalyzer(analyzer, text);
String text2
=
"
測試中文環境下的信息檢索
"
;
testAnalyzer(
new
IKAnalyzer(), text2);
//
使用IKAnalyzer,詞庫分詞
}
/** */
/**
* 使用指定的分詞器對指定的文本進行分詞,并打印結果
*
*
@param
analyzer
*
@param
text
*
@throws
Exception
*/
private
void
testAnalyzer(Analyzer analyzer, String text)
throws
Exception
{
System.out.println(
"
當前使用的分詞器:
"
+
analyzer.getClass());
TokenStream tokenStream
=
analyzer.tokenStream(
"
content
"
,
new
StringReader(text));
tokenStream.addAttribute(TermAttribute.
class
);
while
(tokenStream.incrementToken())
{
TermAttribute termAttribute
=
tokenStream.getAttribute(TermAttribute.
class
);
System.out.println(termAttribute.term());
}
}
}
public
class
AnalyzerTest
{
@Test
public
void
test()
throws
Exception
{
String text
=
"
An IndexWriter creates and maintains an index.
"
;
/**/
/*
標準分詞器:單子分詞
*/
Analyzer analyzer
=
new
StandardAnalyzer(Version.LUCENE_30);
testAnalyzer(analyzer, text);
String text2
=
"
測試中文環境下的信息檢索
"
;
testAnalyzer(
new
IKAnalyzer(), text2);
//
使用IKAnalyzer,詞庫分詞
}
/** */
/**
* 使用指定的分詞器對指定的文本進行分詞,并打印結果
*
*
@param
analyzer
*
@param
text
*
@throws
Exception
*/
private
void
testAnalyzer(Analyzer analyzer, String text)
throws
Exception
{
System.out.println(
"
當前使用的分詞器:
"
+
analyzer.getClass());
TokenStream tokenStream
=
analyzer.tokenStream(
"
content
"
,
new
StringReader(text));
tokenStream.addAttribute(TermAttribute.
class
);
while
(tokenStream.incrementToken())
{
TermAttribute termAttribute
=
tokenStream.getAttribute(TermAttribute.
class
);
System.out.println(termAttribute.term());
}
}
}
3
. 如何擴展詞庫:很多情況下,我們可能需要定制自己的詞庫,例如 XXX 公司,我們希望這能被分詞器識別,并拆分成一個詞。
IKAnalyzer 可以很方便的實現我們的這種需求。
新建 IKAnalyzer.cfg.xml
view plaincopy to clipboardprint
?
<?
xml version
=
"
1.0
"
encoding
=
"
UTF-8
"
?>
<!
DOCTYPE properties SYSTEM
"
http://java.sun.com/dtd/properties.dtd
"
>
<
properties
>
<!--
1
,文件要是 UTF
-
8
編碼。
2
,一行寫一個詞
-->
<!--
用戶可以在這里配置自己的擴展字典
-->
<
entry key
=
"
ext_dict
"
>/
mydict.dic
</
entry
>
</
properties
>
<?
xml version
=
"
1.0
"
encoding
=
"
UTF-8
"
?>
<!
DOCTYPE properties SYSTEM
"
http://java.sun.com/dtd/properties.dtd
"
>
<
properties
>
<!--
1
,文件要是 UTF
-
8
編碼。
2
,一行寫一個詞
-->
<!--
用戶可以在這里配置自己的擴展字典
-->
<
entry key
=
"
ext_dict
"
>/
mydict.dic
</
entry
>
</
properties
>
解析:
<
entry key
=
"
ext_dict
"
>/
mydict.dic
</
entry
>
擴展了一個自己的詞典,名字叫 mydict.dic
因此我們要建一個文本文件,名為:mydict.dic (此處使用的 .dic 并非必須)
在這個文本文件里寫入:
北京XXXX科技有限公司
這樣就添加了一個詞匯。
如果要添加多個,則新起一行:
詞匯一
詞匯二
詞匯三
需要注意的是,這個文件一定要使用 UTF
-
8編碼
4
. 停用詞:
有些詞在文本中出現的頻率非常高,但是對文本所攜帶的信息基本不產生影響,例如英文的
"
a、an、the、of
"
,或中文的
"
的、了、著
"
,以及各種標點符號等,這樣的詞稱為停用詞(stop word)。
文本經過分詞之后,停用詞通常被過濾掉,不會被進行索引。在檢索的時候,用戶的查詢中如果含有停用詞,檢索系統也會將其過濾掉(因為用戶輸入的查詢字符串也要進行分詞處理)。
排除停用詞可以加快建立索引的速度,減小索引庫文件的大小。
IKAnalyzer 中自定義停用詞也非常方便,和配置
"
擴展詞庫
"
操作類型,只需要在 IKAnalyzer.cfg.xml 加入如下配置:
<
entry key
=
"
ext_stopwords
"
>/
ext_stopword.dic
</
entry
>
同樣這個配置也指向了一個文本文件
/
ext_stopword.dic (后綴名任意),格式如下:
也
了
仍
從
本文來自CSDN博客,轉載請標明出處:http:
//
blog.csdn.net/wenlin56/archive/2010/12/13/6074124.aspx
Feedback
#
re: Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞
回復
更多評論
2016-07-05 20:08 by
回家看回家看
54544554
刷新評論列表
只有注冊用戶
登錄
后才能發表評論。
【推薦】100%開源!大型工業跨平臺軟件C++源碼提供,建模,組態!
相關文章:
Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞
網頁解析開源項目
一個 Java 搜索引擎的實現,第 2 部分: 網頁預處理
一個 Java 搜索引擎的實現,第 1 部分: 網絡爬蟲
java 下載網頁
Apache+php+mysql在XP下搭配詳解
MonoDevelop
heritrix1.14.4
tomcatPlugin下載地址
Heritrix-1.14.1怎么配置?
網站導航:
博客園
IT新聞
BlogJava
博問
Chat2DB
管理
Powered by:
C++博客
Copyright © Kevin_Zhang
日歷
<
2025年9月
>
日
一
二
三
四
五
六
31
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
1
2
3
4
5
6
7
8
9
10
11
常用鏈接
我的隨筆
我的評論
我參與的隨筆
隨筆分類
數據庫(1)
ACM基礎知識(9)
ARM(2)
C/C++(12)
DOS(1)
Google Map API
Heritrix(1)
IT News(22)
JAVA(3)
Jsp
Linux(9)
Lucene(1)
PHP(6)
Python
Tree
Trie樹(1)
博弈
動態規劃(1)
回溯
匯編
計算幾何(1)
模擬(4)
排序(2)
嵌入式
數據結構(2)
數論(2)
數學(3)
搜索(2)
搜索引擎(12)
隨機數
貪心(1)
圖論(1)
圖形學(1)
萬花筒(22)
網絡流
硬件(1)
隨筆檔案
2011年6月 (5)
2011年5月 (22)
2011年4月 (24)
2010年12月 (1)
2010年11月 (13)
2010年10月 (7)
2010年9月 (14)
2010年8月 (52)
2010年7月 (9)
文章分類
ACM題目分類(13)
C
C#
C++
DP動態規劃
JAVA
LUNIX
Python
博弈
計算幾何
模擬
數論(1)
搜索(1)
貪心
圖論
文章檔案
2010年8月 (4)
2010年7月 (22)
程序的靈魂--算法
沙場秋點兵,壯士凱歌還
北大POJ
他山之石,可以攻玉
圍觀強人
搜索
最新評論
1.?re: Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞
54544554
--回家看回家看
2.?re: 水
評論內容較長,點擊標題查看
--Jason Huang
3.?re: 10項技能讓前端開發者價值百萬!
評論內容較長,點擊標題查看
--BURKERosie25
4.?re: (轉載)ACM經歷總結[未登錄]
謝謝
--xingyezhi
5.?re: 世界頭號營銷大師們的營銷素質
大道至簡,殊途同歸,值得借鑒。
--Kevin_Zhang
閱讀排行榜
1.?Java動態數組的用法詳解(12216)
2.? Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞(3508)
3.?用scanf輸入字符串空格不識別??(2104)
4.?php java交互 php/java bridge (1950)
5.?設置MFC坐標系(1814)
青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
国产精品一区二区你懂的
|
欧美黄色免费网站
|
影音先锋成人资源站
|
黄色亚洲在线
|
在线观看不卡av
|
亚洲欧洲视频在线
|
亚洲网址在线
|
午夜在线观看欧美
|
欧美在线高清视频
|
亚洲欧美在线免费
|
亚洲国产成人精品久久久国产成人一区
|
国产日韩欧美综合
|
在线精品国精品国产尤物884a
|
亚洲第一中文字幕
|
在线综合亚洲
|
久久久九九九九
|
91久久精品国产91性色
|
99国内精品久久久久久久软件
|
亚洲女同性videos
|
麻豆国产va免费精品高清在线
|
欧美女同视频
|
国产亚洲一区二区精品
|
91久久精品美女
|
久久精品在线免费观看
|
亚洲第一在线
|
欧美中文字幕在线视频
|
欧美另类视频
|
玉米视频成人免费看
|
99国产成+人+综合+亚洲欧美
|
久久福利一区
|
亚洲免费观看高清完整版在线观看熊
|
欧美一区成人
|
欧美午夜电影在线观看
|
亚洲国产成人久久综合一区
|
午夜在线精品
|
a4yy欧美一区二区三区
|
美女视频黄a大片欧美
|
久久国产欧美
|
欧美日韩综合在线
|
亚洲欧美经典视频
|
久久先锋资源
|
亚洲视频在线观看视频
|
欧美久久久久
|
一区二区在线观看视频
|
亚洲欧美日韩在线综合
|
亚洲精品一区二区三
|
玖玖玖免费嫩草在线影院一区
|
国产日韩视频一区二区三区
|
亚洲一区二区三区在线
|
亚洲国产一区二区视频
|
久久伊人一区二区
|
国内精品免费午夜毛片
|
久久精品国产69国产精品亚洲
|
99视频一区二区
|
欧美日韩免费观看一区
|
99国产精品99久久久久久
|
亚洲黄色一区二区三区
|
欧美高清视频一区二区三区在线观看
|
久久亚洲综合色
|
亚洲视频日本
|
国产精品一区三区
|
亚洲欧美在线看
|
欧美一级网站
|
一区二区三区自拍
|
老色批av在线精品
|
免费不卡在线视频
|
亚洲精品视频一区
|
亚洲激情在线播放
|
欧美视频在线观看视频极品
|
亚洲素人一区二区
|
国产一区欧美日韩
|
欧美日韩hd
|
亚洲国产美女久久久久
|
久久综合婷婷
|
久久久av毛片精品
|
亚洲国产精品欧美一二99
|
欧美成年视频
|
欧美日韩1234
|
午夜精品一区二区三区电影天堂
|
在线综合亚洲欧美在线视频
|
国产伦精品一区二区三区视频孕妇
|
欧美在线1区
|
女人天堂亚洲aⅴ在线观看
|
9久草视频在线视频精品
|
亚洲午夜精品一区二区
|
伊人成年综合电影网
|
亚洲电影欧美电影有声小说
|
欧美激情麻豆
|
亚洲欧美亚洲
|
久久免费黄色
|
亚洲天堂成人
|
美日韩精品视频免费看
|
欧美第一黄色网
|
亚洲欧美日韩在线不卡
|
久久久www免费人成黑人精品
|
亚洲第一精品影视
|
亚洲国产日韩综合一区
|
国产精品区一区二区三区
|
榴莲视频成人在线观看
|
欧美日韩国产色综合一二三四
|
亚洲精品国产欧美
|
国产午夜精品美女毛片视频
|
亚洲人久久久
|
激情久久影院
|
亚洲网址在线
|
亚洲日本激情
|
欧美一区二区三区免费在线看
|
免费欧美在线
|
国产精品入口日韩视频大尺度
|
欧美成人精品在线
|
国产日韩欧美日韩大片
|
亚洲国产免费看
|
亚洲国产成人在线播放
|
欧美在线观看日本一区
|
亚洲综合日韩中文字幕v在线
|
久久不见久久见免费视频1
|
亚洲一区二区免费视频
|
免费在线观看日韩欧美
|
久久视频国产精品免费视频在线
|
国产精品久久7
|
亚洲精品一二
|
亚洲激情视频在线观看
|
久久国产66
|
久久亚洲影院
|
伊人激情综合
|
欧美一级在线视频
|
午夜精品99久久免费
|
欧美日韩亚洲一区二
|
亚洲国产专区
|
亚洲国产高清在线
|
另类酷文…触手系列精品集v1小说
|
欧美专区一区二区三区
|
国产精品美女黄网
|
亚洲欧美另类中文字幕
|
午夜伦欧美伦电影理论片
|
国产精品久久久久久久久婷婷
|
亚洲欧洲一区二区在线播放
|
亚洲国产一区二区三区在线播
|
久久亚洲色图
|
亚洲成人自拍视频
|
亚洲三级影院
|
欧美精品久久一区二区
|
91久久精品国产91性色
|
9色精品在线
|
欧美日韩在线播放三区
|
一本高清dvd不卡在线观看
|
亚洲欧美国产精品桃花
|
国产日韩欧美二区
|
亚洲电影网站
|
日韩一级免费
|
欧美三级电影网
|
亚洲综合色自拍一区
|
久久久久.com
|
亚洲精华国产欧美
|
欧美视频一区在线观看
|
亚洲一区成人
|
乱人伦精品视频在线观看
|
亚洲国产专区校园欧美
|
欧美日韩专区
|
欧美一区久久
|
亚洲国产精品一区
|
亚洲欧美中文日韩v在线观看
|
国内精品久久久久久
|
久热精品在线
|
亚洲性人人天天夜夜摸
|
老司机一区二区
|
一区二区三区四区五区精品视频
|
亚洲成人在线视频播放
|
欧美人与性动交cc0o
|
亚洲欧美日韩国产综合精品二区
|
美女网站在线免费欧美精品
|
99热这里只有精品8
|
国产精品露脸自拍
|
美女精品在线
|
亚洲午夜精品一区二区
|
欧美电影在线观看
|
午夜精品久久久久久久蜜桃app
|
国产一区二区视频在线观看
|
欧美精品一区二区三区蜜臀
|
午夜精品国产
|
亚洲精品在线视频观看
|
久久婷婷久久
|
亚洲欧美精品在线观看
|
亚洲激情在线观看
|
国产一区久久
|
国产精品视频
|
欧美美女操人视频
|
久热精品在线
|
欧美在线视频观看免费网站
|
亚洲另类自拍
|
欧美顶级大胆免费视频
|
欧美与黑人午夜性猛交久久久
|
一区二区三区欧美在线
|
亚洲国产另类 国产精品国产免费
|
国产日韩欧美另类
|
国产精品稀缺呦系列在线
|
欧美电影免费观看高清
|
久久久久久色
|
久久精品国产久精国产思思
|
亚洲欧美视频
|