IKanalyzer分词器从配置到运用
IKAnalyzer 是基于 Java 开发的开源轻量级中文分词工具包,常用于 Lucene、Elasticsearch(ES)等全文检索场景,提供细粒度与智能分词两种模式,支持自定义词典与高速分词处理。
分词器的核心内容
· 算法与性能:采用 “正向迭代最细粒度切分算法”,2012 版本在普通 PC 环境下可达 160 万字 / 秒处理速度,支持细粒度(ik_max_word)和智能分词(ik_smart)两种模式,适配不同检索需求。
· 多类型文本处理:支持中英文、数字、日期、IP、Email 等混合分词,兼容日韩字符,具备中文姓名、地名识别能力。
· 词典扩展:支持用户自定义词典(中文 / 英文 / 数字混合),2012 版本优化词典存储,降低内存占用,适配动态扩展场景。
· 歧义处理:智能分词模式支持简单歧义排除与数量词合并,提升分词准确性。
· 兼容性:3.0 版本起独立于 Lucene,同时提供 Lucene/Solr/ES 的默认适配,2012_u6 为稳定版,广泛用于生产环境。
Pom.xml配置
dependency><groupId>com.janeluo</groupId><artifactId>ikanalyzer</artifactId><version>2012_u6</version></dependency>IKAnalyzer.cfg.xml分词配置文件
<properties><comment>IKAnalyzer扩展配置</comment><!--用户可以在这里配置自己的扩展字典--><entry key="ext_dict">local.dic;</entry><!--用户可以在这里配置自己的扩展停止词字典--><entry key="ext_stopwords">stop.dic;</entry></properties>分词代码块
/** * 分词 (IKanalyzer) * @para