6、Lucene4.9学习笔记——Lucene分词器使用之IKAnalyzer

1、IK分词测试

下面给出了IK的示例代码及IK的分词测试,示例代码见github:

https://github.com/irfen/lucene-example

我这里使用的是开源中国(OSC)的maven库,而且增加了其第三方库支持,具体配置见下面两篇内容:

http://maven.oschina.net/help.html

http://my.oschina.net/huangyong/blog/195559

有了开源中国,妈妈再也不用担心我的maven下载好慢了。

在pom中增加如下配置:

  建议大家使用maven构建项目,尤其是在目前这个google被屏蔽的时候,很多托管在googlecode上的项目都没法访问了,但是可以用maven下载jar。 下面介绍分词的测试情况: 分词的测试文本:不论你采用什么形式的测试过程,什么形式的部署过程,没有代码审查——game over。为什么?因为代码的质量是一种人能看懂的质量。不管你如何测试,有如何严谨的部署流程,只有当另外一个人看了这些代码,并且表明能看懂时,这些代码才有意义。如果看不懂,你认为这样的代码——虽然测试通过、部署符合流程——可以上线吗? Ps:本段内容摘自你们公司做代码审查吗? 下面是分词的结果:

如上所示,这里我们循环出来了所有短语及位置信息,这个在处理查询及高亮的时候是非常给力的。

首先需要用IK做索引,这部分与之前讲的索引过程相类似,这里就不再赘述了,具体代码见github:

https://github.com/irfen/lucene-example/blob/master/src/main/java/me/irfen/lucene/ch06/LuceneIKIndex.java

https://github.com/irfen/lucene-example/blob/master/src/test/java/me/irfen/lucene/ch06/LuceneIKIndexTest.java

https://github.com/irfen/lucene-example/blob/master/src/test/java/me/irfen/lucene/ch06/IKAnalyzerTest.java

唯一不同的是Field上需要一些设定:

词频(TF)查询代码见github:

https://github.com/irfen/lucene-example/blob/master/src/test/java/me/irfen/lucene/ch06/IKAnalyzerTest.java

这里只是遍历了所有的词及词频,你还可以给这个排个序看看。

下面是词频的结果:

词在几篇文档中存在(IDF)的代码见github:

https://github.com/irfen/lucene-example/blob/master/src/test/java/me/irfen/lucene/ch06/IKAnalyzerTest.java

结果就不贴,因为这里只放了一段文字,肯定都是1。

本文发表自赵伊凡BLOG

©原创文章,转载请注明来源: 赵伊凡's Blog
©本文链接地址: 6、Lucene4.9学习笔记——Lucene分词器使用之IKAnalyzer

“6、Lucene4.9学习笔记——Lucene分词器使用之IKAnalyzer”的35个回复

  1. Pingback: Blue Coaster33
  2. Pingback: mp4 mobile porn
  3. Pingback: car parking
  4. Pingback: lan penge online nu
  5. Pingback: laane penge nu
  6. Pingback: stop parking
  7. Pingback: water ionizer
  8. Pingback: alkaline water brands
  9. Pingback: the full report
  10. Pingback: click this site
  11. Pingback: house blue
  12. Pingback: electrician lineman
  13. Pingback: ionizer payment plan
  14. Pingback: ionizer loans
  15. Pingback: alkaline water
  16. Pingback: car insurance
  17. Pingback: water ionizer
  18. Pingback: alkaline water
  19. Pingback: he has a good point
  20. Pingback: learn more

发表评论

电子邮件地址不会被公开。 必填项已用*标注