LUCE怎么用效果才好？资深用户分享LUCE实用技巧！

今天跟大家唠唠我捣鼓“LUCE”这玩意儿的经历。我对这东西也没啥概念，就是项目里头摊派下来一个活儿，说是要做个类似全文检索的功能，能搜咱们自己内部的一堆文档。头儿甩给我几个关键词，其中一个就是“LUCE”。

一、摸索阶段，两眼一抹黑

拿到任务，我先是上网扒拉了一下，，原来大伙儿说的“LUCE”很多时候指的是那个叫Lucene的玩意儿，一个开源的搜索库。看着介绍挺牛的，说是Apache基金会的项目，历史悠久，用的人也多。行，那就它了！

说干就干！ 第一步，那肯定是搭环境。我这电脑上Java环境倒是一直有，就去官网下了Lucene的包。解压一看，好家伙，一堆jar包，当时就有点懵。不过还网上教程多，照着葫芦画瓢，先把依赖啥的在我的项目里配置

环境配的差不多了，我就开始琢磨怎么把我的文档喂给它。看文档说，得先建立索引。这个过程就像是给书建目录，以后查找就快了。但问题来了，我的文档全是中文的。这Lucene老外开发的，对中文处理天生就有点水土不服。

最头疼的就是分词。 你想，英文单词之间有空格，好分。中文一句话，“今天天气真好”，它得能正确切成“今天”、“天气”、“真好”才行。一开始我用了它自带的那个StandardTokenizer，结果对中文那叫一个惨不忍睹，基本就是单字蹦。这搜出来的结果能看吗？肯定不行！

没办法，又是一通猛搜。发现有不少第三方的中文分词器可以用。我当时试了两种：

LUCE怎么用效果才好？资深用户分享LUCE实用技巧！

ictclas： 听说挺有名的，也比较专业。结果？这家伙是个动态链接库，Java要调用它得通过JNI，搞本地方法调用。我当时就觉得这玩意儿太麻烦了，万一以后部署到别的机器上，环境配置又得出幺蛾子，而且心里总觉得这种方式不太稳当。折腾了半天，放弃了。
je-analysis： 后来找到了这个，说是专门为Lucene设计的，纯Java实现。这个直接把jar包加到项目里就行，用起来方便多了。试了一下，效果还行，虽然有时候也会有那么一两个词分得不太准，但比起之前那个StandardTokenizer和折腾ictclas，简直是省心太多了！