如何在Hibernate Search 5.5.2 / Apache Lucene 5.4.x中处理停用词?

停用词,例如[“ a”,“ an”,“ and”,“ are”,“ as”,“ at”,“ be”,“ but”,“ by”,“ for”,“ if”,“在”,“成”,“是”,“它”,“不”,“不”,“的”,“在”,“或”,“这样”,“那个”,“那个”,“他们的” ,“当时”,“那里”,“这些”,“它们”,“此”,“至”,“是”,“将”,“具有”]以及它们在术语或数据库或文件中的存在被lucene索引/搜索可能导致以下任何情况:

  1. 在Lucene索引过程中停止忽略/过滤单词
  2. 在Lucene查询过程中停止忽略/过滤单词
  3. 包含,以任何停用词开头或结尾的查询均无结果

在索引和搜索过程中解决此问题或处理它们的方法如下。 如果您使用的是Hibernate Search 5.5.2,而后者又使用的是Apache Lucene 5.3.x / 5.4.x,则此处说明的方法特别适用。

1.定义自定义分析器,改编自标准分析器

您只需包含两个过滤器-“ LowerCaseFilterFactory”和“ StandardFilterFactory”作为Tokenizer定义的一部分。 我们此处未包括的过滤器工厂是“ StopFilter”。 这样可以将停用词视为其他普通英语词,并将它们编入索引。

@Entity 
@Indexed 
@Table(name="table_name", catalog="catalog_name") 
@AnalyzerDef(name = "FedexTextAnalyzer",tokenizer = @TokenizerDef(factory = StandardTokenizerFactory.class), filters = {@TokenFilterDef(factory = LowerCaseFilterFactory.class),@TokenFilterDef(factory = StandardFilterFactory.class) 
})

2.用相关注释标记字段(@Field上的@Analyzer)

连同每个实体或表的列字段上的@Field批注一起,声明我们上面定义的分析器。

@Column(name="Fedex_cs_product_name", nullable=false, length=100)
@Field(index=Index.YES, analyze=Analyze.YES, store=Store.NO, analyzer=@Analyzer(definition = "FedexTextAnalyzer"))
public String getFedexCsItemName() {return this.FedexCsItemName;
}

3.使用WhitespaceAnalyzer进行查询,以便默认情况下对停用词进行“处理”

尽管官方文档说如果我们通过将Stop Words的参数作为CharArraySet传入来使用“ StandardAnalyzer” EMPTY_SET我发现查询仍然无法检索任何结果。 在与卢克一起进行分析时,我发现对于诸如“面向初学者的计算机科学书籍”之类的查询,“ for”被忽略了。 奇怪! 我用WhitespaceAnalyzer替换了它,发现它适用于所有“停止词”和所有“案例”。

stop_words_01

我发现以上是解决此问题的最佳/最小方法。 此外,我们的质量检查已验证了它适用于所有“停止词”案例! 希望这对您有所帮助。

翻译自: https://www.javacodegeeks.com/2016/04/handle-stop-words-hibernate-search-5-5-2-apache-lucene-5-4-x.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/354472.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

windows路径操作API函数

路径截断与合并函数 PathRemoveArgs 去除路径的参数 PathRemoveBackslash 去除路径最后的反斜杠“\” PathAddBackslash 在路径最后加上反斜杠“\” PathRemoveBlanks 去除路径前后的空格 PathAddExtension 在文件路径后面加上扩展名 PathRemoveExtensio…

docker安装问题

1、卸载docker重装 将所有含docker的文件找出来 find / -name ‘docker’ 或cd到根目录后搜索: find -name ‘docker 删除搜索的文件或目录: rm -rf … 删除全部的docker有关文件命令 rm -rf $(find -name ‘docker’) 2、安装docker 安装依赖 su…

【BZOJ1814】Ural 1519 Formula 1 插头DP

【BZOJ1814】Ural 1519 Formula 1 题意&#xff1a;一个 m * n 的棋盘,有的格子存在障碍,求经过所有非障碍格子的哈密顿回路个数。(n,m<12) 题解&#xff1a;插头DP板子题&#xff0c;刷板子&#xff0c;附带题解链接。 如何存放状态呢&#xff1f;可以采用hash&#xff0c;…

docker-compose安装问题

&#xff08;一&#xff09;docker-compose安装超时 1、设置一个timeout pip install --default-timeout100 docker-compos2、下载到本地 docker_compose-1.27.0-py2.py3-none-any.whl首先去下载&#xff1a;https://pypi.org/project/docker-compose/#files 然后用xftp上传…

java更改包名称_更改Java包名称如何改变我的系统架构

java更改包名称即使只是少量更改角度&#xff0c;也可能对您如何使用系统产生深远影响。 假设您正在用Java编写Web应用程序。 在系统中&#xff0c;您处理订单&#xff0c;客户和产品。 作为一个Web应用程序&#xff0c;您的类包括诸如Controller&#xff0c;PersonRepository&…

linux系统界面光标不见了---木有了

直接在界面输入命令 echo -e “\033[?25l” 隐藏光标 echo -e “\033[?25h” 显示光标

Java----前端验证之验证码额实现

验证码是常用的登录验证方式之一,最大的作用就是保证安全,验证码的生成在java中实现的方式有很多种,比如后台生成传输到前端页面,在前台直接生成进行验证,下面写一个最简单实现验证码验证登录的例子. 生成验证码: 验证码验证逻辑: From表单登录: 没错,就这么的简单.在scripts生…

使用Spring Boot隔离集成测试和模拟依赖项

集成测试可能很慢且不可靠&#xff0c;因为它们依赖于系统中过多的组件。 在某种程度上&#xff0c;这是不可避免的&#xff1a;这里的集成测试是为了验证系统的每个部分如何与其他内部或外部组件一起玩。 但是&#xff0c;我们可以通过仅分解所需的依赖关系而不是整个系统来改…

CSS浏览器兼容性问题

CSS浏览器兼容性问题 1、浏览器CSS样式初始化 最简单的初始化方法就是&#xff1a;使用通配符&#xff08;*&#xff09;&#xff0c;重置所有的初始样式。 *{margin: 0;padding: 0; } /* 10px1rem */ html {overflow-y:scroll;font-size:62.5%; } a{text-decoration:none; …

Ubuntu 16.04下使用Wine安装Xshell 4和Xftp 4

说明&#xff1a; 1、使用的Wine版本是深度出品&#xff08;Deepin&#xff09;&#xff0c;已经精简了很多没用的配置&#xff0c;使启动能非常快&#xff0c;占用资源小。 2、由于Xshell 5的C库无法在这个Wine版本运行&#xff0c;即使升级官方原版的2版本也无法解决&#xf…

字符串反序输出字符串

Console.Write("请输入一个字符串&#xff1a;"); string str Console.ReadLine(); string reverse "";//用于存放反序后的字符串 for (int i str.Length - 1; i > 0; i--) {   reverse str[i]; } Console.WriteLine(reverse":串符字个一入输…

centos8服务器创建新用户并指定该用户只能打开某个目录文件

ssh -V来查看openssh的版本 需求&#xff1a;sftp组&#xff0c;用户mysftp&#xff0c;该用户不能使用ssh&#xff0c;且sftp登录后只能在自己的主目录下操作&#xff0c;不能访问其他目录 1、创建sftp组 groupadd sftp2、创建一个sftp用户&#xff0c;名为mysftp useradd …

[转载]Oracle ltrim() 函数用法

前面有说到过LPAD和RPAD这两个函数用法的文章&#xff0c;今天发现与之相反意义的另外两个函数&#xff0c;那就是LTRIM() RTRIM()。 这次就挑LTRIM() 这一函数来讲讲&#xff1a; 具体的语法格式如下&#xff1a; LTRIM(c1,[,c2]) 【功能】删除左边出现的字符串 【参数】C1 字…

电脑缺失MSVCP110.dll文件

安装某软件显示如下错误。 错误&#xff1a; 原因&#xff1a;电脑缺少MSVCP110.dll系统文件。C:\Windows\System32目录下没有此文件。 解决&#xff1a; 下载vcredist_x64直接双击安装&#xff0c;安装完成后就可以继续安装之前安装不了的软件了。。 这里是我下载的&#…

js正则 匹配 正则表达式

1.由数字、26个英文字母或者下划线组成的字符串: ^[0-9a-zA-Z_]{1,}$2.非负整数&#xff08;正整数 0 &#xff09;: ^/d$3.正整数: ^[0-9]*[1-9][0-9]*$4.非正整数&#xff08;负整数 0&#xff09;&#xff1a; ^((-/d)|(0))$5.负整数 ^-[0-9]*[1-9][0-9]*$6.整数: ^-?…

chromedriver链接

http://npm.taobao.org/mirrors/chromedriver/转载于:https://www.cnblogs.com/shuo1208/p/8023827.html

web csrf java_在Java Web应用程序中阻止CSRF

web csrf java跨站点请求伪造攻击&#xff08;CSRF&#xff09;在Web应用程序中非常常见&#xff0c;如果允许&#xff0c;可能会造成重大危害。 如果您从未听说过CSRF&#xff0c;建议您查看有关它的OWASP页面 。 幸运的是&#xff0c;阻止CSRF攻击非常简单&#xff0c;我将向…

MySQL 安全性知识要点

添加、删除用户 1.添加用户 可以使用CREAT USER语法添加一个或多个用户&#xff0c;并设置相应的密码。 语法格式&#xff1a; CREAT USER user [IDENTIFIED BY [PASSWORD] password] [,user [IDENTIFIED BY [PASSWORD] password] ] ... 其中&#xff0c;user的格式为&…

在WildFly的REST Web服务中与Jackson的双向关系

这是使用Jackson的REST Web服务中Java实体之间的双向关系的示例。 假设我们在两个实体Parent和Child之间存在双向关系。 使用MySQL工作台为这两个表生成SQL模式文件。 DROP SCHEMA IF EXISTS bidirectional_schema ; CREATE SCHEMA IF NOT EXISTS bidirectional_schema DEFA…

ICMP Internet控制报文协议

ICMP报文主要有两大功能&#xff1a;查询报文和差错报文。转载于:https://www.cnblogs.com/gardenofhu/p/8027431.html