一日三项令人兴奋的Lucene功能

昨天是富有成效的一天:突然,Lucene有了三个令人兴奋的新功能。

表达式模块

昨天提交的第一个功能是新的expressions模块 。 这使您可以使用任意String表达式定义用于排序的动态字段。 内置了对JavaScript解析的支持,但是如果您想创建自己的语法,则解析器是可插入的。

例如,您可以使用表达式定义排序字段

sqrt(_score) + ln(popularity)

如果您想主要通过相关性来提供混合排序,并通过受欢迎度字段来提高混合排序。

该代码非常易于使用。 在TestDemoExpressions.java单元测试用例中,有一些很好的示例,这将在Lucene的下一个稳定版本(4.6)中提供。

可更新的数字文档值字段

第二个功能也是昨天提交的,它是可更新的数字文档值字段 ,可让您使用IndexWriter上的新updateNumericDocValue方法更改以前索引的数字值。 它可以与近实时阅读器配合使用,因此您可以更新一些文档的数值,然后重新打开新的近实时阅读器以查看更改。

该功能目前仅是主干,因为我们可以解决一些涉及特别有争议的布尔值的剩余问题。 当前它也不适用于稀疏字段,即,仅当该文档已首先对该字段建立索引时,您才能更新该文档的值。

结合使用这两种功能后,您可以使用功能强大的用例,在这些用例中,您可以根据随时间变化的混合字段进行排序。 例如,也许您测量了用户单击搜索结果中每个文档的频率,然后使用它来更新popularity字段,然后将该popularity字段用于混合排序。 这样,当您向用户学习哪些文档很受欢迎而哪些文档不受欢迎时,搜索结果的排名就会随着时间而变化。

当然,使用自定义外部代码以前总是可以使用这种功能,但是现在有了表达式和可更新的文档值,实现起来就变得微不足道了!

免费文字建议

最后,第三个功能是一个新的建议程序实现,即FreeTextSuggester 。 它是与现有建议完全不同的建议者:它不是使用有限的预建建议范围中的建议,而是使用简单的ngram语言模型基于1个或2个先前标记来预测可能建议的“长尾巴”。

ShingleFilter ,它使用ShingleFilter创建ngram,并使用FST存储和查找生成的ngram模型。 尽管将多个ngram模型紧凑地存储在单个FST中,但FST仍然会变得很大; 建立在AOL查询日志上的3克,2克和1克模型为19.4 MB(查询本身为25.4 MB)。 这是受到Google方法的启发。

可能不会单独使用此建议者,而是当您的主要建议者未能找到任何建议时作为备用。 您可以通过Google查看这种行为。 尝试搜索“ the fast and”,您将看到建议仍然是完整的查询。 但是,如果您键入的下一个单词是“ burning”,那么google(到目前为止!)突然没有完整的建议,并退回到其自由文本方法。

参考:我们的JCG合作伙伴 Michael Mc Candless在一天内通过Changeing Bits博客提供了三项令人兴奋的Lucene功能 。

翻译自: https://www.javacodegeeks.com/2013/09/three-exciting-lucene-features-in-one-day.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/366893.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

php date当天,php5中date()获得的时间不是当前时间的解决方法

自php5.10起加入了时区的设置,在php中显示的时间都是格林威治标准时间,因此便与中国的用户会差八个小时。修改php.ini中的 date.timezone 参数:复制代码 代码如下:[Date]; Defines the default timezone used by the date functions;date.tim…

listening for variable changes in javascript

https://stackoverflow.com/questions/1759987/listening-for-variable-changes-in-javascript转载于:https://www.cnblogs.com/wangjixianyun/p/9115336.html

JPA EntityListeners中的Spring注入的Bean

在使用JPA侦听器进行数据库加密中,我讨论了使用JPA EntityListener进行透明加密。 从某种意义上说,这种方法是透明的,因为JPA实体(几乎)完全不知道正在加密,而JPA EntityListener本身也不知道细节。 有一个…

php sql 去除重复数据,MSSQL_快速删除重复记录,SQL Server如何实现?,如果一张表的数据达到上百万 - phpStudy...

如果一张表的数据达到上百万条,用游标的方法来删除简直是个噩梦,因为它会执行相当长的一段时间……开发人员的噩梦——删除重复记录想必每一位开发人员都有过类似的经历,在对数据库进行查询或统计的时候不时地会碰到由于表中存在重复的记录而…

Python运行的方式

Python的运行方式多种多样,下面列举几种: 交互式 在命令行中输入python,然后在>>>提示符后面输入Python语句,这里需要注意: 1 语句前面不能有空格,否则会报错 2 对于符合语句,前面会有...提示符,结…

使用Apache Zookeeper进行协调和服务发现

面向服务的设计已被证明是针对各种不同的分布式系统的成功解决方案。 如果使用得当,它会带来很多好处。 但是随着服务数量的增加,了解部署什么以及部署在何处变得更加困难。 而且,由于我们正在构建可靠且高度可用的系统,因此还需要…

微信小程序无埋点数据采集方案

作者:lxj,点餐终端团队成员前言 相信业务团队对这样的场景不会太陌生:打点需求: 每新上一个功能,数据产品便会同步加上打点需求,当数据打点上线后一段时间,数据产品/业务产品便会针对数据的转化…

php 状态码302,HTTP状态码302、303和307的故事

今日读书,无法理解HTTP302、303、307状态码的来龙去脉,决定对其做深究并总结于本文。《HTTP权威指南》第3章在讲解30X状态码时,完全没有讲清楚为什么要有302、303、307,以及他们的关系,一句“问题出在HTTP/1/1”让我一…

Codeforces 1070A Find a Number(BFS) 2018-2019 ICPC, NEERC, Southern Subregional Contest Problem A

Description You are given two positive integers ddd and sss. Find minimal positive integer nnn which is divisible by ddd and has sum of digits equal to sss.Input The first line contains two positive integers ddd and sss(1≤d≤500,1≤s≤5000)(1≤d≤500,1≤s…

luogu3807 【模板】 卢卡斯定理

题目大意 对于一个很大的$n,m,p$如何求$C_{nm}^m\mod p$? Lucas定理 若$n_i,m_i$分别是$n,m$在$p$进制下第$i$位的数字,则有 $$C_n^m\mod p\prod_{i0}^{\log_p m}C_{n_i}^{m_i}\mod p$$ 求法 按照定理式一个一个求组合数即可。 组合数并不用批量求。故预…

防止System.exit调用

在开发运行其他开发人员编写的代码的容器时,请谨慎防范System.exit调用。 如果开发人员无意间调用了System.exit并将其代码部署为由您的容器运行,则它将完全降低容器进程。 可以使用SecurityManager中的checkExit函数调用来控制。 根据SecurityManager …

php异步请求$.post,如何用PHP实现异步请求、忽略返回值

本篇文章的主要内容是用PHP实现异步请求、忽略返回值,具有一定的参考价值,有需要的朋友可以看看,希望能对你有帮助。项目需要,场景如下:某个条件下需要调用接口发送多个请求执行脚本,但是由于每个请求下的脚…

JavaScript函数式编程学习

本文是我在函数式编程学习过程中,总结的笔记,也分享给想学函数式编程的同学。 函数式编程可能对于初学者来说,概念难以理解,入门比较难。所以本文从两部分去学习。 在你身边你左右 --函数式编程别烦恼 第一部分,你身…

读书印记 - 《沟通的艺术:一本手把手教你社交沟通的书》

一个教训是没上过榜也没什么好推荐的书有挺大概率不是本好书。我现在不太能耐心的去读这种指导手册,一是谈话的技巧需要在实战中才能有效提升,二是这方面对我来说不是关注的重点。所以几乎是刷刷的翻完了整本书。当然也不能说这本书就是烂书,…

Linux NTP

ntpd服务的设置: ntpd服务的相关设置文件如下: /etc/ntp.conf:这个是NTP daemon的主要设文件,也是 NTP 唯一的设定文件。/usr /share/zoneinfo/:在这个目录下的文件其实是规定了各主要时区的时间设定文件,例如北京地区的时区设定文…

Java Web项目的保存和刷新

如何配置计算机以保存并刷新Java Web项目? 当您向开发人员提出此问题时,答案以“哦,好吧……”开头,并以某种可行的方式继续描述。 每个人都有自己的方式。 首先–为什么需要这个? 因为执行复制和重新启动服务器是生产…

mysql alter怎么用,mysql alter话语用法

mysql alter语句用法//主键ALTER TABLE tablename add new_field_id int(5) UNSIGNED DEFAULT 0 NOT NULL anto_increment,ADD PRIMARY KEY (new_field_id);//增加一个新列mysql>ALTER TABLE tablename ADD fieldname fieldtype如:ALTER TABLE t2 ADD d TIMESTAM…

《React 学习之道》The Road to learn React (简体中文版)

通往 React 实战大师之旅:掌握 React 最简单,且最实用的教程。 前言 《React 学习之道》这本书使用路线图中的精华部分用于传授 React,并将其融入一个独具吸引力的真实世界 App的具体代码实现。 如何掌握 React 存在特别多的路线图。本书提…

Linux下设置和查看环境变量

Linux的变量种类 按变量的生存周期来划分,Linux变量可分为两类: 1 永久的:需要修改配置文件,变量永久生效。 2 临时的:使用export命令声明即可,变量在关闭shell时失效。 设置变量的三种方法 1 在/etc/profi…

vue.js(三)

这里该记到vue的组件了&#xff0c;组件基础篇 1.vue组件的基本书写方式 Vue.component(button-counter, {data: function () {return {count: 0}},template: <button v-on:click"count">You clicked me {{ count }} times.</button> }) 上面定义了一个名…