java对字符串归一化_搜索引擎中的字符串归一化 | 学步园

搜索引擎中对于Q查询,都会涉及到字符串归一化这个步骤,以提高结果召回率。字符串的归一化包括三个方面:繁体转简体;全角字符转半角;大写字母转小写。

建倒排时,会先对字符串做归一化处理,然后再分词取term;用户查询时,也会对查询串做同样的操作,这样就能找到对应的倒排链。

在返回查询结果给前端时,会按照查询串对原文做飘红,这里就涉及到一个问题,原文是没有归一化的;为了解决这个问题,我们自己写了个normalize_strstr,如下:

char* normalize_strstr(const char *src, int srclen,

const char *key, int keylen, int *outsize){

unsigned short srcword = 0, keyword = 0;

int srcpos = 0;

do {

int tmppos = srcpos;

int keypos = 0;

do {

keyword = get_utf8_word(key, keylen, &keypos);

if(keyword == 0) {

*outsize = tmppos - srcpos;

return (char*)(src + srcpos);

}

srcword = get_utf8_word(src, srclen, &tmppos);

if(srcword == 0) {

return NULL;

}

}while(TOLOWER(g_uni_normal_map[keyword]) ==    // compare key with substr

TOLOWER(g_uni_normal_map[srcword]));    // normal map doesn't convert upper case to lower

} while(get_utf8_word(src, srclen, &srcpos) != 0);  // move forward one utf8 character

return NULL;

}

关于gbk, gb18030, utf8, unicode等问题,可以参见: http://www.cnblogs.com/xiaomia/archive/2010/11/28/1890072.html 。

几个关键点:gbk都是双字节;gb18030大多都是双字节,有少量4字节;unicode为世界上每个字指定一个编码,目前还没有超出2字节; utf8是对unicode的编码,以便于传输,目前有1字节,2字节,3字节,4,5,6字节,中文大多落在3字节。所以中文用utf8存储,比gbk存储要多出50%空间。另外strstr系列函数,对gbk是不安全的,即第一个字符的第二个字节,和第二个字符的第一个字节,可能是另外一个汉字。但utf8对strstr就是安全的,浪费一些空间,让每个byte的前缀不同。

编码转码相关的代码,可以参考:http://code.google.com/p/pycode-hz/ 。 这是py的作品,简洁明了,看看就知道编码究竟是怎么回事。不过效率的话,这里的编码转换性能,不如系统自带的iconv高。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/571176.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java对外sdk提供接口_Android SDK封装,对外提供接口

项目中需要把连接服务器的部分做成一个service并生成一个jar模块。其他产品就可通过这个包来快速的开发连接服务器的应用软件。做成一个service的优点是:1. 在后台运行,可以一直保持与服务器的连接2. 服务可以只对外提供接口&…

hdu3265一种错误的做法

题目链接 这是求面积并的题目,刚开始我的思路是将挖去的矩形的入边和出边覆盖效果颠倒, 即入边-1,出边1,后来调试到爆炸,发现这是错误的做法。。原因就是对最简单 的面积并问题没有搞清楚。刚开始接触扫描线的时候我就…

java综合案例_综合实例 - Java House - BlogJava

packagebedeck;publicclassBedeckDome {/** 实例变量* *///类中不能实例化对象publicStringstr1;//无初始值,可以被任何类访问protectedStringstr2;//无初始化值,可以被同一包中的所有类访问,可以被所有子类访问privateStringstr3;//无初始化…

53-C++ CH08 01

http://lx.lanqiao.cn/problem.page?gpidT407 算法训练 C CH08 01 时间限制&#xff1a;1.0s 内存限制&#xff1a;256.0MB问题描述已知一个有理数类Zrf_Ratio&#xff0c;实现如下的操作符重载形式&#xff1a;friend std::ostream& operator<<(std::ostream&am…

Linux文件系统选择

自己想做的&#xff0c;刘爱贵在2010年就做完了(⊙ω⊙) http://blog.csdn.net/liuaigui/article/details/5521024 通过综合使用多种标准文件系统Benchmarks对Ext3, Ext4, Reiserfs, XFS, JFS, Reiser4的性能测试对比&#xff0c;对不同应用选择合适的文件系统给出以下方案&…

java里shake是什么意思_shake是什么意思_shake在线翻译_英语_读音_用法_例句_海词词典...

使振作起来 shock sb into activityshake sth ⇔ upShake up the salad-dressing before you put it on.加色拉调料之前先把它摇匀。shake sth ⇔ upMother ran round the room shaking up all the cushions when the door-bell rang.母亲正在屋里跑来跑去忙着抖松所有的坐垫,这…

php截断上传,截断在文件包含和上传中的利用

截断大概可以在以下情况适用include(require)file_get_contentsfile_exists所有url中参数可以用%00控制0x01. 本地文件包含1.1 截断类型&#xff1a;php %00截断截断条件&#xff1a;php版本小于5.3.4 详情关注CVE-2006-7243php的magic_quotes_gpc为OFF状态漏洞文件lfi.php要in…

解决虚拟机安装64位系统“此主机支持 Intel VT-x,但 Intel VT-x 处于禁用状态”的问题...

环境说明&#xff1a;系统&#xff1a;Windows 8.1 简体中文专业版 虚拟机&#xff1a;VMware Workstation 11.0.0 报错&#xff1a;此主机支持 Intel VT-x&#xff0c;但 Intel VT-x 处于禁用状态。如图&#xff1a; 图片原文如下&#xff1a; 已将该…

php checkbox 保存,PHP中在数据库中保存Checkbox数据

PHP中在数据库中保存Checkbox数据/* if we passed in an array of the checkboxes we wantto be displayed as checked */foreach ($arr as $ele) {$str . "< td >< input type"checkbox" name"$name" value"$ele- >id"";…

使用exp导出导入,需要注意的问题。

问题&#xff1a;由于段延迟分配。导致新创建的表未分配段。与参数deferred_segment_creation有关。如果是空表&#xff0c;使用exp和imp会导致导不出来表结构。 使用exp加参数rowsn导出元数据&#xff0c;记录一个问题导入后&#xff0c;往表里插入数据&#xff0c;发现占用了…

php 修改excel内容吗,php更新修改excel中的内容例子

//模板存放目录$dir $DOCUMENT_ROOT./backoffice/admin/oemcheck/;$templateName 1.xlsx;$outputFileName 模板.xlsx;$txttest;//实例化Excel读取类$PHPReader new PHPExcel_Reader_Excel2007();if(!$PHPReader->canRead($dir.$templateName)){$PHPReader new PHPExcel…

INNODB表快速迁移

本实验在一台server上启动了2个mysql实例端口分别是3307 3308&#xff0c;目的是将3307的表aaa迁移到3308中去&#xff0c;并打开3308的slave 1.在3308上 mysql> drop table aaa; 干表Query OK, 0 rows affected (0.01 sec)mysql> CREATE TABLE aaa ( -> id …

php递归实现冒泡排序,PHP冒泡排序、快速排序算法

快速排序是对冒泡排序的一种改进。他的基本思想是&#xff1a;通过一趟排序将待排记录分割成独立的两部分&#xff0c;其中一部分的关键字均比另一部分记录的关键字小&#xff0c;则可分别对这两部分记录继续进行快速排序&#xff0c;整个排序过程可以递归进行&#xff0c;以达…

ss加密php,js前端加密,php后端解密(crypto-js,openssl_decrypt)

基于PHP和JS的AES相互加密解密方法详解(CryptoJS)基于PHP和JS的AES相互加密解密方法详解(CryptoJS)注意说明&#xff1a;1. 首先引入CryptoJS包中的aes.js和pad-zeropadding.js2. 其次引入了jquery.min.js和自己封装的function.js(内容主要是加密解密函数)3. 加密解密过程中的向…

MongoDB缓存技术总结

MongoDB简介 MongoDB 是一个基于分布式文件存储的数据库。由C语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。 MongoDB是一个基于分布式文件存储的数据库MongoDB是介于NoSQL和关系型数据库之间的一款产品MongdoDB是基于C语言编写MongoDB具有查询语言、索引、Key-…

java作业 温度换算,Java基础题目(温度转换、时间换算、信号报告)

Java基础题目题目主要来自浙江大学翁凯教授的零基础学习Java课程的配套习题。1. 温度转换题目内容:写一个将华氏温度转换成摄氏温度的程序&#xff0c;转换的公式是&#xff1a;F (9/5)*C 32其中C表示摄氏温度&#xff0c;F表示华氏温度。程序的输入是一个整数&#xff0c;表…

#前端# 解决前端页面滑动不顺畅的问题

看情况有时候需要将body和html同时选择。转载于:https://www.cnblogs.com/tnt-33/p/8464370.html

php写入不了伪静态,PHP实现URL伪静态

核心部分是.htaccess文件&#xff0c;默认可能不支持.htaccess&#xff0c;请查看《apache 不支持.htaccess文件如何处理》。首先我们看下一个地址&#xff1a;http://www.quou.cn/cnweb/0/445/article/这个地址的cnweb其实是虚拟的:为什么没有cnweb这个目录而虚拟主机又认它呢…

头条太给力了!粉丝破千,收益到账925元,总结涨粉经验

越来越喜欢头条了!粉丝破千,开通了千粉权益,收益到账524元。好开心。 昨天粉丝数达到了1000,好激动,赶紧留下纪念,虽然日收益还不是很高,好在又上了一个新台阶。此刻,我也静下心好好总结了一下从0粉丝到1000粉丝的涨粉经验。 1,有效阅读,多互动,增加自己在头条的活…

php守护进程热更新,如何通过PHPStorm配置Hyperf热更新开发环境

通过 PHPStorm 配置热更新开发环境在开发 Hyperf/Swoole 这样的持久化应用时&#xff0c;每当应用代码发生了变更时&#xff0c;都需要重启应用使代码生效&#xff0c;尽管在开发 CLI 应用时这也是一个正确且合理地操作&#xff0c;因为我们开发过程中仍需要关注 stdout 输出的…