读《数学之美》第四章 谈谈分词

中文分词其实有点像古代的句读(dou),韩愈的《师说》中就有:“彼童子之师,授之书而习其句读者也”。古人文章是没有标点符号的,行文一气呵成。如果不懂离经断句,就很难理解古文的意思。从某种程度上,句读就类似今天要讲的中文分词。

北京航空航天大学的梁南元教授提出了查字典的方法

查字典的方法就是把句子从左到右扫描一遍,遇到字典里有的词就标示出来,遇到不认识的字串就分割为单字词。如果分割出的词与后面的字不会组成更长的词,那么分割点就最终确定了。这种最简单的方法可以解决七八层以上的分词问题,在不太复杂的前提下,取得了还算满意的效果。

20世纪80年代哈尔滨工业大学的王晓龙博士将查字典的方法理论化,发展成最少词数的分词理论,即一句话应该分成数量最少的词串。但是并非所有最长匹配都是正确的,语言的歧义性是分词的最大难题。

1990年清华电子工程系的郭进博士率先使用统计语言模型成功解决分词二义性问题,将汉语分词错误率降低了一个数量级。最为简单的思考是有N中分词所得,统计各种分词结果出现的概率,选择最大概率的分词结果作为最好的分词方法。这里有一个实现技巧,如果穷举所有分词结果,显然会导致计算量大增。因此,可以看成一个动态规划问题,利用维特比算法快速找到最佳分词。这样就可以构造分词器:输入字串,输出分词字串,中间需要词典和语言模型作为辅助。

清华大学郭茂松教授解决了没有词典时的分词问题;香港科技大学吴德凯教授较早将中文分词方法用于英文词组的分割,并将英文词组和中文词组在机器翻译时对应起来。

另外,对于平板电脑和智能手机的出现,英文手写体中的分词常常是需要的,因此,中文分词方法可以帮助判别英语单词的边界。

衡量分词的结果可以采用分词的一致性;人工分词产生的原因主要在于人们对词的颗粒度认识问题。解决办法可以构建一个基本词表和复合词表,不断丰富完善复合词表,会将分词器的明显错误得以改进。

************************

2015-8-7

转载于:https://www.cnblogs.com/huty/p/8519263.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/358422.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【APICloud系列|17】百度开发者平台为了帮助开发者积极开展APP隐私合规风险排查工作, 准确高效的识别违规风险

前段时间开发了一款APP,最近有时间看看了一下自己的邮件。 发现一条比较有意思的。 申请入口 为什么会受到这个邮件呢,因为我安卓上架了华为应用商店、百度手机开放平台,小米应用商店,阿里应用分发平台、腾讯应用宝,360这个不谈,一个IOS的苹果应用商店。 这个只是针对那…

sphinx配置 + php

1. 为什么要使用Sphinx假设你现在运营着一个论坛,论坛数据已经超过100W,很多用户都反映论坛搜索的速度非常慢,那么这时你就可以考虑使用Sphinx了(当然其他的全文检索程序或方法也行)。 2. Sphinx是什么Sphinx由俄…

Java数字格式:DecimalFormat

在Java Numeric Formatting一文中 ,我描述并演示了NumberFormat静态方法提供的一些有用实例,例如NumberFormat.getNumberInstance(Locale) , NumberFormat.getPercentInstance(Locale) &#xf…

微信公众号(订阅号)如何开通付费功能?

前几天看了一下启舰的一个视频中谈到他做自媒体的收入,我记得应该有一年30多万的收入,大概组成是微信公众号广告每个月2万*12个月。两本安卓书收取版权提成,根据出版量8%-10%不等,他一年的出版量在10000左右吧,每本书每个月大概有2000元的样子*12个月,还有一些B站及其他的…

Kunyu(坤舆)

本文转载于&#xff1a;https://www.anquanke.com/post/id/248802 0x00 介绍 工具介绍 Kunyu (坤舆)&#xff0c;名字取自 <坤舆万国全图> &#xff0c;测绘实际上是一个地理信息相关的专业学科&#xff0c;针对海里的、陆地的、天上的地理信息进行盘点。同样应用于网络…

rabbitmq——镜像队列

转自&#xff1a;http://my.oschina.net/hncscwc/blog/186350?p1 1. 镜像队列的设置 镜像队列的配置通过添加policy完成&#xff0c;policy添加的命令为&#xff1a; rabbitmqctl set_policy [-p Vhost] Name Pattern Definition [Priority] -p Vhost: 可选参数&#x…

微信订阅号如何开通付费功能

前几天看了一下启舰的一个视频中谈到他做自媒体的收入&#xff0c;我记得应该有一年30多万的收入&#xff0c;大概组成是微信公众号广告每个月2万*12个月。两本安卓书收取版权提成&#xff0c;根据出版量8%-10%不等&#xff0c;他一年的出版量在10000左右吧&#xff0c;每本书每…

实战sqlmap绕过WAF

本文转载于https://xz.aliyun.com/t/10385 实战演示 通过前期的信息收集发现存在注入的页面如下&#xff1a; 直接使用sqlmap跑发现出现如下错误&#xff1a; python2 sqlmap.py -u "http://xxxx?&daxxtaenull&paramexxxxxx" --batch --delay1 --random…

在Hibernate中使用存储过程

本文介绍了从休眠状态调用存储过程的不同方法。 JDBC操作将不涉及。 PostgreSQL将用作数据库。 CREATE DATABASE example;CREATE TABLE company (company_id BIGSERIAL PRIMARY KEY,name TEXT NOT NULL );CREATE TABLE benefit (benefit_id BIGSERIAL PRIMARY KEY,name TEXT,c…

C# 交错数组

C# 交错数组表示一个表格数据&#xff0c;行确定&#xff0c;但是每一行的列数不同&#xff0c;那么这个时候就可以使用交错数组。交错数组的本质是1个一维数组&#xff0c;只不过这个一维数组的元素的类型是一个数组。交错数组的声明元素的类型[] [] 数组的名称 new 元素的类…

QQ群群排名如何进行SEO优化?

QQ群排名有多个方面&#xff0c;比如你的qq群名称&#xff0c;人数&#xff0c;还有活跃度等等&#xff0c;很多因素影响你的群排名。下面给大家讲解如何做到搜索第一。第一&#xff1a;群名称群名称一定要和你搜索的关键词相匹配&#xff0c;比如我建的一个粉丝群“爱嵩阁”&a…

编辑器漏洞手册

简介 #2014年8月21日 最初的手册版本&#xff0c;是由北洋贱队的各位朋友收集整理。时隔4年&#xff0c;我们再次整理了这些文件。目的是希望这种传统能延续下去。我们相信&#xff1a;星星之火可以燎原。希望大家能多提建议&#xff0c;完善这份手册。 #2010年某月某日 创建这…

iOS学习 NSString常用技巧

字符串是程序设计最常用的数据类型之一了。在Mac/iPhone编程中&#xff0c;苹果为我们提供了一个不同的字符串类型NSString。有别与普通的String为数据类型&#xff0c;NSString其实是一个对象类型。NSString是NSObject(Cocoa Foundation的基础对象)的子类&#xff0c;所以具有…

Flash不同版本的下载安装及必要的系统组件未正常运行的解决办法

在一个外包平台刷入职培训视频&#xff0c;类似于慕课的课程&#xff0c;需要安装Flash才能播放。一般推荐谷歌浏览器&#xff0c;值得注意的是2020年12月&#xff0c;谷歌浏览器将不再支持flash flash官网 安装步骤 在百度搜索"flash"&#xff0c;点击Flash中国官…

UEditor 任意文件上传漏洞

1 漏洞简介 1.1 漏洞描述 Ueditor是百度开发的一个网站编辑器&#xff0c;目前已经不对其进行后续开发和更新&#xff0c;该漏洞只存在于该编辑器的.net版本。其他的php,jsp,asp版本不受此UEditor的漏洞的影响&#xff0c;.net存在任意文件上传&#xff0c;绕过文件格式的限制…

如何设计类和接口

本文是我们名为“ 高级Java ”的学院课程的一部分。 本课程旨在帮助您最有效地使用Java。 它讨论了高级主题&#xff0c;包括对象创建&#xff0c;并发&#xff0c;序列化&#xff0c;反射等。 它将指导您完成Java掌握的过程&#xff01; 在这里查看 &#xff01; 目录 1.简…

HDU 3072 SCC Intelligence System

给出一个带权有向图&#xff0c;要使整个图连通。SCC中的点之间花费为0&#xff0c;所以就先缩点&#xff0c;然后缩点后两点之间的权值为最小边的权值&#xff0c;把这些权值累加起来就是答案。 1 #include <iostream>2 #include <cstdio>3 #include <algorith…

再见,Springboot和SpringCloud

Java中说到微服务肯定离不开Spring Boot和Spring Cloud&#xff0c;这两者到底有什么关系&#xff0c;什么是微服务&#xff0c;如果单纯的说SpringBoot&#xff0c;SpringCloud&#xff0c;都是不准确的&#xff0c;那应该怎么回答。官网对于Spring Boot的介绍Spring Boot mak…

通过暴露出来的OA和github信息拿Shell

本文转载于https://xz.aliyun.com/t/10392 记一次授权渗透测试 一&#xff1a;信息收集阶段 因为目标是学校&#xff0c;一般会去考虑收集学号&#xff0c;教工号。因为有的登陆点需要此类信息&#xff0c;且密码存在规律性&#xff08;身份证后六位&#xff0c;123456&#xf…