词汇挖掘与实体识别(未完)

文章目录

  • 1 概述
  • 2 词汇挖掘
    • 2.1 关键词提取
      • 2.1.1 基于特征统计
      • 2.1.2 基于主题模型
      • 2.1.3 Text-Rank算法提取
    • 2.2 同义词挖掘
    • 2.2.1 同义词类型
    • 2.2.2 挖掘
    • 2.3 缩略词挖掘
    • 2.4 新词挖掘
  • 3 实体识别(NER)
    • 3.1 基于概率图模型
    • 3.2 基于深度学习

1 概述

实体:是文本中的一些词汇或者短语。例如清华大学、李白。
但有些词汇不是实体。例如鲜艳的,守株待兔。
具体措施:挖掘尽可能多高质量的词汇,筛选目标知识图谱中的实体。

2 词汇挖掘

2.1 关键词提取

2.1.1 基于特征统计

  • 词频
  • TF-IDF
  • 位置特征
  • 词跨度
  • 词的固定属性:词长、词性、是否全部大小写等

2.1.2 基于主题模型

主题模型的核心假设是:存在隐含变量(文本主题),决定文本中词汇的出现情况。获取每个主题下的高频词作为关键词。
在这里插入图片描述

2.1.3 Text-Rank算法提取

基于PageRank
在这里插入图片描述

在文本中词与相邻词之间,可以类比于有跳转关系的2个网页。

改进:直接设窗口半径,改进到从句法分析的角度定义链接关系。

2.2 同义词挖掘

2.2.1 同义词类型

1 不同国家的互译(自行车、bike)
2 相同含义的词(花朵、花儿)
3 不同称呼(周董、周杰伦;番茄、西红柿;上海、沪)

2.2.2 挖掘

1 字典:wordnet、汉语大词典、大词林(特点:质量高、不完整)
2 百科
3 基于模式匹配
X又称Y;X(Y);X简称Y,X,亦称Y;X俗称Y等等
特点:准确率高,召回率低(不能找到的同义词很多)
4 基于bootstrapping(自举法)
模式匹配,发现同义词对;
根据同义词对,发现更多的模式。
半监督模式,可以自己学习到一些模式。

2.3 缩略词挖掘

缩略词可以说是一种特殊的同义词。
同义词的挖掘方式也可以用于缩略词挖掘,但更多的还是要依靠人工。
缩略词有表音的:Doctor 与Dr

有表意的:北京大学与北大;安全理事会与安理会。

2.4 新词挖掘

新词是指词库中不存在的词,但还可能是一个词的词。
挖掘方法是先对文本进行分词。分词后根据词之间的凝固度,还有词左右熵来确定一个词是不是新词。
首先新词,可能是原来两个词,三个词…组成一个新词。
第二,看下候选词的凝固度。以两个词为例。如果x和y总是同时出现,x与别的词一起出现的概率低,y与别的词出现概率低,那大概率x和y可以组成一个新词。
PMI(x,y)=logP(x,y)P(x)∗P(y)PMI(x,y)=log\dfrac{P(x,y)}{P(x)*P(y)}PMI(x,y)=logP(x)P(y)P(x,y)
第三,看下候选词左边相邻词,右边相邻词的熵。表示了左右相邻词的丰富程度。越丰富表名候选词越可能成为一个词。
P(x,y)=−∑w∈WP(w)logP(w)P(x,y)=-\sum_{w\in W}P(w)logP(w)P(x,y)=wWP(w)logP(w),W是所有x,y组合左右相邻词的集合。

3 实体识别(NER)

3.1 基于概率图模型

3.2 基于深度学习

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/424046.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第一百二十八期:推荐几个IDEA插件,Java开发者撸码利器,你get到了吗

一款热部署插件,只要不是修改了项目的配置文件,用它都可以实现热部署。收费的,破解比较麻烦。不过功能确实很强大。 作者:编程届java员 JRebel for IntelliJ 一款热部署插件,只要不是修改了项目的配置文件&#xff…

jeecg流程梳理学习

jeecg 流程梳理 角色admin 管理员 fgld学校分管领导 bgs学校办公室 xbld系部领导 xbky系部科员jxky bmld部门领导 发文申请applyUserIdadmin${assigneeUserId} 并行cgAutoListController.do?list&idjfrom_huiq顺会签cgAutoListController.do?list&idsx_huiqian 加班申…

lighttpd,thttpd,shttpd - 轻量级WebServer介绍

lighttpd,thttpd,shttpd - 轻量级WebServer介绍 lighttpd,thttpd,shttpd - 轻量级WebServer介绍 Filed under: lighttpd, Web Server, thttpd — allen 8:27 pm 转自 Zhiqiang::He 博客. 国内绝大部分的web server不是IIS就是Apache,而论市场占有率,我认…

spring mvc学习(35):restful的put

创建maven项目就不说了&#xff0c;需要的找我前面的博客 pom.xml文件 <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation"http://maven.apache.org/POM/4.0.0 http…

一、词向量模型

因为计算机不能理解词语&#xff0c;所以我们需要用词向量表示一个词。 词向量有一个发展历程&#xff1a;从one-hot到word embedding。 1 one-hot 设词典的大小为n&#xff08;词典中有n个词&#xff09;&#xff0c;假如某个词在词典中的位置为k&#xff0c;则设立一个n维向…

【广告】我妹妹导演的毕设——数字传媒摄影作品

我妹妹涂华思宇导演的作品&#xff0c;也是她的本科毕业设计&#xff5e; https://www.xinpianchang.com/a10452218 欢迎各位点击&#xff01; 涂华思宇,initiated四川文化艺术学院 2019/6/30 tz,postedcroplab,HZAU 2019/7/16转载于:https://www.cnblogs.com/acm-icpcer/p/111…

spring mvc学习(36):jstl的jar包的下载

1. 我们在使用spring框架的时候导入jstl标签库需要使用到jstl的jar包&#xff0c;假如没有加入到eclipse的lib目录下&#xff0c;使用alt /的时候不会有提示&#xff0c;所以我们需要把这个jar包加进来 首先登陆网址&#xff1a;http://tomcat.apache.org/taglibs/ 找到下面的…

同学的QQ群上

这是去年5月25日事情&#xff0c;现在看着还挺逗 一个新上任的管理员突然很郁闷发言说道“还没踢过人呢&#xff0c;哪个同学能让我踢一下&#xff1f;”立即有2个响应者&#xff0c;这2个同样是管理员&#xff0c;但也同样没有踢过人的经验&#xff0c;对此极感兴趣。于是遍寻…

二、语言模型

文章目录1 语言模型2 语言模型评价指标&#xff1a;Perplexity3 基于神经网络的语言模型3.1 RNN3.2 LSTM3.3 GRU4 优化函数5 模型代码6 用途与评价1 语言模型 语言模型的任务是判断一句话出现的概率&#xff08;也就是说一句话是不是人说的&#xff09;&#xff0c;可以表示为…

spring mvc学习(37):JavaEE-JSP基础-EL表达式和JSTL标签库(Taglibs)

EL表达式和JSTL标签库: 在JSP页面代替java代码,便于编写 一.EL表达式 作用: ${} 简化脚本表达式 <% %> j2ee1.4以前版本需指定<% page isELIgnored"false"> j2ee1.4以后版本默认支持EL表达式 1.EL内置对象 EL内置11个对象,不需定义可直接使用 pageS…

[计划]二〇〇七年年度计划

2007年终于到了&#xff0c;同时也是我们该规划这一年的时候了。不虚度此生&#xff0c;就从现在开始&#xff01; 完成去年计划中的研究生入学考试&#xff1b; 完善目前的"智能英语单词学习"项目&#xff1b; 完成"博客管理系统"项目&#xff1b; 完成&…

DM入门之Apriori小结

Apriori算法&#xff1a;使用候选项找频繁项集Apriori算法是关联分析中一种基本算法&#xff0c;用于挖掘布尔关联规则频繁项集。原理&#xff1a;利用频繁项集的先验知识&#xff0c;使用逐层搜索的迭代方法&#xff0c;使用k项集探索(k1)项集。这里先看哈二维Apriori算法。&a…

三、自然语言分类

文章目录1 数据准备1.1 数据集拆分1.2 创建词库vocabulary1.3 batch数据&#xff0c;创建Iterator2 Word Averaging模型3 RNN模型4 CNN三种分类方式&#xff1a;Word Averaging模型、RNN、CNN。1 数据准备 第一步是准备数据。代码中用到的类库有spacy、torchtext。 torchtext中…

spring mvc学习(38):Unknow tag(c:forEach)错误解决办法,jstl.jar包以及standard.jar包下载与导入

解决问题步骤&#xff1a; ①&#xff1a;下载jstl.jar和standard.jar 点击下载jstl.jar 点击下载standard.jar ②&#xff1a;将两个包剪切到项目中的WEB-INF/lib文件夹内 右键加到eclipse环境中---bulidpath--add to path 第一行代码<% pagelanguage"java" im…

Flex【原创】Xml与Object互转/读写本地Xml文件

最近操作Xml文件比较多&#xff0c;因此封装了一下Xml文件操作类 主要功能包括&#xff1a; 1.Xml 转 Object 2.Object 转 Xml 3.读取本地Xml&#xff08;air&#xff09; 4.Xml写到本地&#xff08;air&#xff09; 代码如下&#xff1a; package {import flash.events.Eve…

处理SPS错误:只有在配置文件或 Page 指令中将启用会话状态设置为真时,才可以使用会话状态...

1、C:\Program Files\Common Files\Microsoft Shared\web server extensions\60\TEMPLATE\LAYOUTS目录里的 web.config文件里添加&#xff1a;<add name"Session" type"System.Web.SessionState.SessionStateModule"/> 加在<httpModules>里&am…

nlp中的经典深度学习模型(一)

文章目录1 DNN与词向量1.1 DNN1.2 skip-gram1.3 简单句子分类模型DAN2 RNNLSTMGRU2.1 RNN2.2 LSTM2.3 LSTM变种2.4 递归神经网络2.5 双向RNN2.6 堆叠RNN1 DNN与词向量 1.1 DNN 神经网络中每一个神经单元是一个线性变化加一个激活函数 sUTasU^TasUTa af(z)af(z)af(z) zWxbzWxb…

spring mvc学习(39):restful的crud实现删除方式

上图是目录结构&#xff0c;本节是有问同学的&#xff0c;当好好总结 pom.xml <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation"http://maven.apache.org/POM/4.0…

像程序员一样地思考

在成为程序员的道路上&#xff0c;要经历四个坎坷&#xff0c;让我们用四个境界来标明他们。 第一境界&#xff0c;就是前面所说的&#xff0c;掌握一门或则几门编程语言&#xff0c;会模仿例子来实现程序代码&#xff0c;并且让代码在计算机系统中运行起来。达到这个境界的人…

基于Hibernate+spring的公司网站打造中(二)

在JbossIDE上搭建hibernatespring 资源收集&#xff1a;一.下载JDK 地址&#xff1a;http://www.java.com/zh_CN/或者网上搜索 文件&#xff1a;jdk-1_5_0_07-windows-i586-p.exe 63.4M 二.下载JbossIDE2.1下载JBoss IDE for Eclipse 地址:http://mirror.in.th/sourceforg…