stanford corenlp的TokensRegex

最近做一些音乐类、读物类的自然语言理解,就调研使用了下Stanford corenlp,记录下来。

功能

Stanford Corenlp是一套自然语言分析工具集包括:

  • POS(part of speech tagger)-标注词性
  • NER(named entity recognizer)-实体名识别
  • Parser树-分析句子的语法结构,如识别出短语词组、主谓宾等
  • Coreference Resolution-指代消解,找出句子中代表同一个实体的词。下文的I/my,Nader/he表示的是同一个人

  

  • Sentiment Analysis-情感分析
  • Bootstrapped pattern learning-自展的模式学习(也不知道翻译对不对,大概就是可以无监督的提取一些模式,如提取实体名)
  • Open IE(Information Extraction)-从纯文本中提取有结构关系组,如"Barack Obama was born in Hawaii" =》 (Barack Obama; was born in; Hawaii)

需求

语音交互类的应用(如语音助手、智能音箱echo)收到的通常是口语化的自然语言,如:我想听一个段子,给我来个牛郎织女的故事,要想精确的返回结果,就需要提出有用的主题词,段子/牛郎织女/故事。看了一圈就想使用下corenlp的TokensRegex,基于tokens序列的正则表达式。因为它提供的可用的工具有:正则表达式、分词、词性、实体类别,另外还可以自己指定实体类别,如指定牛郎织女是READ类别的实体。

Pattern语法

规则格式

{// ruleType is "text", "tokens", "composite", or "filter"ruleType: "tokens",//tokens是基于切词用于tokens正则,text是文本串用于文本正则,composite/filter还没搞明白// pattern to be matched  pattern: ( ( [ { ner:PERSON } ]) /was/ /born/ /on/ ([ { ner:DATE } ]) ),// value associated with the expression for which the pattern was matched// matched expressions are returned with "DATE_OF_BIRTH" as the value// (as part of the MatchedExpression class)result: "DATE_OF_BIRTH"
}

除了上面的字段外还有action/name/stage/active/priority等,可以参考文后的文献。

ruleTypes是tokens,pattern中的基本元素是token,整体用(),1个token用[<expression>],1个expression用{tag:xx;ner:xx}来表述

ruleTypes是text,pattern就是常规的正则表达式,基本元素就是字符了,整体用//包围

实例

corenlp提供了单条/多条正则表达式的提取,本文就介绍从文件中加载规则来拦截我们需要的文本,并从中提取主题词。

依赖包
<dependency><groupId>edu.stanford.nlp</groupId><artifactId>stanford-corenlp</artifactId><version>3.4.1</version>
</dependency>
<dependency><groupId>edu.stanford.nlp</groupId><artifactId>stanford-corenlp</artifactId><version>3.4.1</version><classifier>models</classifier>
</dependency>
<!--中文支持--> <dependency><groupId>edu.stanford.nlp</groupId><artifactId>stanford-corenlp</artifactId><version>3.6.0</version><classifier>models-chinese</classifier> </dependency>
属性配置CoreNLP-chinese.properties(可以参考stanford-corenlp-models-chinese中的配置)
annotators = segment, ssplit, pos, ner, regexner, parse
regexner.mapping = regexner.txt//自定义的实体正则表达式文件customAnnotatorClass.segment = edu.stanford.nlp.pipeline.ChineseSegmenterAnnotatorsegment.model = edu/stanford/nlp/models/segmenter/chinese/pku.gz
segment.sighanCorporaDict = edu/stanford/nlp/models/segmenter/chinese
segment.serDictionary = edu/stanford/nlp/models/segmenter/chinese/dict-chris6.ser.gz
segment.sighanPostProcessing = truessplit.boundaryTokenRegex = [.]|[!?]+|[。]|[!?]+ //句子切分符pos.model = edu/stanford/nlp/models/pos-tagger/chinese-distsim/chinese-distsim.taggerner.model = edu/stanford/nlp/models/ner/chinese.misc.distsim.crf.ser.gz
ner.applyNumericClassifiers = false
ner.useSUTime = falseparse.model = edu/stanford/nlp/models/lexparser/chinesePCFG.ser.gz

corenlp中对文本的一次处理称为一个pipeline,annotators代表一个处理节点,如segment切词、ssplit句子切割(将一段话分为多个句子)、pos词性、ner实体命名、regexner是用自定义正则表达式来标注实体类型、parse是句子结构解析。后面就是各annotator的属性。

自定义的规则文件

regexner.txt(将'牛郎织女'的实体类别识别为READ)

牛郎织女	READ

rule.txt(tokensregex规则)

$TYPE="/笑话|故事|段子|口技|谜语|寓言|评书|相声|小品|唐诗|古诗|宋词|绕口令|故事|小说/ | /脑筋/ /急转弯/"
//单类型
{ruleType: "tokens",pattern: ((?$type $TYPE)),result: Format("%s;%s;%s", "", $$type.text.replace(" ",""), "")
}

(?type xx)代表一个命名group,提取该group将结果组装成xx;xx;xx形式返回

代码
//加载tokens正则表达
CoreMapExpressionExtractor extractor = CoreMapExpressionExtractor.createExtractorFromFile(TokenSequencePattern.getNewEnv(), "rule.txt");
//创建pipeline
StanfordCoreNLP coreNLP = new StanfordCoreNLP("CoreNLP-chinese.properties");
//处理文本
Annotation annotation = coreNLP.process("听个故事");
List<CoreMap> sentences = annotation.get(CoreAnnotations.SentencesAnnotation.class);
CoreMap sentence = sentences.get(0); //获得第一个句子分析结果
//过一遍tokens正则
List<MatchedExpression> matchedExpressions = extractor.extractExpressions(sentence);
for (MatchedExpression match : matchedExpressions) {System.out.println("Matched expression: " + match.getText() + " with value " + match.getValue());
}

想看下分析结果,如切词、词性、实体名,可以使用下面的函数

    private void debug(CoreMap sentence) {// 从CoreMap中取出CoreLabel List,逐一打印出来List<CoreLabel> tokens = sentence.get(CoreAnnotations.TokensAnnotation.class);System.out.println("字/词" + "\t " + "词性" + "\t " + "实体标记");System.out.println("-----------------------------");for (CoreLabel token : tokens) {String word = token.getString(CoreAnnotations.TextAnnotation.class);String pos = token.getString(CoreAnnotations.PartOfSpeechAnnotation.class);String ner = token.getString(CoreAnnotations.NamedEntityTagAnnotation.class);System.out.println(word + "\t " + pos + "\t " + ner);}}

功能还是很强大的,毕竟可以用的东西多了,遇到问题时方法就多了。

参考文献

TokensRegex: http://nlp.stanford.edu/software/tokensregex.shtml

SequenceMatchRules: http://nlp.stanford.edu/nlp/javadoc/javanlp-3.5.0/edu/stanford/nlp/ling/tokensregex/SequenceMatchRules.html

Regexner: http://nlp.stanford.edu/software/regexner.html

转载于:https://www.cnblogs.com/whuqin/p/5741706.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/256663.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

将Linux系统下交叉编译的依赖库推到ARM平台下无法建立以来关系解决

问题&#xff1a;平常把opencv库使用源码交叉编译好之后&#xff0c;从windows推到飞机里发现&#xff0c;该库的依赖关系都没有了&#xff0c;导致程序运行的时候报该库大小有问题 解决办法&#xff1a; 1、将linux下的库推到ARM平台中的一个文件夹中&#xff0c;然后将ARM平台…

Java:switch语句例子

1、输入一个名次&#xff0c;第1&#xff5e;4名&#xff0c;分别称为冠军、亚军、季军、殿军&#xff0c;5名及5名以上&#xff0c;称为其他名次。 import java.util.Scanner; public class switch1 {public static void main(String[] args){Scanner snew Scanner(System.in)…

SQL计算100以内的质数(可以把100换成任意的整数)

declare i int --定义局部变量ideclare j int --定义局部变量jset i1 --给变量i赋值while i<100 --最外层while循环控制计算20以内的质数&#xff0c;每循环一次提供一个数&#xff0c;判断它是不是质数begin --最外层while循环开始set j1 --给变量j赋…

matlab常用函数——数据类型函数

三、基本数据类型函数 1)数值函数 double:转换为双精度浮点数 single:转换为单精度浮点数 typecast:在不改变数据大小情况下转换数据类型 Y=typecast(X,type) type可选范围:uint8、int8、uint16、int16、uint32、int32、uint64、int64、single、double arrayfun:把函数…

Courses hdu 1083(匹配)

http://acm.hdu.edu.cn/showproblem.php?pid1083 题意&#xff1a;一共有N个学生跟P门课程,一个学生可以任意选一门或多门课,问是否达成: 1.每个学生选的都是不同的课(即不能有两个学生选同一门课) 2.每门课都有一个代表(即P门课都被成功选过) 今天学姐讲匹配时讲的题目&#…

进程编译连接动态库,需要将动态库改为lib***.so

1、本身该库可能编译成npuDetect.so,但是需要改其名字为libnpuDetect.so,CMakelists才能找到该库 2、进程中连接动态库&#xff0c;如果该库还依赖别的动态库&#xff0c;则需要继续把其他的库也要连接进来

Drbd+Pacemaker实现高可用

What is Pacemaker? Pacemaker是一个集群资源管理器。它利用集群基础构件&#xff08;OpenAIS 、heartbeat或corosync&#xff09;提供的消息和成员管理能力来探测并从节点或资源级别的故障中恢复&#xff0c;以实现群集服务&#xff08;亦称资源&#xff09;的最大可用性。 前…

matlab常用函数——矩阵函数

五、数组和矩阵函数 1)数组基本函数 display:显示字符或者数组 isempty :判断数组是否为空,空返回1,不空返回0 isequal :判断数组是否相同 (认为NaN不同) isequalwithequalnans:判断数组是否相同,把NaN看成相同的数 isfinite :判断数组元素是否为有限数 isfloat…

记录下面试中的回答的不好的问题

1 伙伴系统在linux中的作用&#xff0c;具体咋回事 2 tcp拥塞控制 滑动窗口 3 linux sed&#xff0c;awk的具体使用 4 ftp哪几种模式 5 中断与轮询 6 C stl的vector是怎么是实现的 7 I/O多路复用是怎么回事&#xff0c;select(),epoll()具体怎么回事。 一个文件中每行一个单词&…

Python 字符串操作(string替换、删除、截取、复制、连接、比较、查找、包含、大小写转换、...

去空格及特殊符号 s.strip().lstrip().rstrip(,) 复制字符串 #strcpy(sStr1,sStr2)sStr1 strcpysStr2 sStr1 sStr1 strcpy2print sStr2 连接字符串 #strcat(sStr1,sStr2)sStr1 strcatsStr2 appendsStr1 sStr2print sStr1 查找字符 #strchr(sStr1,sStr2)# < 0 为未找到…

周赛题解

A - An easy problemTime Limit:3000MS Memory Limit:32768KB 64bit IO Format:%I64d & %I64u Submit Status Practice HDU 2601Description When Teddy was a child , he was always thinking about some simple math problems ,such as “What it’s 1 cup of wa…

matlab常用函数——数学函数

六、基本数学函数 1)基本运算符 +:加法运算符 -:减法运算符 *:矩阵乘法 .*:数组乘法 /:斜杠或者矩阵右除 B/A等于公式B*inv(A) ./:数组右除 A./B等于A(i,j)/B(i,j) \:反斜杠或者矩阵左除 A\B等于inv(A)*B .\:数组左除 A.\B等于B(i,j)/A(i,j) ^…

内存容量出现异常的解决办法

【鄙视360人工服务工程师 笨死你!】 如果哪天的内存容量突然出现了异常 而且发现只有一半可以使用的时候 不是内存出现了问题 而是设置的问题。 【win 7 win 8 win 10通用的解决办法】 问题描述&#xff1a; 我是win 10 64位系统 内存容量突然只有一半了 打开我的电脑的设置看了…

Oracle 变量绑定与变量窥视合集系列一

《Oracle 变量绑定与变量窥视合集》 数据库环境 LEO1LEO1> select * from v$version; BANNER -------------------------------------------------------------------------------- Oracle Database 11g Enterprise Edition Release 11.2.0.1.0 - 64bit Production PL/SQL R…

(原创)对某国的一次渗透

文章均由自己原创&#xff0c;只是一直没有在自己博客发表。本地附件也没有了&#xff0c;我是从网上找来我的以前的投稿。 写在之前的废话&#xff1a;小菜技术能力不行&#xff0c;如果你觉得此文实在看不下去&#xff0c;还请PASS掉。如果你对我的文章有兴趣&#xff0c;可以…

matlab常用函数——方程函数

八、插值函数、线性方程解函数和多项式函数 1)插值函数 interp1q :1维快速线性插值法 yi=interp1q(x,Y,xi) interp1q正常执行条件: (1)x单调递增列向量 (2)Y为列向量or行数为length(x)(3)xi为列向量,如果xi值在x的坐标范围外,返回NaN 实例: x=(-5:0.5:5); y=sin…

C/C++ | 字节对齐

目的&#xff1a;优化CPU访问数据效率 类型转换&#xff1a;未对齐时&#xff0c;严格一些的系统会报段错误&#xff0c;未报错的话效率也会有所下降。 各种结构的对齐&#xff1a; 编译器的区别&#xff1a; 其实字节对齐的细节和具体编译器实现相关&#xff0c;但一般而言&am…

关于python测试webservice接口的视频分享

现在大公司非常流行用python做产品的测试框架&#xff0c;还有对于一些快速原型产品的开发也好&#xff0c;很好地支持OO编程&#xff0c;代码易读。 Python的更新挺快的&#xff0c;尤其是第三方库。 对于测试人员&#xff0c;代码基础薄弱&#xff0c;用python语言容易上手。…

matlab常用函数——文件操作函数

十一、基本文件操作函数 1)文件创建函数 filemaker :把文件名与文件中函数名分开 。 filesep :文件目录分隔。 fileparts :把目标文件名拆分成字符串形式输出 。 tempdir :返回系统暂存地址名 。 tempname :返回系统暂存文件名 。 fullfile :创建文件名 2)文件打…