河北做网站电话网站开发相关会议
news/
2025/9/23 13:34:19/
文章来源:
河北做网站电话,网站开发相关会议,非常好的资讯网站设计,深圳物流公司大全排名论文笔记整理#xff1a;谭亦鸣#xff0c;东南大学博士生#xff0c;研究方向为跨语言知识图谱问答。来源#xff1a;NLPCC2018链接#xff1a;http://tcci.ccf.org.cn/conference/2018/papers/EV7.pdf问题背景与动机作者认为#xff0c;目前的问题语料生成主要依赖于人… 论文笔记整理谭亦鸣东南大学博士生研究方向为跨语言知识图谱问答。来源NLPCC2018链接http://tcci.ccf.org.cn/conference/2018/papers/EV7.pdf 问题背景与动机作者认为目前的问题语料生成主要依赖于人工标注和整理成本较大。而现有基于知识库的自动问题生成方法都不能较好的替代上述所需的人工标注效果。在同时考虑生成问题语料的流利度和问题的质量两个方面的问题后采用了基于LSTM的神经网络生成方案并提出一种新的输入序列预处理方式从而达到获取高质量中文问题语料的效果。本方法在NLPCC2018的KBQG任务上获得了最优。 贡献1. 使用LSTM用于中文问题生成2. 提出了一种新的输入序列处理方法 模型本文提出的模型由编码与解码两个部分组成编码部分的输入是三元组来自知识图谱。三元组由subjectrelationship与object构成作为答案的object在问题生成过程中不会被直接表达于问句中但是它的存在有助于系统理解目前所生成问题的目标。因此在问题生成过程中object需要被转换为一些特别的形式以反映出它作为答案时问句应表现出的问题意图类型。下表是一些转换的例子比如时间信息根据形式的不同可用date表示日期time表示具体时间等等。中文处理中一个非常难的问题是名称的识别由于使用pattern无法有效找到中文名称信息因此作者采用HanLP工具来完成上述工作在HanLP中名称信息可通过角色标注被识别出来。这种object完成了上述两次替换的得到序列被作者称为token_seq在完成名称识别后则可以对原始三元组的object成分进行“词-词性标签“的替换除了形容词和副词如下表所示经过这种替换的序列则被称为token_pos_seq。需要说明的是三元组中的subject会在输出序列中以ent的标签形式出现因此不参与到问题生成模型的输入中token_pos_seq/token_seq中的标签is用于分开relationship与object。编码器-解码器的网络结构方面采用了常见的双向LSTM编码与单RNN解码的形式完成。实验文章的实验数据来自 NLPCC2018 的 KBQG 评测子任务提供规模为24,479的问答训练集测试集规模为357评测指标选用了BLEU-4较高的BLEU值表示模型生成的问题与标准问题的描述形式更为相近但并不意味着低BLEU问题就是错误的这里仅供参考。此外详细的神经网络参数设置原文已由描述这里不再赘述。实验结果如下表所示。OpenKG开放知识图谱简称 OpenKG旨在促进中文知识图谱数据的开放与互联促进知识图谱和语义技术的普及和广泛应用。点击阅读原文进入 OpenKG 博客。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/912702.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!