开源开放 | 高质量体育赛事摘要数据集SGSum(CCKS2021)

OpenKG地址:http://openkg.cn/dataset/sgsum

GitHub:https://github.com/krystalan/SGSum

开放许可协议:CC BY-SA 4.0 (署名相似共享)

贡献者:苏州大学(王佳安、张汀依、瞿剑峰、李直旭),科大讯飞(陈志刚),安徽淘云(刘庆升)


论文链接:https://wangjiaan.cn/files/SGSum.pdf

1. 摘要

SGSum(Sports Game Summarization)是一个大规模人工清洗的中文体育赛事摘要数据集。本数据集来源于新浪体育在线(http://match.sports.sina.com.cn/index.html) 中2012年至2020年期间的足球比赛数据,包含了7854场足球比赛的在线评论文本与对应新闻报道,其中每场新闻报道都经过了严格的人工清洗流程。该数据集的提出能够为体育赛事摘要的研究提供数据支持。

2. 体育赛事摘要

体育赛事摘要是一类特殊的文本摘要任务,旨在根据一场体育比赛的在线评论文本来生成对应的新闻报道。如下图所示,其中在线评论文本记录了整场比赛中解说员对当前赛事的实时讲解,平均长度高达2251.62字,且拥有口语化的特点。除此之外,每一句评论句还有对应的描述时间以及实时比分信息。而新闻报道则比较正规地记录了整场比赛的核心事件,能让人们更加方便、快速地回顾比赛。

我们还发现,在2012年至2020年期间的新浪体育在线足球赛事中,绝大部分的比赛都有在线评论文本,而仅有不到30%的比赛有着对应的新闻报道。因此探索如何根据在线评论文本产生新闻报道是一个非常有现实意义的研究方向。又因为在线评论文本拥有长文本以及口语化的特点使得该任务充满挑战性。

3. 数据集

为了支持和加速该任务的研究,我们构建了SGSum数据集。与以往工作相同,我们从新浪体育在线足球赛事中收集数据。然而我们发现,赛事新闻报道中往往含有大量噪声,有些新闻报道包含广告,有的新闻有着与历史相关的描述,例如:许多新闻会在一开始介绍本场比赛参赛双方的历史交战情况以及双方最近的状态等,这些信息均不能通过对应的在线评论文本得出。为了能够提升数据集的质量,与以往工作不同,我们制定了严格的人工清洗流程,以此来获得更高质量的数据。简而言之,SGSum体育赛事摘要数据集具有以下优点:

(1)SGSum从更多赛事中收集数据,其包含了7854场足球赛事的在线评论文本与对应新闻报道,是现有规模最大的数据集。约为此前最大规模数据集(SportsSum)的1.45倍。

(2)为了提升数据集的质量,SGSum对所有新闻报道采取了人工清洗,去除了与当前赛事无关的描述,例如:其他赛事的描述、广告以及与历史相关的描述。

4. 结语

为了进一步促进体育赛事摘要的研究,我们为社区贡献了一个新的体育赛事摘要数据集SGSum,该数据集是已知数据量最大且数据质量较高的相关数据集。


 

OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478100.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

消息队列设计精要

消息队列已经逐渐成为企业IT系统内部通信的核心手段。它具有低耦合、可靠投递、广播、流量控制、最终一致性等一系列功能,成为异步RPC的主要手段之一。 当今市面上有很多主流的消息中间件,如老牌的ActiveMQ、RabbitMQ,炙手可热的Kafka&#x…

数学教育中的AI:NeurIPS’21 Workshop 欢迎投稿!

Workshop主页:https://mathai4ed.github.io数学推理是一种人类独特的智慧能力,也是人类在对科学和知识的探寻道路上不可缺少的基石。不过,数学学习通常是一项极具挑战性的过程,因为它依赖于指导者对学习内容的设计、教学和评估。从…

python 处理 dataframe的汇总

0 处理异常 https://blog.csdn.net/m0_60862600/article/details/124913418?spm1001.2014.3001.5501 1 替换 示例 完整代码如下: from pandas import read_excelfiled:/student.xlsx #见第18章表18-1dfread_excel(file,sheet_name0,converters{学号:str})df[总分…

LeetCode 696. 计数二进制子串

1. 题目 给定一个字符串 s,计算具有相同数量0和1的非空(连续)子字符串的数量,并且这些子字符串中的所有0和所有1都是组合在一起的。 重复出现的子串要计算它们出现的次数。 示例 1 : 输入: "00110011" 输出: 6 解释: 有6个子串具有相同数量…

论文浅尝 - ISWC2021 | 当知识图谱遇上零样本视觉问答

论文题目:Zero-shot Visual Question Answering using Knowledge Graph本文作者:陈卓(浙江大学)、陈矫彦(牛津大学)、耿玉霞(浙江大学)、Jeff Z. Pan(爱丁堡大学)、苑宗港(华为)、陈华钧(浙江大学)发表会议:ISWC 2021论文链接:htt…

Java 8系列之重新认识HashMap

HashMap是Java程序员使用频率最高的用于映射(键值对)处理的数据类型。随着JDK(Java Developmet Kit)版本的更新,JDK1.8对HashMap底层的实现进行了优化,例如引入红黑树的数据结构和扩容的优化等。本文结合JDK1.7和JDK1.8的区别&…

利用Python进行数据分析+准备工作+缺失数据+数据转换+数据规整+数据聚合与分组运算

利用Python进行数据分析:准备工作 利用Python进行数据分析:缺失数据(基于DataFrame) 利用Python进行数据分析:数据转换(基于DataFrame) 利用Python进行数据分析:数据规整&#xf…

LeetCode 1042. 不邻接植花(图的数据结构)

1. 题目 有 N 个花园,按从 1 到 N 标记。在每个花园中,你打算种下四种花之一。 paths[i] [x, y] 描述了花园 x 到花园 y 的双向路径。 另外,没有花园有 3 条以上的路径可以进入或者离开。 你需要为每个花园选择一种花,使得通…

我用Transformer修复代码bug

源:机器之心本地化 Bug 并修复程序是软件开发过程中的重要任务。在本篇论文中,来自微软 CloudAI 部门的研究者介绍了 DeepDebug,一种使用大型预训练模型 transformer 进行自动 debug 的方法。首先,研究者基于 20 万个库中的函数训…

论文浅尝 | 一种基于递归超图的知识图谱问答方法

笔记整理 | 谭亦鸣,东南大学博士生来源:EACL’21链接:https://www.aclweb.org/anthology/2021.eacl-main.35.pdf概述与动机本文提出了一种基于递归超图的知识图谱问答方法RecHyperNet,作者认为人回答问题时倾向于在推理过程中递归…

模拟登录——添加cookies,使用postmanget请求网页数据

摘要: 在进行爬虫时,除了常见的不用登录就能爬取的网站,还有一类需要先登录的网站。比如豆瓣、知乎,以及上一篇文章中的桔子网。这一类网站又可以分为:只需输入帐号密码、除了帐号密码还需输入或点击验证码等类型。本文…

论文浅尝 | 神经网络是如何外推的:从前馈神经网络到图神经网络

笔记整理 | 王泽元,浙江大学在读硕士,研究方向为图神经网络,对比学习。什么是外推?指从已知数据的孤点集合中构建新的数据的方法。与插值(interpolation)类似,但其所得的结果意义更小&#xff0…

恕我直言,很多调参侠搞不清数据和模型谁更重要

作者:Dario Radecic,Medium 高质量技术博主编译:颂贤▲图源:[Brandon Lopez]一般的AI课程会介绍很多如何通过参数优化来提高机器学习模型准确性的方法,然而这些方法通常都存在一定的局限性。这是因为我们常常忽视了现代…

专访美团外卖曹振团:天下武功唯快不破

本文转自InfoQ中文网站,首发地址:http://www.infoq.com/cn/news/2016/06/Meituan-take-away 马云曾经说过:世界是懒人创造出来的。在“懒人”们的推动下,O2O的战火已经燃烧到了外卖行业。据报告,2015年外卖市场年交易额…

LeetCode 720. 词典中最长的单词(Trie树)

1. 题目 给出一个字符串数组words组成的一本英语词典。从中找出最长的一个单词,该单词是由words词典中其他单词逐步添加一个字母组成。若其中有多个可行的答案,则返回答案中字典序最小的单词。 若无答案,则返回空字符串。 示例 1: 输入: …

postman调的通,python调用程序却要显示登录

postman调的通,python调用程序却要显示登录 1 解决方案: 添加verify False 2 手动在网页上复制粘贴token和auth相关验证在这里插入代码片 import requests url "" requests.packages.urllib3.disable_warnings()s requests.Session()s.tr…

论文浅尝 | 通过知识到文本的转换进行知识增强的常识问答

笔记整理:陈卓,浙江大学在读博士,主要研究方向为低资源学习和知识图谱论文链接:https://www.aaai.org/AAAI21Papers/AAAI-10252.BianN.pdf发表会议:AAAI 2021动机文章提出了对于未来CQA(Commonsense QA)问题的三个见解…

聊聊机器翻译界的“灌水与反灌水之战”!

文 | Willie_桶桶编 | 智商掉了一地针对机器翻译领域如何提高和判断实验可信度,这篇ACL2021的oustanding paper迈出了关键的一步!(来读!全文在末尾)作为不停读论文和调参炼丹的科研党,也许在我们的身边总会…

LeetCode 273. 整数转换英文表示

1. 题目 将非负整数转换为其对应的英文表示。可以保证给定输入小于 231 - 1 。 示例 1: 输入: 123 输出: "One Hundred Twenty Three"示例 2: 输入: 12345 输出: "Twelve Thousand Three Hundred Forty Five"示例 3: 输入: 1234567 输出: "One Mill…

数据标注平台doccano----简介、安装、使用、踩坑记录

1.doccano的安装与初始配置 1.1 doccano的用途 document classification 文本分类sequence labeling 序列标注,用于命名实体识别sequence to sequence seq2seq,用于翻译speech to text 语音转文本标注 命名实体标注 序列标注(如机器翻译&…