机器学习解析新闻引语:从定义到实体识别

news/2025/12/11 9:38:29/文章来源:https://www.cnblogs.com/codeshare1135/p/19334366

机器学习解析新闻引语:从定义到实体识别

过去六个月,我们参与了2021年“新闻AI协作挑战”,这是一个连接全球新闻编辑室、旨在探索人工智能如何改进新闻业的项目。我们面临的特定挑战是回答这个问题:
“我们如何利用模块化新闻和人工智能来组装新的叙事形式,并触达服务不足的受众?”

参与的新闻编辑室被组织成团队,共同定义要解决的挑战、构想潜在的解决方案,并将其转化为原型。我们的团队包括来自欧洲、非洲和中东的新闻编辑室。尽管我们吸引不同的受众、制作不同类型的内容并拥有不同的商业模式,但我们面临着一些相同的基本挑战。

“模块”被定义为可以独立存在、可以被重新利用、甚至可以被另一个片段替换的故事片段。基于这个定义,引语强烈符合模块的特征。

使用人工智能来识别引语有许多充分的理由,从基于引语创建新内容,到追踪同一主题上随时间变化的观点,再到事实核查。另一个有趣的应用是揭示关于我们新闻工作的隐藏洞察。我们的消息来源是谁?他们的多样性如何?我们多久引用同一个人或组织?我们是否给予不同性别和种族群体同等的曝光度?

什么是引语?

某中心与某机构合作,致力于开发一种机器学习解决方案,以准确从新闻文章中提取引语并将其与正确的来源匹配。

现有的解决方案在我们的内容上效果不佳。模型难以识别那些不符合经典模式的引语,例如:

他们承认:“该模型是在有限数量的引语风格上训练的。”

有些模型返回了太多的误报,将一般性陈述识别为引语。例如:

某机构周四宣布,家庭获得的经过经济状况调查的护理支持将不计入85,000英镑的总数,这意味着资产相对较少的人仍可能需要全额支付。

指代消解,即通过寻找文本中的正确指代来确定引语来源的过程,也是一个问题,尤其是当来源的名字在引语本身之前几个句子甚至几个段落就被提到时。

我们之前尝试使用正则表达式(指定搜索模式的字符序列)来解决这个问题,但遇到了内容创作者决定用引号表示非标准英语术语(如“woke”)的情况。我们想看看是否能教会机器理解这两种言语结构之间的区别。尝试机器学习方法还有一个额外的好处,即我们可以更好地减轻因拼写错误导致的引号不匹配或缺失,或者引语中的引语。

首先,我们需要一个清晰的引语定义。我们决定以维基百科的定义为起点:

“引语是对某人说过或写过的言语或文本中的句子、短语或段落的重复。在口头言语中,它是由引述标记(如言说动词)引入的话语(即说话者实际说过的内容)的再现。例如:约翰说:‘我今天看到玛丽了。’口头言语中的引语除了引述标记外,还通过特殊的韵律来标记。在书面文本中,引语通过引号来标记。”

遵循这个定义,我们做出了一个设计决策:明确区分释义和引语,并集中精力仅识别引号内的文本。

深度学习来救援

为了训练一个识别文本中引语的模型,我们使用了某机构创建的两个工具。SpaCy是使用深度神经网络进行高级自然语言处理的主要开源库之一。Prodigy是一个注释工具,提供了一个易于使用的网络界面,用于快速高效地标注训练数据。

我们与某机构的同事们一起,手动标注了800多篇新闻文章,标注了三个实体:内容(引号内的引语)、来源(发言者,可能是个人、组织等)和提示(通常是动词短语,表示言语或表达行为)。

请遵守风格指南!

在开始工作之前,我们需要为数据标注创建一个非常清晰简洁的指南。为了最大限度地减少训练数据集中的噪声和不确定性,我们必须确保多个标注者能以相同的方式理解任务。

某中心的风格指南概述了作者应如何引用来源。这是一个很好的起点,我们发现它非常有用。然而,我们发现我们内容中的许多引语与该指南中建议的规则有显著偏差。

从基于正则表达式的第一个模型中,我们继承了一长串不同的引语风格和结构。最初,我们统计了记者在写作中包含引语的12种不同方式,但在标注过程中我们又添加了许多。

“如果所有引语都像这样就好了,”我们抱怨道。

这长串不同结构的最后一项是这样的:

标注者感到恼火,并说:“当我们以为我们已经列出了所有引语风格时,我们发现了这个……”她说。 :person_bowing:

您可以在我们的公共GitHub上找到完整列表。

某机构编辑项目副新闻编辑表示:“我喜欢这样的想法:人工智能迫使我们解构我们的习惯,理解我们如何做事,以及在告诉模型规则之前我们采取了哪些步骤。通过这样做,我们有时可以识别出必要的变化并改进我们原始的‘现实生活’流程。这就是为什么这类实验也可能导致我们风格指南的变化。”

人类学习与机器学习

构建训练数据集的主要挑战在于应对不同新闻风格的模糊性。有几天时间,我们讨论了数十个难以做出正确选择的案例。

我们应该如何处理歌词或诗歌?标语牌上的信息呢?如果有人引用自己的想法,即没有说出来的内容呢?

我们的第一批标注结果噪音很大且不一致,但随着每次迭代,我们变得越来越好。

我们集体经历了与模型相同的学习过程。我们查看的例子越多,我们就越擅长识别不同的案例。然而问题依然存在——如果人类都难以做出这些决定,我们能否教会机器应对这项任务?

结果看起来很有希望,尤其是对于内容实体。模型在89%的情况下正确识别了所有三个实体(内容、来源、提示)。单独考虑每个实体,内容得分最高(93%),其次是提示(86%)和来源(84%)。

有趣的是,我们通过丢弃最初进行的标注获得了这些结果,这表明随着我们标注更多例子,我们变得更好且彼此之间更一致。

三个实体之间的差异并不令人惊讶。内容实体被包含在引号内,因此标点符号是匹配该实体类型的强烈信号。然而,并非引号内的每个短语都是引语——引号也用于其他文体选择,这给实体提取任务增加了噪声。根据我们的初步分析,我们的模型似乎已经学会了区分真正的引语和用于表示非标准术语或文体选择的加引号词语。

为了评估我们的模型,我们使用了最严格的方式来衡量命名实体识别的性能,即每个预测实体都需要在起始和结束位置上与标注数据完全匹配。即使在模型出错的情况下,我们也经常发现它部分匹配了实体。这对于来源实体尤其如此。

下一步是什么?

向前推进,我们需要构建一个强大的指代消解系统。我们希望探索深度学习选项来帮助完成这个任务。

另一个挑战将是识别有意义的引语——值得存储以备将来参考的内容。我们相信,结合机器学习、文章现有元数据以及从来源和内容中提取的额外信息,可能会为我们提供分类引语的强有力信号。

另一个应用将是用于发现引语的用户界面。这将使记者能够快速调出之前的引语,以便与当前声明进行核对或丰富他们的文章。

“这可能会催生一个具有多种应用的面向用户的工具。该搜索产生的数据反过来可以告知新闻编辑室用户的兴趣,”该副新闻编辑说。

某中心编辑创新负责人表示:“我们致力于通过新闻的视角来思考人工智能和自动化,并将尽可能多地进行实验,以找到我们可以应用的积极方式并避免陷阱。”

对某些人来说,尝试使用机器学习来识别和提取新闻文章中的引语可能显得深奥。但对读者、记者和编辑的潜在好处可能是相当大的——从确保我们为那些通常代表性不足的人提供平台,到构建能够讲述完整故事的产品和形式,而不是简单地默认“他说,她说”的公式。

请关注此空间,我们希望很快向您汇报我们的进展。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/997888.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025年杭州电子名片公司推荐榜单:免费电子名片‌/企业电子名片‌/微信电子名片源头公司精选 - 品牌推荐官

在数字经济浪潮与国家产业数字化转型政策的双重推动下,作为商务社交标志的纸质名片正加速步入历史。电子名片已不再是简单的联系方式数字化,而是演变为一个集品牌动态展示、智能交互、客户洞察与营销转化于一体的移动…

手把手教你使用Ventoy将一个U盘装多个系统镜像+PE镜像(微PE)

0 Ventoy 简介与本文目的 简单来说,Ventoy是一个制作可启动U盘的开源工具。有了Ventoy你就无需反复地格式化U盘,你只需要把 ISO/WIM/IMG/VHD(x)/EFI 等类型的文件直接拷贝到U盘里面就可以启动了,无需其他操作。你可…

成都新中式仿古门窗厂家推荐:2025 年权威榜发布 - 朴素的承诺

成都新中式仿古门窗厂家推荐:2025 年权威榜发布在浸润三千年巴蜀文脉的成都,新中式仿古门窗早已超越建筑构件的属性,成为承载天府美学与生活哲学的文化符号。从宽窄巷子的仿古客栈到青城山的道观古建,从高端别墅的…

2025 年四川户外防腐木地板公司排名榜:产品权威评测 - 朴素的承诺

2025 年四川户外防腐木地板公司排名榜:产品权威评测📊 评分说明:采用豆瓣五星制(满分 5.0),基于材质性能、产能保障、定制服务、性价比、服务支持五大核心维度加权计算(权重分别为 25%、25%、20%、15%、15%),…

2025 年成都天然气掺氢设备生产厂家最新实力榜 - 朴素的承诺

2025 年四川天然气掺氢设备生产厂家最新实力榜在 “双碳” 目标深化推进的 2025 年,天然气掺氢作为能源转型核心技术,成为工业与民用领域减碳刚需。成都凭借氢能产业集群优势,涌现多家设备生产企业。基于口碑调研、…

企业选对大旋风喷涂设备厂家指南:四川辉鑫机械是优选 - 朴素的承诺

企业选对大旋风喷涂设备厂家指南:四川辉鑫机械是优选在四川制造业升级浪潮中,大旋风喷涂设备作为喷涂行业核心设备,既是提升产品表面质量、提高生产效率的关键,其生产厂家的选择更直接影响企业的生产效益与市场竞争…

四川水泥瓦生产实力厂家 —— 彭州市大地彩瓦厂案例分享 - 朴素的承诺

四川水泥瓦生产实力厂家 —— 彭州市大地彩瓦厂案例分享在四川水泥瓦行业,彭州市大地彩瓦厂作为资深的四川水泥瓦生产厂家,凭借多年深耕与过硬品质,成为备受认可的彩色水泥瓦生产及安装标杆企业。自 2006 年 4 月 3…

国内国产振实密度仪技术升级,2025哪个品牌公司产品售后好? - 品牌推荐大师

大连鹏辉科技开发有限公司为化工部大连化工研究设计院高新技术公司。是集科研、生产制造、销售服务于一体的技术密集型企业。公司由化学工业部“突出贡献的中青年专家”的李文富先生担任总工程师。三十年来我们一直专注…

国内国产堆积密度仪技术升级,2025哪个品牌公司产品售后好? - 品牌推荐大师

大连鹏辉科技开发有限公司为化工部大连化工研究设计院高新技术公司。是集科研、生产制造、销售服务于一体的技术密集型企业。公司由化学工业部“突出贡献的中青年专家”的李文富先生担任总工程师。三十年来我们一直专注…

windriver 第11章:提升PCI性能

11.1 提升PCI性能概述 当您的用户模式驱动程序编写和调试完成后,可能会发现代码中的某些模块运行速度不足(例如:中断处理程序或I/O映射区域访问)。若存在此类情况,可通过以下方式之一提升性能:为数据传输实现DMA…

2025年投影机供应商综合实力排行榜,雾幕投影机/山体投影机/城墙投影机投影机品牌哪家好 - 品牌推荐师

随着数字展示与沉浸式体验需求的爆发式增长,投影机作为核心视听设备,其供应商的综合服务能力成为活动成败的关键。市场不再仅仅关注设备参数,更看重供应商能否提供从高端设备、全国化支持到全流程技术保障的一站式解…

2025年超级电容公司TOP5权威推荐:看哪家售后服务优? - mypinpai

能源转型浪潮下,工业制造、航天航空、电网储能等领域对高可靠性超级电容的需求持续激增。2024年全球超级电容市场规模突破120亿美元,年增速达32%,但30%的企业采购时面临性能不稳定、售后响应慢、定制能力弱三大痛点…

2025年发光字标识标牌工厂推荐,口碑好的发光字标识标牌制作 - myqiye

在商业空间视觉传达中,发光字标识标牌是品牌形象的夜间名片与空间导向的核心载体。面对市场上参差不齐的供应商,如何选择口碑好、实力强的发光字标识标牌制作厂家?以下基于生产规模、技术实力、全链条服务能力等维度…

2025年度实力强的发光字标识标牌定制生产厂家TOP5推荐: - 工业品牌热点

商业空间与公共场景中,发光字标识标牌是品牌展示、空间导视的核心载体,2023年国内标识市场规模突破320亿元,年增速超18%,但企业采购常遇四大痛点:设计与需求脱节导致返工率超35%、质量不稳定引发售后成本占比达20…

2025年衡水出租救护车公司权威推荐榜单:短途救护车出租/跨市救护车出租/本地救护车出租服务精选 - 品牌推荐官

一位重症患者需要从北京转运至广州,全程1800公里。衡水博文医疗的专业团队仅用36小时就完成了这项艰巨任务,患者全程生命体征平稳。这背后,是专业医疗转运服务日益增长的市场需求。 随着社会对医疗保障需求的不断提…

2025叛逆教育机构TOP5权威推荐:深度测评指南,助力迷途 - 工业推荐榜

当青春期的叛逆与网络沉迷、厌学逃学交织,无数家庭陷入明知孩子有问题,却不知从何下手的困境。2024年《中国青少年行为问题干预报告》显示,超62%的困境家庭曾因选错教育机构耽误孩子矫正黄金期,而专业叛逆教育机构…

2025年12月杨浦区国际高中,闵行区国际高中,宝山区国际高中推荐:全流程升学服务深度解析​ - 品牌鉴赏师

引言在 2025 年 12 月,国际高中教育在上海杨浦区、闵行区和宝山区呈现出蓬勃发展的态势。据国内教育行业权威协会发布的《2025 年上海国际高中教育白皮书》显示,上海国际高中的整体教学质量和升学成果在全国处于领先…

CPLD(复杂可编程逻辑器件,Complex Programmable Logic Device)是什么? - 详解

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

2025国产超级电容公司TOP5权威推荐:甄选企业助力能源转 - mypinpai

在全球双碳战略与新型电力系统建设的推动下,超级电容作为兼具高功率密度与长循环寿命的储能器件,市场需求呈爆发式增长。2024年数据显示,国内超级电容市场规模突破120亿元,年增速达55%,但行业内存在产品性能参差不…

MySQL The storage engine for the table doesnt support repair 错误

MySQL "The storage engine for the table doesnt support repair" 错误在 MySQL 运维中,执行REPAIR TABLE修复损坏表时,常遇到 “The storage engine for the table doesnt support repair” 报错。这个错…