NLP论文阅读记录 - 2022 | WOS 用于摘要法律文本的有效深度学习方法

文章目录

  • 前言
  • 0、论文摘要
  • 一、Introduction
    • 1.1目标问题
  • 二.相关工作
  • 三.本文方法
  • 四 实验效果
    • 4.1数据集
    • 4.2 对比模型
    • 4.3实施细节
    • 4.4评估指标
    • 4.5 实验结果
      • 4.6 细粒度分析
  • 五 总结


前言

在这里插入图片描述

Effective deep learning approaches for summarization of legal texts(22)

0、论文摘要

数字形式的法律判决文件的可用性为信息提取和应用提供了众多机会。由于这些法律文本的结构不寻常且复杂性高,自动摘要是一项至关重要且具有挑战性的任务。以前在这个方向上的方法依赖于巨大的标记数据集,使用手工设计的特征,利用领域知识并将注意力集中在狭窄的子领域以提高效率。在本文中,我们提出了使用神经网络的简单通用技术来完成印度法律判决文件的摘要任务。
我们为此任务探索了两种神经网络架构,利用单词和句子嵌入来捕获语义。所提出的方法的主要优点是它们不依赖于手工制作的特征或特定于领域的知识,它们的应用也不限于特定的子域,因此使它们也适合扩展到其他域。我们通过根据训练集中的句子与人类生成的参考摘要的匹配为句子分配类别/分数来解决任务的标记数据不可用的问题。实验评估确定了我们提出的方法与其他基线相比的有效性。

一、Introduction

1.1目标问题

网络上大量文本数据的可用性和访问的便捷性既带来了机遇,也带来了挑战。数据可访问性的增加导致了信息过载问题。为了促进此类在线文本的自动处理,人们投入了大量的研究工作。自然语言理解领域的一项重要任务是文档摘要,即将文本内容压缩为简洁的形式,仅捕获文档中的基本概念。法律领域的自动摘要可以有很多应用,从简化律师翻阅大量法律文档的工作到有效检索与查询相关的判决。
文档摘要方法通常基于两种方法 - 抽象(Chen 和 Bansal,2018)和提取(Saravanan 等人,2008;Polsley 等人,2016)抽象摘要技术模仿人类生成涵盖文档中表达的基本思想的摘要生成原始文档中不存在的内容,可能由不同的语言结构组成。另一方面,提取摘要技术从文档中识别并提取重要部分,然后将其逐字复制到摘要中。抽象摘要技术通常比提取摘要技术更具挑战性,并且在资源和算法复杂性方面要求更高。
文档摘要领域的研究已经持续了几十年。一些方法基于主题建模和潜在语义分析、LSA,它们完全基于文档中的文本(Allahyari 等人,2017)。之前的一些工作已经探索了通过利用领域知识来改进摘要结果来获取丰富的数据集(Saravanan 等人,2008)。这些方法基本上是无监督的。使用指示符方法的文本摘要也得到了有效的使用。这些方法通过每个句子的特征来表示它。基于图的方法和 TFIDF 权重方案用于从句子中提取特征。经典机器学习算法然后使用它们来确定各个句子的重要性。
法律信息科学家对自动摘要进行了广泛的研究,并且提出的方法基于广泛的方法。这些方法大多数侧重于利用标记数据进行文档分割以生成摘要或从文本中提取特征以包含在摘要中。法律文本摘要方法大多是提取性的,并且可以在存在足够标记数据的情况下作为监督学习方法呈现。在法律领域,此类标记数据不可用且生成成本昂贵,因此研究人员提出了从可用的未标记数据生成标记训练数据的方法。 (Wagh 和 Anand,2020) 中提出了通过利用领域知识自动生成用于法律文本分割的标记训练数据。在拟议的工作中,我们演示了完全数据驱动的标记数据集生成。我们通过利用一些判决文件中存在的人工生成的注释来缓解标记数据不可用的问题。考虑到基于深度学习的文本摘要方案的巨大成功(Allahyari et al., 2017; Sinha et al., 2018),我们探索了各种深度学习方法来完成不依赖于领域知识的提取式法律判决摘要任务或标记数据创建的领域专家。我们专门在 1947 年至 1993 年印度最高法院的判决中测试了我们的方法。我们发现,这些简单的提议技术除了优于基线之外,还产生了相当连贯的摘要。

二.相关工作

人工智能和机器学习算法的进步使人类能够利用这些技术来简化许多任务。随着互联网产生的文本内容量呈指数级增长,使用这些技术来提取与用户信息需求最相关的内容已变得势在必行。自动文本摘要旨在为文档生成简洁的文本,可以适当地用于将我们的注意力集中到相关的内容上。自动文本摘要技术已经存在多年,最早被应用于生成科学研究文档摘要(Allahyari 等人,2017)。
产生自动摘要的两种基本技术是提取和抽象。虽然提取性摘要(Kim 等人,2012;Kavila 等人,2013;Sinha 等人,2018)的任务是选择要包含在摘要中的文档的重要部分,但抽象摘要技术(Chen 和 Bansal,2018) )考虑整个文档并以更简单的方式重新表述摘要,可能使用与原文不同的单词和短语。最早的方法是提取性的,并使用简单的基于单词和短语的特征,例如句子中是否存在提示词来选择句子(Allahyari 等人,2017)。在计算句子的重要性时也考虑了其他特征,例如文档与文档标题的匹配程度以及句子在文档中的相对位置(Kanapala et al., 2019)。还提出了更先进的技术,例如基于频率、主题建模、潜在语义分析和贝叶斯模型的技术(Allahyari 等人,2017)。
随着深度学习技术的日益普及,抽象概括技术的研究近年来不断加速。这些技术利用基于规则的方法,通过识别包含重要事件的片段并将该信息包含在摘要中。基于树的方法和基于本体的方法用于抽象概括(Kasture et al., 2014)。
法律文本的自动摘要面临着多样化的写作风格和文本中讨论的法律问题的多个维度的挑战。作者在(Kanapala et al., 2019)中对法律文本摘要中使用的方法进行了详细回顾。非对称加权图(Kim et al., 2012)用于法律文本摘要,其中句子表示为图中的节点。选择具有高节点值的句子作为摘要的一部分。文档被表示为连接图的集合,其中属于连接组件的句子是相关的。这种方法有助于实现多样性,从而确保凝聚力。 (Kavila et al., 2013) 中的作者采用了两种技术的混合,即关键字/关键短语匹配以及基于案例的技术。 (Oufaida et al., 2014) 中提出了使用判别分析对阿拉伯文本的多文档摘要捕获信息多样性。 (Venkatesh, 2013) 提出了一种基于从分层潜在狄利克雷分配 (hLDA) 获得的主题来聚类法律判决的方法。主题和文档之间的相似性度量用于执行 hLDA 并使用相同主题查找每个文档的摘要。 (Seth et al., 2016) 中提出了一种更简单的方法,其中对每个句子中单词的 TF-IDF 分数进行求和,并通过句子长度进行归一化以找到重要性分数。对类似于章节标题的实体名称、日期和段给予特殊处理。 (Saravanan et al., 2008) 采用了一种不同的方法,作者将摘要任务分为两个阶段——使用条件随机场通过修辞角色识别来分割文档,并从如此识别的片段中生成摘要。在(Yamada et al., 2017)中提出了在判断中对不同粒度的文本单元进行注释以识别重要文本的类似方法。这些方法基于语义相似文本片段的识别并利用法律文本的结构。但这些方法完全依赖标记数据进行分割和注释。
近年来,深度学习方法已应用于文本摘要任务并取得了很高的成功率。提出了用于文本摘要的模型,范围从简单的多层网络(Sinha 等人,2018)到复杂的神经网络架构(Young 等人,2018)。但据我们所知,深度学习技术很少用于法律文件摘要生成。在本文中,我们提出了一种使用自动句子标记方法的基于深度学习的法律文本摘要方法。

三.本文方法

四 实验效果

4.1数据集

4.2 对比模型

4.3实施细节

4.4评估指标

4.5 实验结果

4.6 细粒度分析


五 总结

在本文中,我们提出了一种数据驱动的半监督方法,使用各种神经网络架构来提取法律文档摘要。我们的贡献是双重的——我们提出了一种使用参考摘要生成数据集的新技术,消除了对如此复杂领域专家的需求;其次,我们提出了一种无需特征制作或领域知识即可生成法律文档摘要的简单方法。根据 Rouge 分数衡量,所提出的技术表现良好,并产生连贯的摘要。我们的方法分为两个主要阶段:生成用于句子重要性分类/预测任务的标记数据集,以及在训练数据上使用各种深度学习模型将文档的基本组成部分压缩为摘要。我们提出了四种生成标记数据的方法,并进一步证明使用句子嵌入优于其他三种方法。对于分类/预测任务,基于 LSTM 的神经网络架构在大多数情况下优于其他方法。将来,我们打算对人类专家生成的法律文本摘要进行所提出的方法的评估。法院判决书使用特定术语和独特的写作风格撰写,因此往往包含非常冗长和复杂的句子。我们打算探索由此获得的摘要的句子简化方法,以增强复杂和长句子的可解释性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/624488.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux -- Nginx服务基础

4.1Nginx服务基础 Nginx(发音为[engine x])专为性能优化而开发,其最知名的优点是它的稳定性和低系统资源消 耗,以及对HTTP并发连接的高处理能力(单台物理服务器可支持30000~50000个并发请求),正因 为如此,…

html中flex的使用

在HTML中,flex属性用于设置弹性容器的子元素的布局方式。使用flex属性可以实现灵活的布局,使子元素根据可用空间自动调整大小。flex属性有三个值:flex-grow、flex-shrink和flex-basis。 flex-grow:指定子元素的放大比例&#xff…

路由器路由配置解析

路由器是网络中负责转发数据包的设备,通过配置路由规则,确定数据包的传输路径。在本文中,我们将解析一个路由器的配置,并说明每个路由规则的含义。 路由器配置 rootr-63-VM:# ip route default via 192.168.157.2 dev eth1 10.1…

vscode中关于python的一些常用配置

文章目录 python cv2 提示配置第一步 配置提示信息第二部 重启vs 可能还不行,那就重新安装以下opencv-python 配置pytest还是如上,将下入的位置打开编写测试用例 配置跨文件import在工作目录中新建一个.env文件输入内容如下打开.vscode中的setting.json …

目标识别跟踪模块Tofu3

Tofu系列提供了适应不同目标、不同速率的识别跟踪模块产品系列,主要包括Tofu3,4,5,S和其他零配件,可以适配BT.656,Cameralink,网络等不同接口和协议的热红外、可见光视频。 Tofu3 是多波段视频物体识别跟踪…

PTA 7-27 输出下半张九九乘法表

请输出下半张九九乘法表,即下三角的半张。 11 1 21 2 22 4 31 3 32 6 33 9 41 4 42 8 4312 4416 51 5 5210 5315 5420 5525 61 6 6212 6318 6424 6530 6636 71 7 7214 7321 7428 7535 7642 7749 81 8 8216 8324 8432 8540 8648 8756 8864 91 9 9218 9327 9…

GL Logger和CANFDLog-OTL-128两款记录仪都是如何实现高效的报文录制的?

GL Logger是Vector推出的记录CAN/CAN FD、LIN、FlexRay和MOST数据通信的工具。以GL2400为例带着大家一步步地实现路试过程中通过整车OBD口进行CAN/CANFD报文的录制。 Step1 设备配置 设备配置即设备录制方式、录制内容、设备休眠唤醒策略等。 ▷ 打开Vector Logger Configurat…

AMEYA360:帝奥微车规级高性能电平转换器 — DIA7B104

电平转换器(Level Shifter,LS)是一个在SOC设计中经常会用到的器件。它的主要作用是将数字信号从一个电压域切换到另一个电压域。随着汽车电气化和智能化的发展,汽车电子系统越来越复杂,各种功能模块之间的通讯也越来越多。由先进工艺制造的主…

UML-用例图

提示:用例图是软件建模的开始,软件建模中的其他图形都将以用例图为依据。用例图列举了系统所需要实现的所有功能,除了用于软件开发的需求分析阶段,也可用于软件的系统测试阶段。 UML-用例图 一、用例图的基础知识1.用例图的构成元…

openssl3.2 - 官方demo学习 - mac - hmac-sha512.c

文章目录 openssl3.2 - 官方demo学习 - mac - hmac-sha512.c概述笔记END openssl3.2 - 官方demo学习 - mac - hmac-sha512.c 概述 MAC算法为HMAC, 设置参数(摘要算法为SHA3-512), 用key初始化, 对明文做MAC数据. 笔记 /*! \file hmac-sha512.c \note openssl3.2 - 官方demo…

使用numpy处理图片——滤镜

大纲 3维数组切分打平重组法深度切分法 3维数组堆叠 我们在用手机拍照片时,往往会对照片进行滤镜处理,从而让照片更加美观。本文我们将实现几种滤镜效果——去除所有像素中的某一种原色,形成只有红绿、红蓝和绿蓝原色的照片。 为了突出色彩丰…

Leetcode面试经典150题刷题记录 —— 数学篇

Leetcode面试经典150题刷题记录-系列Leetcod面试经典150题刷题记录——数组 / 字符串篇Leetcod面试经典150题刷题记录 —— 双指针篇Leetcod面试经典150题刷题记录 —— 矩阵篇Leetcod面试经典150题刷题记录 —— 滑动窗口篇Leetcod面试经典150题刷题记录 —— 哈希表篇Leetcod…

WebGL简介以及使用

WebGL简介 WebGL&#xff08;Web图形库&#xff09; 是一种在没有使用插件的情况下在网页浏览器中渲染2D图形和3D图形的技术。它基于OpenGL ES&#xff0c;一个在嵌入式系统中广泛使用的图形API。WebGL通过HTML5的 <canvas> 元素直接在网页上实现图形渲染&#xff0c;使…

定制服务器有什么优势优点?

定制服务器是指在根据用户的需求和业务特点&#xff0c;专门设计和制造的服务器。与标准服务器相比&#xff0c;定制服务器具有以下优势和优点&#xff1a; 更好的性能&#xff1a;定制服务器可以针对特定应用进行优化&#xff0c;从而提高服务器的性能。由于定制服务器不需要…

Win和Mac系统重置系统方法

注意&#xff1a;重置系统前&#xff0c;请备份好系统盘资料到其他盘符&#xff01;重置系统将会删除应用和系统设置&#xff0c;甚至用户文件&#xff0c;还原为出厂设置模式。 Windows重置系统操作方法。&#xff08;目前支持WIN8&#xff0c;WIN10&#xff0c;WIN11&#x…

Linux系统使用docker部署Geoserver(简单粗暴,复制即用)

1、拉取镜像 docker pull kartoza/geoserver:2.20.32、创建数据挂载目录 # 统一管理Docker容器的数据文件,geoserver mkdir -p /mydata/geoserver# 创建geoserver的挂载数据目录 mkdir -p /mydata/geoserver/data_dir# 创建geoserver的挂载数据目录&#xff0c;存放shp数据 m…

【数据库原理】(24)数据库安全性策略

数据库安全性是数据库管理系统&#xff08;DBMS&#xff09;中一个至关重要的方面。它指的是保护数据库免受非授权访问和恶意操作&#xff0c;包括数据泄露、修改、破坏等。 多层安全模型 在典型的计算机系统安全模型中&#xff0c;安全措施被设置在不同层级&#xff1a; 应用…

Unity ComputeShader 使用GPU快速计算复杂问题

Unity ComputeShader 使用GPU快速计算复杂问题 前言项目创建ComputeShader编写CompturShader创建Unity代码场景布置运行场景 参考 前言 遇到一个问题&#xff0c;需要大量的计算&#xff0c;在Unity中直接写会长时间的阻塞主线程&#xff0c;正好使用ComputeShader让GPU来帮我…

What is `@Controller` does?

Controller 是SpringMVC注解&#xff0c;标记一个类作为Web控制器&#xff08;Controller&#xff09;&#xff0c;负责处理HTTP请求并返回响应结果 在SpringMVC中&#xff0c;控制器类的主要职责是&#xff1a; 1、接收来自客户端的HTTP请求 2、调用服务层或其他业务逻辑组件…

海格里斯HEGERLS仓储货架生产厂家|载荷1.5T运行速度1.7~2m/s的智能四向穿梭车系统

四向穿梭车立体库是近年来出现的一种智能型密集系统&#xff0c;通过使用四向穿梭车在货架的水平和纵向轨道上运行来搬运货物&#xff0c;一台四向穿梭车就能完成货物的搬运工作&#xff0c;大大提高了工作效率。同时配合提升机、自动化仓库管理系统(WMS)和仓库调度系统(WCS)&a…