自然语言处理-文本标注

文本标注

现在让我们考虑词元级任务,比如文本标注(text tagging),其中每个词元都被分配了一个标签。在文本标注任务中,词性标注为每个单词分配词性标记(例如,形容词和限定词)。 根据单词在句子中的作用。如,在Penn树库II标注集中,句子“John Smith‘s car is new”应该被标记为“NNP(名词,专有单数)NNP POS(所有格结尾)NN(名词,单数或质量)VB(动词,基本形式)JJ(形容词)”。

上图中说明了文本标记应用的BERT微调。与 文本对分类或回归相比,唯一的区别在于,在文本标注中,输入文本的每个词元的BERT表示被送到相同的额外全连接层中,以输出词元的标签,例如词性标签。

问答

作为另一个词元级应用,问答反映阅读理解能力。 例如,斯坦福问答数据集(Stanford Question Answering Dataset,SQuAD v1.1)由阅读段落和问题组成,其中每个问题的答案只是段落中的一段文本(文本片段)。举个例子,考虑一段话:“Some experts report that a mask’s efficacy is inconclusive.However,mask makers insist that their products,such as N95 respirator masks,can guard against the virus.”(“一些专家报告说面罩的功效是不确定的。然而,口罩制造商坚持他们的产品,如N95口罩,可以预防病毒。”)还有一个问题“Who say that N95 respirator masks can guard against the virus?”(“谁说N95口罩可以预防病毒?”)。答案应该是文章中的文本片段“mask makers”(“口罩制造商”)。因此,SQuAD v1.1的目标是在给定问题和段落的情况下预测段落中文本片段的开始和结束。

为了微调BERT进行问答,在BERT的输入中,将问题和段落分别作为第一个和第二个文本序列。为了预测文本片段开始的位置,相同的额外的全连接层将把来自位置i的任何词元的BERT表示转换成标量分数s_{i}。文章中所有词元的分数还通过softmax转换成概率分布,从而为文章中的每个词元位置i分配作为文本片段开始的概率p_{i}。预测文本片段的结束与上面相同,只是其额外的全连接层中的参数与用于预测开始位置的参数无关。当预测结束时,位置i的词元由相同的全连接层变换成标量分数e_{i}。上图描述了用于问答的微调BERT。

对于问答,监督学习的训练目标就像最大化真实值的开始和结束位置的对数似然一样简单。当预测片段时,我们可以计算从位置i到位置j的有效片段的分数s_{i} + e_{j} (i\leqslant j),并输出分数最高的跨度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/649521.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SpringBoot整合RabbitMQ实现发布订阅

RabbitMQ是一个开源的消息代理和队列服务器,用于通过轻量级消息传递协议(AMQP)在分布式系统中传递消息。在RabbitMQ中,主要有以下角色: 生产者(Producer):负责发送消息的应用程序。…

MySQL数据的增删改查

小练习 1. 在数据库 exercise 中创建课程表 stu_course ,包含字段课程编号 (number) ,类型为整数,长度为 11 ,是主键,自增长,非空、课程名称 (name) ,类型为字符串,长度为 20 &…

The Rise and Potential of Large Language Model Based Agents: A Survey 导读

这篇论文探讨了基于大型语言模型(LLM)的智能代理的发展和潜力。传统的AI算法或训练策略只能提高特定任务的表现,而LLM作为通用且强大的模型,可以为设计适应不同场景的智能代理提供基础。作者提出了一个包含“大脑”、“感知”和“行动”的通用框架,并将其应用于单个代理、…

oracle视图、存储过程、定时任务、用户授权、备份表

视图 create or replace view user_view as select user_id,dept_id,phonenumber,name,user_name from sys_user where del_flag0 and status0 and sfyzhY;存储过程 create or replace procedure sg_zzjg ascursor region_list isselect ID_,CODE_,CREATE_TIME,CREATE_USER_I…

macos Android平台签名证书(.keystore)

一、申请appid的使用说明(有appid的请忽略申请apid) 创建应用 申请的appid在源码视图填写后会自动生成一个对应的包名 ⚠️注意:申请appid的时候应用名称和项目名称保持一致。 二、 Android如何使用自用证书进行打包 1.找到安装jdk的路径 …

【深度学习】【AutoDL】【SSH】通过VSCode和SSH使用AutoDL服务器训练模型

身边没有显卡资源或不足以训练模型时,可以租赁服务器的显卡。 1、注册AutoDL并配置环境 首先打开AutoDL官网,注册账号并租赁自己期望的显卡资源 点击“租赁”之后,我们要继续选择基础环境。此处,我们让其自动配置好基础的pytor…

【速存】深入理解Django ORM:编写高效的数据库查询

Django作为一个高级Python Web框架,其自带的对象关系映射(ORM)是其最强大的特性之一。ORM允许开发者以编程语言原生的方式操作数据库,而无需编写原始的SQL查询。本文展示如何在Django项目中利用ORM执行各种数据库查询,…

.NET中的matplotlib平替,ScottPlot简单使用

文章目录 前言解决方案Python调用.NET 原生解决 ScottPlot找到文章ScottPlot Nuget安装简单代码测试代码跑不了5.0新版本测试 总结 前言 我之前在学OpenCV 三语言开发的时候,遇到了一个问题,怎么可视化的显示数据。Python有matplotlib,那么C…

Tomcat的安装及配置教程

文章目录 一、Tomcat二、安装流程三、常见问题四、相关文章 一、Tomcat Tomcat是一个开源的Java Servlet容器,它实现了Java Servlet和JavaServer Pages(JSP)规范,并为Java Web应用程序提供Web服务器环境。以下是Tomcat的一些详细…

量化交易学习2(因子研究)

因子有效性检验 参考1 参考2 在多因子研究框架中,因子的有效性检验是不可避免的工作,其本质是衡量一个因子的选股能力。 目前学术界和业界普遍使用的两种方法: 相关性检验 因子的相关性检验即检验单因子和收益率之间是否存在相关性 IC值 计…

20240126请问在ubuntu20.04.6下让GTX1080显卡让whisper工作在large模式下?

20240126请问在ubuntu20.04.6下让GTX1080显卡让whisper工作在large模式下? 2024/1/26 21:19 问GTX1080模式使用large该如何配置呢? 这个问题没有完成,可能需要使用使用显存更大的显卡了! 比如GTX1080Ti 11GB,更猛的可…

C++(Qt)软件调试---静态分析工具clang-tidy(18)

C(Qt)软件调试—静态分析工具clang-tidy(18) 文章目录 C(Qt)软件调试---静态分析工具clang-tidy(18)1、概述2、clang-tidy基本用法3、目前已有检查项4、Qt Creator中安装clang-tidy5、Qt Creator中使用clang-tidy6、Clang-Tidy配置…

HTML5 服务器发送事件(Server-Sent Events)

前言: 文章内容参考: HTML5 服务器发送事件(Server-Sent Events) | 菜鸟教程 microsoft/fetch-event-source - npm event-source-polyfill - npm 正文: HTML5服务器发送事件(server-sent event)允许网页获得来自服务器…

websocket 通信协议

websocket是什么 答: 它是一种网络通信协议,是 HTML5 开始提供的一种在单个 TCP 连接上进行全双工通讯的协议。 意思就是服务器可以主动向客户端推送信息,客户端也可以主动向服务器发送信息 属于服务器推送技术的一种. 为什么需要websocket? 疑问?…

Windows Server Nginx 反向代理Spring Boot配置无效 404 未找到

一个Spring Boot的系统,开发完成发布到Windows服务器里,使用nginx作为反向代理,修改刷新配置文件,nginx.conf,总是报错404。 这个是不生效刷新配置文件的bat脚本: REM 切换到NGINX安装目录 cd D:\nginx-1.…

修复WordPress内部服务器错误的步骤及解决方案

WordPress是一款广泛使用的开源内容管理系统,但在使用过程中,可能会遇到各种内部服务器错误。这些错误可能由于多种原因引起,例如插件冲突、文件权限问题、服务器配置不当等。为了帮助您快速解决这些问题,本文将为您提供一套详细的…

数据结构排序算详解(动态图+代码描述)

目录 1、直接插入排序(升序) 2、希尔排序(升序) 3、选择排序(升序) 方式一(一个指针) 方式二(两个指针) 4、堆排序(升序) 5、冒…

Golang协程池ants使用笔记

最近工程中遇到goroutine滥用导致的bug,采用了ants协程池来解决。 github-ants官方源码和使用说明。 记录一个例子 package mainimport ("fmt""runtime""github.com/panjf2000/ants/v2" )// 模拟一个任务:求数字x的平方 …

代码随想录算法训练营数组总结

一、理论基础 定义:数组是存放在连续内存空间上的相同类型数据的集合。 注意事项: ①数组下标从0开始。 ②数组元素不能删除,只能覆盖。 ③二维数组的地址空间不一定是连续的。 二、方法总结 1.二分法 思想:设置left、right指针&a…

equence to Sequence Learning with Neural Networks 导读

本文介绍了一种基于深度神经网络(DNN)的序列到序列学习方法,该方法使用多层长短时记忆网络(LSTM)将输入序列映射为固定维度向量,并使用另一个深LSTM解码目标序列。在英语到法语翻译任务上,该方法…