生成式AI改进极端多标签分类技术

会议信息

EACL 2023

相关出版物

《极端多标签分类中的聚类引导标签生成》

研究内容

多年来,某中心的研究人员一直在探索极端多标签分类(XMC)这一主题,即在可能的分类类别空间很大(例如数百万个标签)时对输入进行分类。在此过程中,我们多次推动了技术发展。

但先前的工作是在经典分类问题设置中进行的,其中模型为空间中的每个标签计算概率。在一篇新论文中,我们将XMC视为生成式问题,对于每个输入词序列,模型生成标签的输出序列。这使我们能够利用大型语言模型的力量来完成XMC任务。

然而,在这种设置中,与经典设置一样,困难在于XMC标签空间中的大多数标签属于长尾分布,在训练数据中代表性示例很少。过去的工作通过将标签空间组织成层次结构来解决这个问题:首先对输入进行粗粒度分类,然后通过层次树的连续细化遍历,到达语义相关概念的聚类。这有助于模型从相关但具有不同标签的示例中学习通用分类原则,也减少了模型完全错误标记的可能性。

技术方法

在论文中,我们做了类似的工作,使用辅助网络将标签分组为聚类,并使用聚类信息指导生成模型的输出。我们在训练期间尝试了两种不同的指导方式:

  1. 将指示哪些聚类适用于文本输入的位向量直接馈送到生成模型中
  2. 在多任务目标上微调模型:模型学习从聚类名称预测标签,以及从文本预测聚类名称

架构设计

我们考虑的任务是模型接收文档(如维基百科条目)作为输入,并输出表征其内容的一组标签。为了微调生成模型,我们使用包含样本文本和人工标注者应用的标签的数据集。

作为基线生成模型,我们使用T5语言模型。T5是编码器-解码器模型,使用双向而非单向编码:在预测标签时,它可以访问整个输入序列。这非常适合我们的设置,其中标签的顺序不如其准确性重要,我们希望标签最好地表征整个文档,而不仅仅是其子部分。

为了创建标签聚类,我们使用预训练模型为训练集中每个文档的单词生成嵌入——即将它们映射到表示空间中,其中邻近性表示语义相似性。给定标签的嵌入则是包含该标签的所有文档的平均嵌入。一旦标签被嵌入,我们使用k均值聚类将它们组织成聚类。

XLGen-BCL架构(左):文本的真实标签聚类在比特数组中表示为1。在训练期间,位数组作为额外输入传递给模型,但在推理时,模型仅接收文本。

XLGen-MCG架构(右):模型在多任务目标上训练,同时学习将聚类编号映射到标签,以及将文本映射到聚类编号。在推理时,模型首先为文本分配一组聚类编号,然后将聚类编号映射到标签。

实验结果

我们使用四个数据集评估了两种聚类引导生成模型和四个基线,并在每个数据集上评估了整体性能和对罕见(长尾)标签的性能。

在评估整体性能时,我们使用F1分数(同时考虑假阳性和假阴性),并使用两种不同的方法平均每个标签的F1分数:宏平均简单平均所有标签的F1分数;微平均汇总所有标签的所有真阳性、假阳性和假阴性,并计算全局F1分数。

在评估长尾标签性能时,我们考虑了在训练数据中仅出现一次或未出现的标签。

我们还使用正未标记(PU)数据进行了一组实验。对于每个训练示例,我们移除了一半的真实标签。由于从一个示例中移除的标签可能仍然出现在不同的示例中,它仍然可以作为输出标签出现。实验因此评估了模型在标签间的泛化能力。

在PU数据上,生成模型显著优于传统分类器,XLGen-MCG模型显著优于生成基线。

研究领域

对话式AI

标签

极端多标签分类、生成式AI、EACL
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/928064.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025.10.5——1绿

普及+/提高 P2216 [HAOI2007] 理想的正方形 单调队列优化的类似悬线法的题。

NIO----JAVA - 教程

NIO----JAVA - 教程2025-10-05 09:08 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-fa…

【清晰教程】利用Git工具将本地项目push上传至GitHub仓库中 - 指南

【清晰教程】利用Git工具将本地项目push上传至GitHub仓库中 - 指南pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "…

建设工程敎育那个网站青岛网站建设官网

消息对话框 QMessageBox:消息对话框,用于向用户展示简单的信息,警告,错误或者询问对话框。 信息框 QMessageBox::information(nullptr,"标题","信息"); 警告框 QMessageBox::warning(nullptr,"标题&…

建设银行的网站用户名服务器的作用

编辑 ∑Gemini来源:国家自然科学基金委关于印发《国家自然科学基金项目科研不端行为调查处理办法》的通知国科金发诚〔2020〕96号各局(室)、科学部,机关党委,各直属单位:《国家自然科学基金项目科研不端行为…

题解:2025.10.信友队.智灵班选拔面试题目

2025.10.信友队.智灵班选拔面试题目题解 T1 题目描述 现在有25匹马赛跑,场地中有5个跑道(即一场比赛最多有5匹马参赛),赛马时你不能掐表,只能看到马的先后顺序,问至少比赛多少场能知道跑得最快的3匹马 错误思路1…

做义工旅行有哪些网站上海财务外包公司

Oracle提示错误消息ORA-28001: the password has expired,是由于Oracle11G的新特性所致, Oracle11G创建用户时缺省密码过期限制是180天(即6个月), 如果超过180天用户密码未做修改则该用户无法登录。 Oracle公司是为了数…

电影网站网页设计手机微网站

1,检查是否有mysql残留文件查找出安装的mysql软件包和依赖包rpm -pa | grep mysql依次删除yum remove mysql-xxx-xxx-查找出所用的配置文件find / -name mysql依次删除rm -rf /var/lib/mysql2,删除MariaDB的文件,装MySQL的话会和MariaDB的文件…

如何用模板建站wordpress删除登录

题干 LCR 023. 相交链表 的头节点 headA 和 headB ,请找出并返回两个单链表相交的起始节点。如果两个链表没有交点,返回 null 。 图示两个链表在节点 c1 开始相交: 题目数据 保证 整个链式结构中不存在环。 注意,函数返回结果…

南昌网站建设资讯公司官网制作教程

编程题总结 题目一:输出无重复的3位数 题目描述 从{1,2,3,4,5,6,7,8,9}中随机挑选不重复的5个数字作为输入数组‘selectedDigits’,能组成多少个互不相同且无重复数字的3位数?请编写程》序,从小到大顺序,以数组形式输出这些3位…

三合一网站怎么建立东莞做网站微信巴巴

应用分发(App Distribution)或APP分发,通常指的是将移动应用程序(如iOS、Android或其他平台的应用)通过各种渠道提供给最终用户进行下载和安装的过程。这个过程涉及多个环节,包括应用开发、测试、发布、推广…

MX WEEK4

训练赛 A 今日未完成被 luogu P3225 创飞大学习。 B 今日未完成被 luogu P10953 创飞大学习。 C 今日未完成被 luogu P2272 创飞大学习。 D 今日未完成被 luogu P8867 创飞大学习。 E 今日未完成被 luogu P4126 创飞大…

实用指南:蓝桥杯_DS18B20温度传感器---新手入门级别超级详细解析

实用指南:蓝桥杯_DS18B20温度传感器---新手入门级别超级详细解析pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "…

实用指南:【25软考网工】第十章 网络规划与设计(1)综合布线

实用指南:【25软考网工】第十章 网络规划与设计(1)综合布线pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Con…

2025.10.4 刷题

2025.10.4 刷题1. P13270 【模板】最小表示法 换模版了,听说卡了 SA 正解是线性的 看题解里还有 log 的倍增哈希,学到了 正解暴力比较两个字符串第一位不同,这样劣的那个字符串,以其每一个字符起始的字符串都劣,同…

TDengine 运维——巡检工具(定期检查) - 指南

TDengine 运维——巡检工具(定期检查) - 指南pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", &…

[ABC398G] Not Only Tree Game

因为不存在奇环,所以显然构成一个二分图。 我们进行一些变量的定义:\(x\) 表示在满足添加了之后不改变图的联通性且不产生奇环的情况下,可以添加的变数。 \(ee\) 表示两侧都是偶数个节点的联通块的数量。 \(oo\) 表…

邯郸网站建设浩森宇特外贸网站建站n

代理模式是一种结构型设计模式,让开发者能够提供对象的替代品或其占位符。代理对象控制着对于原对象的访问,并允许在将请求提交给原对象前后进行一些处理。代理模式为原对象提供一种代理以控制对这个对象的访问,并由代理对象控制对原对象的引…

Linux 的编辑器--vim - 实践

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

深入解析:Java基础(二):八种基本数据类型详解

深入解析:Java基础(二):八种基本数据类型详解pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", &…