广州电商网站开发公司单页面 网站

news/2025/10/2 23:21:54/文章来源:
广州电商网站开发公司,单页面 网站,wordpress调用插件吗,wordpress网站可以上传视频简介#xff1a; 7月8日#xff0c;中文语言理解权威评测基准CLUE公开了中文小样本学习评测榜单最新结果#xff0c;阿里云计算平台PAI团队携手达摩院智能对话与服务技术团队#xff0c;在大模型和无参数限制模型双赛道总成绩第一名#xff0c;决赛答辩总成绩第一名。 作…简介 7月8日中文语言理解权威评测基准CLUE公开了中文小样本学习评测榜单最新结果阿里云计算平台PAI团队携手达摩院智能对话与服务技术团队在大模型和无参数限制模型双赛道总成绩第一名决赛答辩总成绩第一名。 作者 | 同润、归雨、熊兮 来源 | 阿里技术公众号 一 概述 7月8日中文语言理解权威评测基准CLUE公开了中文小样本学习评测榜单最新结果阿里云计算平台PAI团队携手达摩院智能对话与服务技术团队在大模型和无参数限制模型双赛道总成绩第一名决赛答辩总成绩第一名。 中文语言理解权威评测基准CLUE自成立以来发布了多项NLP评测基准包括分类榜单阅读理解榜单和自然语言推断榜单等在学术界、工业界产生了深远影响。其中FewCLUE是CLUE最新推出的一项中文小样本学习评测基准用来评估机器学习模型是否能够通过极少样本的学习来掌握特定的自然语言处理任务。基于这项评估科研人员可以更精准的衡量机器学习训练出来的模型的泛化性和准确率。比如智能客服场景中的用户意图识别仅需人工标注几十条样本就能让意图识别的准确率达到90%。 众所周知大规模预训练模型虽然在各大任务里面取得非常大的效果但是在特定的任务上还是需要许多标注数据。由于收集和标注模型需要的训练的数据收集成本昂贵所以需要攻关小样本学习技术使用远小于经典深度学习算法需要的数据量接近甚至超越经典深度学习算法的精度。此次阿里云PAI团队携手达摩院提出了一套大模型小样本的联合方案在大规模通用预训练基础之上结合了基于知识的预训练和Fuzzy-PET少样本学习一举取得了优异的成绩。甚至在一个小样本学习任务上的精准度超过了人类。 二 赛题分析 建模思路 比赛数据集总体特点如下 小样本训练集和检验集均为每个类别16shot考验算法在小样本情境下的鲁棒性泛化性任务特征差异明显需要模型有较好的泛化能力无标签数据多数任务提供了数量可观的无标签数据可以尝试continued pretrain和self-training 基于对赛题的解读我们设计了三段式的建模方法 通用领域数据的从头预训练借助PAI-Rapidformer提供的各种加速策略以及预训练套件我们从头预训练了3亿量级和15亿量级的中文预训练模型预训练过程采用融入知识的预训练算法(详见3.2)。多任务的继续预训练目的是进一步强化双句匹配任务OCNLI, BUSTM, CSL的Performance。我们将分类任务转化为文本蕴含任务使用文本蕴含数据进行Continued Pretrain。例如 [CLS]I like the movie[SEP]This indicates positive user sentiment[EOS]针对每个任务进行小样本算法微调选择PETPattern-Exploiting Training作为下游微调的核心方法, 开发Fuzzy-PET算法减少了PET算法标签词人工选择带来的波动并且在任务上带来效果提升。同时使用了self-training 的半监督方法在下游微调阶段利用上半监督学习详见3.3 三 核心技术 1. PyTorch大模型训练加速 自从2020年推出PAI-EasyTransfer面向NLP和迁移学习的框架之后PAI团队开发了PyTorch版本的EasyTransfer命名为EasyTexMiner。比赛所用的模型是通过EasyTexMiner的高性能分布式预训练完成的。EasyTexMiner的分布式训练有机整合了微软的DeepSpeed和英伟达的Megatron优点整体框图如下 EasyTexMiner的分布式训练融合了以下核心的技术 1激活检查点Activation Checkpoint 在神经网络中间设置若干个检查点(checkpoint)检查点以外的中间结果全部舍弃反向传播求导数的时间需要某个中间结果就从最近的检查点开始计算这样既节省了显存又避免了从头计算的繁琐过程。 2梯度累积 (Gradient Accumulation) 以batch_size16为例可以每次算16个样本的平均梯度然后缓存累加起来算够了4次之后然后把总梯度除以4然后才执行参数更新这个效果等价于batch_size64。这是一种有效的增加Batch Size的方法。通过该策略可以将每个step的batch size扩充到很大结合LAMB优化器会提升收敛速度。 3混合精度训练Mixed Precision Training 采用混合精度训练的好处主要有以下两点 减少显存占用由于FP16的内存占用只有FP32的一半自然地就可以帮助训练过程节省一半的显存空间。加快训练和推断的计算FP16除了能节约内存还能同时节省模型的训练时间。具体原理如下图所示核心是在反向传播参数更新的时候需要维护一个FP32的备份来避免舍入误差另外会通过Loss Scaling来缓解溢出错误。 4即时编译JIT 当PyTorch在执行一系列element-wise的Tensor操作时底层Kernel的实现需要反复地读写访存但是只执行少量的计算其中大部分时间开销并不在计算上而在访存读写上。比如实现一个带有N个元素的Tensor的乘/加法Kernel需要N次加计算2N次读和N次写访存操作。我们称计算少, 访存次数多的Kernel为访存Bound。为了避免这种反复的读写以及降低Kernel Launch的开销可以采用Kernel Fusion。访存Bound的Kernel Fusion的核心原理是通过访存的局部性原理将多个element-wise的Kernel自动合并成一个Kernel避免中间结果写到内存上来提高访存的利用率同时由于多个Kernel合并成一个KernelKernel launch开销也减少到了1次。 53D并行 3D并行策略指的是数据并行模型并行流水并行三种策略的混合运用以达到快速训练百亿/千亿量级模型的目的。该项技术最早由DeepSpeed团队研发可以加速大模型的训练。 6CPU Offload 反向传播不在GPU上计算而是在CPU上算其中用到的中间变量全部存储在内存中这样可以节省下GPU的显存占用用时间换空间以便能放到更大尺寸的模型。 7Zero显存优化器 ZeROThe Zero Redundancy Optimizer是一种用于大规模分布式深度学习的新型内存优化技术。ZeRO具有三个主要的优化阶段 优化器状态分区(Pos) 减少了4倍的内存通信容量与数据并行性相同增加梯度分区(Posg) 8x内存减少通信容量与数据并行性相同增加参数分区(Posgp) 内存减少与数据并行度和复杂度成线性关系。 吞吐性能评测 本次发布使用了最新的阿里云EFLOPS AI集群系统使用NVIDIA A100 GPU和 100Gbps Mellanonx CX6-DX网卡结合全系统拓扑感知的高性能分布式通信库ACCL 和 EFLOPS集群多轨网络能力实现无拥塞通信大幅加速了模型的训练速度。如下图所示 可扩展性评测 我们采用比BertLarge更大一点的单卡放不下的模型来做模型并行下的可扩展性评测。具体配置是 num-layers24hidden-size2048num-attention-heads32该模型的参数总量大约是1.2B。我们分别在8/16/32/64卡上进行来吞吐评测从下图的指标来看随着卡数的增加吞吐几乎是近线性的提升。 2. 融入知识的预训练算法KGBERT 在通用预训练模型基础之上我们考虑融入知识的预训练来提升预训练模型的效果。 数据和知识通过与达摩院NLP数据团队合作获取了大规模、高质量且具备多样性的数据与知识。 大规模5亿中文图谱知识通过远监督获取2亿 Sentence-SPO Pair高质量针对原始语料庞杂存在大量冗余、噪声的问题通过DSGAN知识降噪算法精选上亿高质量Sentence-SPO用于模型训练多样性FewCLUE数据集除了通用领域还包含电商、旅游、教育、金融等垂直行业而这部分数据和知识比较稀缺为此我们构建了一套高效的知识生产系统能够对各类垂直行业的文档、网页进行自动三元组抽取从而极大的提升了知识的丰富度。 模型和预训练任务 为了高效的利用知识我们基于“Sentence-正向SPO-负向SPO”对齐语料设计了多粒度语义理解预训练任务 Mention Detection增强模型对核心实体Mention的理解Sentence-SPO joint Mask将大规模文本数据及其对应的SPO知识同时输入到预训练模型中进行预联合训练促进结构化知识和无结构文本之间的信息共享提升模型语义理解能力SPO Margin Magnify设计对比学习的预训练任务拉开Sentence相关SPO与无关SPO语义间隔使其具备更强的语义区分能力。技术创新知识筛选与融入机制 1动机 NLP任务中常见的做法是根据当前输入的自然语言进行建模但是这样通常用到的信息只有当前字面局部信息。这和人类在理解语言的时候具有明显差别人类会用到我们之前学习到的知识辅助理解。人类会利用这些外部知识来加强自己的理解如果没有额外的知识比如接触到我们一个不熟悉的领域我们也很难完全理解语义。而目前NLP常见做法只利用了输入信息没用利用外部知识理解层次偏低。 现实中知识是庞大且繁杂的需要针对性的采样知识减少引入无关的知识最大化知识的收益。 2方法 设计一种新颖的Gated机制先对句子进行编码再通过GCN聚合出子图信息通过门控机制控制信息的流入在预训练阶段通过设计最大化知识增益目标函数让模型更好的学习到有价值的信息。 3结果 基于Gated机制的知识筛入能够有效捕捉到高增益的三元组进行融入在政务、金融属性识别任务上准确率有2%的提升。这样的知识筛选机制在学术公开数据集验证有效并取得SOTA的效果相关工作已发表在SIGIR2021。 3. 小样本学习算法 在融入知识的预训练语言模型基础上计算平台PAI和达摩院团队联合推出了自研的多任务小样本学习算法Fuzzy-PET。由于FewClue榜单具有一系列不同类别的任务如果在针对特定任务进行小样本微调之前模型能学习到跨任务的可迁移的知识模型在针对特定任务进行小样本微调过程中会获得更好的初始参数设置。基于计算平台PAI团队在Meta-Learning相关算法的积累基础上我们在融入知识的预训练语言模型的继续预训练阶段引入了多个FewClue任务的无标注数据进行学习在学习过程中模型自动从这些任务相关的数据中学习到这些任务的背景知识从而更有利于特定任务的小样本学习。Meta-Learning的相关算法已经发表在EMNLP2020和ACL2021上。。 在特定小样本任务学习阶段我们对Pattern-Exploiting TrainingPET算法进行了改进引入了Fuzzy Verbalizer Mapping机制。举例来说在经典的PET算法中对于FewClue的任务OCNLI我们设计了如下模板“其实我觉得你不懂球啊”和“你不懂篮球。”的关系是MASK。 对于输出的Masked Language Token即Verbalizer如果预测结果为“相关”我们将其映射为类别标签“entailment”如果预测结果为“无关”我们将其映射为类别标签“neural”; 如果预测结果为“相反”我们将其映射为类别标签“contradiction”。利用Verbalizer到类别标签人工映射PET实现了对文本分类任务的建模。在Fuzzy Verbalizer Mapping机制中我们假设多个Verbalizer可能对某一个类别标签有映射关系从而进一步提升模型在小样本学习过程中的泛化性。参考先前的例子我们设计三组标签词相关,无关,相反/蕴含,中性,矛盾/包含,中立,反向。训练时每一条样本使用多组标签词输入在推理时每个类别计算所有候选词的预测概率并相加最终选择总概率最高的类别。如上述例子若预测“相关”“蕴含” “包含”的概率和大于预测“无关”“中性”“中立”或预测“相反”“矛盾”“反向”的概率则预测结果为“entailment”。 这一机制在FewClue的多个任务中对预测精度提升有正面作用并且一定程度上减轻人工选择不同标签词产生的波动。此外我们也考虑在小样本学习阶段引入无标注的数据进行Self-training即依靠现有模型对无标注数据进行打标实现模型的迭代优化。 四 业务产品 值得一提的是基于机器学习平台PAI平台这项技术已在实际业务场景落地且有很好的表现。这些技术增强了达摩院云小蜜KBQA能力使其具备快速冷启动、精准问答的能力并在政务、金融、通用线多个业务场景落地。在实际项目中在少样本情形下20条可以做到快速冷启动从而实现精准问答。同时这些技术有望给阿里云上的机器学习算法赋予小样本学习的能力通过很少的数据标注就可以大大提升下游任务的效果。这意味着阿里云模型已具备低成本快速落地的实施能力能高效且敏捷的赋能企业的业务。 基于PAI阿里云希望构建大规模AI端到端的能力从底层芯片到分布式系统再到上层算法和数据的规模化打造AI工程化集团作战的能力服务于各行各业。目前PAI平台支持千亿特征、万亿样本规模加速训练内置200成熟算法、以及图像视觉、音视频、文本等AI领域高质量深度学习预训练模型50余个全面提升企业AI工程效率。在平台能力基础上PAI平台还提供了成熟的行业解决方案成为众多企业的优选服务已经在智能推荐、用户增长、端侧超分、自动驾驶等众多场景成熟商用。 原文链接 本文为阿里云原创内容未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/925405.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

欧亚专线到国内多久网站东莞优化建设

利用示波器统计工具分析有噪声信号之测量统计和余晖图2019-09-24数字示波提供了多种基于统计的工具,除了前文提到的平均和直方图之外,测量参数统计和余晖图,也是非常有用的工具,协助快速获取有用信息。对于示波器测量参数&#xf…

网站制作方案怎么写wordpress微信付款插件

命令stat命令语法stat(选项)(参数)命令描述命令stat用于显示文件的状态信息。stat命令的输出信息比ls命令的输出信息要更详细。命令选项-L:支持符号连接;-f:显示文件系统状态而非文件状态;-t:以简洁方式输出信息&#…

机构类网站有哪些网站建设辶金手指排名十五

博主个人小程序已经上线:【中二少年工具箱】 小程序二维如下: 正文开始 专栏简介专栏初衷 专栏简介 本系列文章由浅入深,从基础知识到实战开发,非常适合入门同学。 零基础读者也能成功由本系列文章入门,但如果您具…

从零搭建雷池WAF:环境配置、安装部署与Web防护实战

从零搭建雷池WAF:环境配置、安装部署与Web防护实战 在Web安全领域,WAF(Web应用防火墙)是抵御SQL注入、XSS、文件上传等攻击的关键防线。雷池(SafeLine)作为一款开源且易用的WAF工具,能有效保护Web服务安全。本文…

如何免费建设网站免费logo设计在线生成器官网

贴一篇源码分析的好文章:https://blog.csdn.net/qq_30905661/article/details/114400417 本质: 一个事务对应一个数据库连接。 通过 this 来调用某个带有 Transactional 注解的方法时,这个注解是失效的,可以看做这个方法&#x…

让别人做网站需要提供什么企业黄页网站源码

前言:当设计师通过photoshop工具设计完设计稿导出psd文件时,我们前端工程师该如何进行切图转换成网页的所需的图片呢,接下来讲讲如何利用photoshop工具快速简洁的切图,因为ps工具用到的行业很多,涉及到的各个行业&…

使用Java将Word文件转换为PNG图片 - 指南

使用Java将Word文件转换为PNG图片 - 指南pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "M…

论文速读记录 | 2025.10

2025.10 | 速读文章纪录目录Horizon Generalization in Reinforcement LearningHIQL: Offline Goal-Conditioned RL with Latent States as ActionsContrastive Preference Learning: Learning from Human Feedback wi…

【Rust GUI开发入门】编写一个本地音乐播放器(15. 记录运行日志) - Jordan

本系列教程对应的代码已开源在 Github zeedle 本篇文章介绍如何将音乐播放器的运行情况持久化记录到日志文件中,这对分析程序意外情况出现的原因很有帮助! 使用最常用的env_logger,将其添加到Cargo.toml中: env_lo…

成都网站建设 3ewordpress简单投稿

在现代社会中,电力是我们生活和工作不可或缺的一部分。大楼宾馆作为城市中繁忙生活的一部分,依赖于可靠的电力供应来支持各种设施和服务,从客房照明到电梯运行,无一不离电。然而,大楼宾馆电力分配系统的稳定性和安全性…

6 种常见 AI 编程协作便捷的方法总结

6 种常见 AI 编程协作便捷的方法总结pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monac…

可以做产品推广的网站flash网站整站下载

目录 1.1 关于版本控制 1.1.1 本地版本控制 1.1.2 集中化的版本控制系统 1.1.3 分布式版本控制系统 1.2 Git简介 1.2.1 Git历史 1.3 安装git 1.3.1 环境说明 1.3.2 Yum安装Git 1.3.3 编译安装 1.4 初次运行 Git 前的配置 1.4.1 配置git 1.4.2 获取帮助 1.5 获取 G…

DeploySharp开源发布:让C#部署深度学习模型更加简单

DeploySharp:面向C#开发者的跨平台模型部署框架 DeploySharp是一款专为C#开发者设计的深度学习模型部署框架,支持OpenVINO和ONNX Runtime推理引擎,兼容YOLOv5-v12全系列模型以及Anomalib等主流模型。该框架采用模块…

光伏电站建设的国家网站湖南网站托管

java之NIO 1 什么是NIO Java NIO (New IO,Non-Blocking IO)是从Java 1.4版本开始引入的一套新的IO API。NIO支持面向缓冲区的、基于通道的IO操作。NIO的三大核心部分:通道(Channel),缓冲区(Buffer), 选择器(Selector),数据总是从…

视频多的网站建设如何建设一个静态网站

什么是柔性数组 什么是柔性数组?柔性数组其实也是动态内存管理部分的内容。这节主要来复习柔性数组的知识点。 当结构体的最后一个成员为数组, 且这个数组的大小未确定时, 我们就称它是柔性数组。 如: struct stu{char name[…

泰康人寿保险官方网站专题学习网站模板

boot读取配置文件1. yml配置文件2. 绑定方式13. 绑定方式23.1 依赖.3.2 boot 中提供的属性装配功能。1. 在某些业务中,需要将类的配置写到配置文件中, 不在代码中写死配置。 2. 所以需要读取配置文件(yaml, properties) 读取到Java Bean中。 3. 本文以oss对象存储配…

别样的国庆作业大战

一天,文科给我(理科)打来电话。他说:“你敢不敢和我举行假期作业量大战?”我豪爽的答应了:“我当然敢!我有 \(10^{12180211} \operatorname{mol}\) 试卷!2025.10.1 在 XXX 中高一年级举行,谁不来谁就是怂货。…

淘宝网站的建设目的是什么意思长沙网站托管seo优化公司

近期在复习Postman的基础知识,在小破站上跟着百里老师系统复习了一遍,也做了一些笔记,希望可以给大家一点点启发。 1、目前市面上的加密的方式 对称式加密:DES,AES,Base64加密算法 非对称加密&#xff1a…

摄影网站设计思想宁波优质网站制作哪家好

linux 常用的帮助命令 1.help -相当于man的简化版 例如:vim –help 2.man: 详细介绍vim的用法 例如:man vim 3.info:偏重介绍文档 例如: info vim

ROS2之服务

ROS2 的服务(Service)概念:服务是一种 请求-响应(request-response)通信机制,由 客户端(Client) 和 服务端(Server) 两部分组成。通信模式:客户端 发送一个请求(Request)。服务端 处理请求,并返回响应(…