大语言模型的评测

大语言模型评测是评估这些模型在各种任务和场景下的性能和能力的过程。

能力

1. 基准测试(Benchmarking)

  • GLUE(General Language Understanding Evaluation):包含多个自然语言处理任务,如文本分类、情感分析、问答等,用于评估模型在不同任务上的性能。

  • SuperGLUE:GLUE的扩展版本,包含更复杂的任务,用于评估模型在更高级任务上的性能。

  • SQuAD(Stanford Question Answering Dataset): 用于评估模型在机器阅读理解任务上的性能,特别是问答任务。

2. 任务特定评测

  • 文本生成

    • 使用BLEU、ROUGE等指标评估生成文本的质量。
    • 人工评估生成文本的连贯性和相关性。
  • 翻译

    • 使用BLEU、METEOR等指标评估翻译质量。
    • 人工评估翻译的准确性和流畅性。
  • 问答

    • 使用准确率、召回率等指标评估问答系统的性能。
    • 人工评估答案的相关性和准确性。

3. 模型能力评测

  • 常识推理

    • 评估模型在常识推理任务上的能力,如Winograd Schema Challenge。
  • 逻辑推理

    • 评估模型在逻辑推理任务上的能力,如LAMBADA。
  • 数学推理

    • 评估模型在数学问题解决上的能力,如MathQA。

4. 鲁棒性和偏见评测

  • 鲁棒性

    • 评估模型在面对噪声、错误输入或对抗性样本时的性能。
    • 使用对抗性测试和噪声注入等方法。
  • 偏见和公平性

    • 评估模型在处理不同群体数据时的偏见和公平性。
    • 使用公平性指标和偏见检测工具。

5. 用户反馈和人工评估

  • 用户反馈

    • 收集用户对模型输出的反馈,了解模型在实际应用中的表现。
    • 通过用户调查和反馈表收集数据。
  • 人工评估

    • 由人类评估者对模型输出进行评估,特别是在自动评估指标不适用的情况下。

    • 评估模型输出的连贯性、相关性和准确性。

      依据为标准答案的类型,一般以下几种类型:
      选项:常见于分类任务,判断题以及选择题,目前这类问题的数据集占比最大,有 MMLU, CEval 数据集等等,评估标准一般使用准确率–ACCEvaluator。

短语:常见于问答以及阅读理解任务,这类数据集主要包括 CLUE_CMRC, CLUE_DRCD, DROP 数据集等等,评估标准一般使用匹配率–EMEvaluator。

句子:常见于翻译以及生成伪代码、命令行任务中,主要包括 Flores, Summscreen, Govrepcrs, Iwdlt2017 数据集等等,评估标准一般使用 BLEU(Bilingual Evaluation Understudy)–BleuEvaluator。

段落:常见于文本摘要生成的任务,常用的数据集主要包括 Lcsts, TruthfulQA, Xsum 数据集等等,评估标准一般使用 ROUGE(Recall-Oriented Understudy for Gisting Evaluation)–RougeEvaluator。

代码:常见于代码生成的任务,常用的数据集主要包括 Humaneval,MBPP 数据集等等,评估标准一般使用执行通过率以及 pass@k,目前 Opencompass 支持的有MBPPEvaluator、HumanEvalEvaluator。

性能

1. 性能评测

  • 推理速度

    • 评估模型在不同硬件上的推理速度和效率。
    • 使用吞吐量、延迟等指标。
  • 资源消耗

    • 评估模型在推理和训练过程中对计算资源的消耗。
    • 使用内存使用、计算时间等指标。

评估指标

常见的评估指标:

1. 文本生成

  • BLEU(Bilingual Evaluation Understudy):用于评估机器翻译和文本生成的质量,通过比较生成文本与参考文本之间的重叠程度来计算得分。BLEU计算的是生成文本与参考文本之间的n-gram精度,并结合一个惩罚因子来处理生成文本长度与参考文本长度之间的差异。

  • ROUGE(Recall-Oriented Understudy for Gisting Evaluation):用于评估文本摘要和生成的质量,通过计算生成文本与参考文本之间的重叠程度来计算得分。ROUGE计算的是生成文本与参考文本之间的n-gram召回率,并结合其他指标来评估生成文本的连贯性和相关性

  • CIDEr(Consensus-based Image Description Evaluation):用于评估图像描述生成的质量,通过计算生成描述与参考描述之间的共识度来计算得分。CIDEr计算的是生成描述与参考描述之间的n-gram共识度,并结合一个惩罚因子来处理生成描述长度与参考描述长度之间的差异

  • METEOR(Metric for Evaluation of Translation with Explicit ORdering):用于评估机器翻译和文本生成的质量,通过计算生成文本与参考文本之间的相似度来计算得分。

2. 分类和标签任务

  • 准确率(Accuracy):正确预测的样本数占总样本数的比例。

  • 精确率(Precision):正确预测为正类的样本数占预测为正类的样本数的比例。

  • 召回率(Recall): 正确预测为正类的样本数占实际为正类的样本数的比例。

  • F1分数(F1 Score):精确率和召回率的调和平均值,用于综合评估分类性能。

3. 问答任务

  • 准确率(Accuracy):正确回答的问题数占总问题数的比例。

  • EM(Exact Match):生成的答案与参考答案完全匹配的比例。

  • F1分数(F1 Score):通过计算生成答案与参考答案之间的重叠程度来计算得分。

4. 翻译任务

  • BLEU(Bilingual Evaluation Understudy):用于评估机器翻译的质量,通过比较生成翻译与参考翻译之间的重叠程度来计算得分。

  • METEOR(Metric for Evaluation of Translation with Explicit ORdering):用于评估机器翻译的质量,通过计算生成翻译与参考翻译之间的相似度来计算得分。

5. 鲁棒性和偏见评测

  • 对抗性测试(Adversarial Testing):通过引入对抗性样本评估模型的鲁棒性。

  • 公平性指标(Fairness Metrics):评估模型在处理不同群体数据时的公平性,如性别、种族等。

6. 推理速度和资源消耗

  • 吞吐量(Throughput):模型在单位时间内处理的样本数。

  • 延迟(Latency): 模型处理单个样本所需的时间。

  • 内存使用(Memory Usage): 模型在推理和训练过程中对内存的消耗。

  • 计算时间(Computational Time): 模型在推理和训练过程中所需的计算时间。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/70916.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Node.js与MySQL的深入探讨

Node.js与MySQL的深入探讨 引言 Node.js,一个基于Chrome V8引擎的JavaScript运行时环境,以其非阻塞、事件驱动的方式在服务器端应用中占据了一席之地。MySQL,作为一款广泛使用的开源关系型数据库管理系统,凭借其稳定性和高效性,成为了许多应用的数据库选择。本文将深入探…

STM32--SPI通信讲解

前言 嘿,小伙伴们!今天咱们来聊聊STM32的SPI通信。SPI(Serial Peripheral Interface)是一种超常用的串行通信协议,特别适合微控制器和各种外设(比如传感器、存储器、显示屏)之间的通信。如果你…

基于定制开发开源AI大模型S2B2C商城小程序的商品选品策略研究

摘要:随着电子商务的蓬勃发展和技术的不断进步,商品选品在电商领域中的重要性日益凸显。特别是在定制开发开源AI大模型S2B2C商城小程序的环境下,如何精准、高效地选择推广商品,成为商家面临的一大挑战。本文首先分析了商品选品的基…

C#异步编程之async与await

一:需求起因 在 C# 中使用异步编程(特别是使用 async 和 await 关键字)通常是为了提高应用程序的响应性和性能,特别是在需要进行 I/O 操作或执行长时间运行的任务时。 常见应用场景如下: 1. 网络请求 HTTP 请求&…

PMP项目管理—整合管理篇—7.结束项目或阶段

文章目录 基本信息过程4W1HITTO输入工具与技术输出 收尾过程组项目收尾(结束项目或阶段)行政收尾/管理收尾 合同收尾(结束采购) 最终报告 基本信息 项目无论何因何时终止,都必须用结束项目或阶段过程来正式关闭。通过…

labview中VISA串口出现异常的解决方案

前两天在做项目时发现,当用VISA串口读取指令时出现了回复异常的情况,不管发什么东西就一直乱回,针对这个情况,后面在VISA串口中加了一个VISA寄存器清零的函数。加了之后果然好多了,不会出现乱回的情况,但是…

【GO】学习笔记

目录 学习链接 开发环境 开发工具 GVM - GO多版本部署 GOPATH 与 go.mod go常用命令 环境初始化 编译与运行 GDB -- GNU 调试器 基本语法与字符类型 关键字与标识符 格式化占位符 基本语法 初始值&零值&默认值 变量声明与赋值 _ 下划线的用法 字…

staruml绘制时序图和用例图

文章目录 1.文章介绍2.绘制用例图3.绘制时序图 1.文章介绍 之前,我们初步介绍了这个staruml软件的安装和如何使用这个软件对于uml类图进行绘制,当时我们是绘制了这个user类,实现了相关的接口,表示他们之间的关系,在今…

开放标准(RFC 7519):JSON Web Token (JWT)

开放标准:JSON Web Token 前言基本使用整合Shiro登录自定义JWT认证过滤器配置Config自定义凭证匹配规则接口验证权限控制禁用session缓存的使用登录退出单用户登录Token刷新双Token方案单Token方案 前言 JSON Web Token (JWT) 是一种开放标准…

使用 Polars 进行人工智能医疗数据分析(ICU数据基本测试篇)

引言 在医疗领域,数据就是生命的密码,每一个数据点都可能蕴含着拯救生命的关键信息。特别是在 ICU 这样的重症监护场景中,医生需要实时、准确地了解患者的病情变化,以便做出及时有效的治疗决策。而随着医疗技术的飞速发展&#x…

瑞芯微RK安卓Android主板GPIO按键配置方法,触觉智能嵌入式开发

触觉智能分享,瑞芯微RK安卓Android主板GPIO按键配置方法,方便大家更好利用空闲IO!由触觉智能Purple Pi OH鸿蒙开发板演示,搭载了瑞芯微RK3566四核处理器,树莓派卡片电脑设计,支持安卓Android、开源鸿蒙Open…

SSL 证书是 SSL 协议实现安全通信的必要组成部分

SSL证书和SSL/TLS协议有着密切的关系,但它们本质上是不同的概念。下面是两者的区别和它们之间的关系的表格: 属性SSL/TLS 协议SSL证书英文全称SSL(Secure Sockets Layer),TLS(Transport Layer Security&am…

QT:模型视图代理

Qt Model/View/Delegate(MVD)框架,它是 Qt 中用于实现数据显示和编辑的一种架构模式,主要由模型(Model)、视图(View)和委托(Delegate)三部分组成,…

PowerShell 执行策略:fnm管理软件安装nodejs无法运行npm,错误信息:about_Execution_Policies

通过fnm管理软件安装NodeJS后添加环境变量依然无法执行npm,提示无法加载文件,错误如下: PowerShell 执行策略简介: PowerShell 执行策略是一项安全功能,用于控制 PowerShell 加载配置文件和运行脚本的条件。 此功能有助于防止恶…

drupal的翻译集添加后如何起作用

在 Drupal 中,翻译集(Translation Set)添加后,需要进行 正确的配置和激活 才能生效。以下是确保翻译集(如界面翻译、内容翻译、配置翻译等)生效的步骤: 1. 确保已启用多语言模块 在 Drupal 8/9…

利用 Windows Terminal 和 SSH Config 简化 Linux 服务器管理

在日常的 Linux 服务器管理中,频繁登录不同的主机是一项常见任务。传统方法可能需要记住复杂的 IP 地址、用户名和端口,或者依赖如 Xshell 这样的第三方工具。但借助 Windows Terminal 和 SSH 的 .ssh/config 文件,我们可以打造一个高效、免费…

【算法 位运算】801. 二进制中1的个数

题目 801. 二进制中1的个数 思路 定义lowbit函数&#xff0c;能够找到二进制最后一个1&#xff0c;找到最后一个1就删掉&#xff0c;计数加1&#xff0c;以此类推&#xff0c;直到找不到最后一个1。 代码 #include<iostream> using namespace std; int lowbit(int x…

DeepSeek-R1-671B大模型满血版私有化部署高可用教程-SparkAi系统集成图文教程

DeepSeek官网服务器繁忙的主要原因是由于用户数量激增导致的服务器资源紧张。‌为了解决这一问题&#xff0c;DeepSeek团队已经暂停了API服务充值&#xff0c;以避免对用户造成业务影响。目前&#xff0c;存量充值金额仍可继续调用&#xff0c;但充值功能暂时不可用‌。 DeepSe…

C++:指针数组与数组指针

文章目录 概述1. 什么是指针数组 (Array of Pointers)定义&#xff1a;示例&#xff1a;解释&#xff1a; 2. 什么是数组指针 (Pointer to Array)定义&#xff1a;示例&#xff1a;解释&#xff1a; 关键区别例子对比指针数组&#xff1a;数组指针&#xff1a; 总结 概述 指针…

StableDiffusion本地部署 2

StableDiffusion本地部署 为了做这个事&#xff0c;这是第5篇文章了&#xff0c;可谓是做足了准备。开干&#xff01; 强烈建议把我之前发的文章看一看&#xff0c;不然你会有点迷迷糊糊的。 整体思路 捋一捋思路&#xff1a; 下载三个东西&#xff0c;webui&#xff0c;py…