大语言模型能力评定探讨

在这里插入图片描述

有标准答案的评估(选择题)

评估语言模型能力的基本思路是准备输入和标准答案,比较不同模型对相同输入的输出
由于AI答题有各种各样答案,因此现在是利用选择题考察。
有一个知名的选择题的基准叫做Massive Multitask Language Understanding (MMLU),里面收集了上万题的选择题
那它的题目涵盖各式各样不同的学科

选择题评估的详细案例与挑战

在这里插入图片描述

一、输出形式的挑战

  • 语言模型可以生成任何形式的输出,这导致评估正确性变得复杂
  • 简单匹配方法的局限性
    • 如果模型输出"答案是B",应该判定为正确吗?
    • 如果编写程序检测输出中是否含有"B"字符,但模型回答"根据计算我认为是1,这个B选项的答案是1",如何判定?

二、 限制输出的问题

  • 限制语言模型只能输出选项字母的方法:
    • 告诉模型只能输出选项,不能输出其他内容
    • 输出其他内容则判定为错误
  • 这种评估方式的局限性
    • 这不是在测试模型解决问题的能力
    • 而是在测试模型理解和遵循指令的能力
    • 如果模型解释了选择理由,却被判为错误,这不能反映其真正能力

三、 概率分布评估方法及其问题

  • 基于概率分布的评估
    • 直接查看ABCD四个选项的概率分布
    • 选择概率最高的选项作为模型的答案
  • 实际案例的困境
    • 如果模型输出的概率分布中,B选项在ABCD中概率最高
    • 但数字"1"的概率比所有选项都高
    • 这种情况应判定为正确还是错误?
  • 两种解读
    • 正确解读:仅考虑ABCD选项,B概率最高,故正确
    • 错误解读:模型真正想回答的是数字"1"而非选项B

四、选项位置对评估结果的影响

  • MMLU基准测试中的实验
    • 原始测试中GPT-3.5表现最好
    • 将所有正确答案移至A选项后,Llama-30B性能突然成为第一
    • 原因:Llama-30B在不确定时倾向于选A
    • 将正确答案移至BCD也会产生类似影响
      在这里插入图片描述

无标准答案任务的评估

特定任务评估

  • 翻译和摘要等任务没有唯一标准答案
  • 翻译评估常用BLEU,摘要评估常用ROUGE
  • 这些指标只要求部分匹配标准答案
  • 这些自动评估指标存在局限性

人类评估

Chatbot Arena是一个由人类评判语言模型的平台

  • 用户可比较两个随机分配的模型对同一问题的回答
  • 平台维护实时更新的排行榜
    缺点是:人类评估资源消耗大

使用语言模型进行评估

  • MT-Bench使用GPT-4评估其他语言模型
  • MT-Bench包含80道没有标准答案的问题
  • MT-Bench与Chatbot Arena的相关性高(Spearman相关系数0.94)
    语言模型评估可能存在偏见(如偏好长答案)
    Alpaca Evaluation考虑输出长度因素后,与Chatbot Arena的相关性提高

评估任务的多样性

  • 早期评估使用少量任务(8-9个)
  • 随着发展,评估任务数量增加:FLAN、CrossFit(160个任务)、Big-Bench(200+任务)、Natural Instruction(1600个任务)

特定能力评估

  • 大海捞针测试(Needle in a Haystack)评估长文本理解能力:
    • 在长文本中插入特定信息,测试模型是否能找到
    • GPT-4在128K tokens的长文本中,可能会漏掉文本前10%-50%位置的信息
    • Claude的长文本阅读能力在使用特定prompt后显著提升

评估的其他维度

  • 除了能力外,还应考虑价格、硬件需求等因素
  • 能力相近的模型可能价格差异很大

其他任务的测试

  1. 文本阅读测试:大海捞针测试

    • 在长文本不同位置插入"在旧金山最好的事情是…"的信息
  2. 抽象理解能力:Emoji Movie任务:从Big-Bench中选出的任务,要求模型根据表情符号猜电影名称,如:

    • 🐰🦊🚔🏙️ = 动物方程式(Zootopia)
    • 🤠❤️🤠 = 断背山(Brokeback Mountain)
  3. 逻辑理解:西洋棋测试:要求语言模型理解棋谱并找出能将军的走法,大模型能提出符合规则但不一定正确的答案,小模型甚至不知道如何下棋。

  4. 模型记忆测试:直接要求模型输出RTE等数据集的训练数据,GPT-3.5能够成功输出多个数据集的内容。

Benchmark的局限性

Benchmark数据是公开的,可能被模型训练时"偷看"
有实验直接让模型输出各Benchmark的训练数据,证明模型确实"见过"这些数据(提示词:给我RTE的训练资料等等,如下图)
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/79430.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数字智慧方案5874丨智慧交通收费稽核管理体系的构建与思考(44页PPT)(文末有下载方式)

资料解读:智慧交通收费稽核管理体系的构建与思考 详细资料请看本解读文章的最后内容。 随着高速公路收费系统的不断升级,特别是撤站后的新形势,收费稽核管理体系的构建显得尤为重要。本文将对辽宁省在联网收费新形势下的收费稽核管理体系进…

3.Java转义字符

Java转义字符 转义字符以\开头,常见的转义字符: 转义字符作用\t 🌟水平制表符(Tab)\r 🌟“回车(Carriage Return)”\n换行(New Line)\\输出一个反斜杠 \\&q…

【凑修电脑的小记录】vscode打不开

想把vscode的数据和环境从c盘移到d盘 大概操作和这篇里差不多 修改『Visual Studio Code(VS Code)』插件默认安装路径的方法 - 且行且思 - 博客园 在原地址保留了个指向新地址的链接文件。 重新安装vscode后双击 管理员身份运行均无法打开&#xff0…

MSP430G2553驱动0.96英寸OLED(硬件iic)

1.前言 最近需要用MSP430单片机做一个大作业,需要用到OLED模块,在这里记录一下 本篇文章主要讲解MSP430硬件iic的配置和OLED函数的调用,不会详细讲解OLED显示原理(其实就是江科大的OLED模块如何移植到msp430上).OLED显示原理以及底层函数讲解请参考其他…

SEO长尾词精准优化实战

内容概要 在搜索引擎优化领域,长尾关键词的精准挖掘与优化已成为突破流量瓶颈的核心策略。相较于通用词汇,长尾词具备更强的用户意图指向性与竞争分散特征,能够有效触达细分需求场景下的高价值受众。本部分将从长尾词的核心价值出发&#xf…

计算机组成原理实验(6) 微程序控制单元实验

实验六 微程序控制单元实验 一、实验目的 1、熟悉微程序控制器的原理 2、掌握微程序编制、写入并观察运行状态 二、实验要求 按照实验步骤完成实验项目,掌握设置微地址、微指令输出的方法 三、实验说明 3.1 微程序控制单元的构成:(…

ECMAScript 2(ES2):标准化的微调与巩固

1. 版本背景与发布 发布时间:1998 年 6 月,由 ECMA International 正式发布,标准编号为 ECMA-262 Edition 2。核心定位:作为 ECMAScript 标准的第二次修订版,ES2 的核心目标是修正 ES1 中的错误、完善规范定义&#x…

基于蒙特卡洛模拟的电路容差分析与设计优化

蒙特卡洛模拟在电路设计中的应用 背景知识: 蒙特卡洛模拟是一种通过随机抽样来解决问题的数值方法。在电路设计中,它通过在元件参数的公差范围内随机生成大量样本值,模拟电路在不同参数组合下的行为,从而评估和优化电路设计&…

node.js 实战——mongoDB

MongoDB MongoDB 简介 MongoDB 是一种基于文档型 (document-oriented) 的 NoSQL 数据库,使用类 JSON 的 BSON 格式存储数据,自然支持复杂数据结构。它特别适合需要快速变化、大量数据处理和高应用扩展性的场景。 MongoDB 特性: 无法表、无…

如何掌握 Lustre/Scade 同步数据流语言

从 KPN 的萌芽开始,到 Lustre/Scade 的发展,再到 Velus/Zelus/Swan 在形式化编译、连续时间建模、MBD 平权等各方面的边界拓展,同步数据流语言已经历许多。现在,我们讨论如何掌握 Lustre/Scade 这类法式技术,从语言基础…

神州趣味地名-基于天地图和LeafLet的趣味地名探索

目录 前言 一、搜索API据介绍 1、官方API 2、Leaflet集成 二、成果介绍 1、令人忍俊不禁的地名 2、黑地名 3、数字地名 4、文艺地名 三、总结 前言 在华夏大地广袤的土地上,地名承载着深厚的历史文化底蕴,它们如同一颗颗璀璨的明珠,…

第6篇:EggJS数据库操作与ORM实践

在Web应用开发中,数据库操作是核心环节之一。EggJS通过集成Sequelize ORM框架,提供了高效、安全的数据库操作方案。本文将深入讲解如何在EggJS中配置MySQL数据库、定义数据模型、优化复杂查询,以及管理数据库迁移与种子数据。 一、MySQL基础配…

法线纹理采样+可视化Shader编辑器

法线贴图,对主纹理凹凸显示 建模原理 法线贴图:切线空间,存储xy切线,映射法线,法线信息存储在切线空间中。 模型是否凹凸,是由模型顶点决定的,现在实现的法线贴图,控制凹凸,实际上是…

OID是什么?

什么是 OID? OID 是 Object Identifier(对象标识符) 的缩写,是SNMP(Simple Network Management Protocol,简单网络管理协议)中用来唯一标识被管理对象(比如设备的某项信息)的一串数字。

STM32 ZIBEE DL-20 无线串口模块

一.配置方法 二.串口中断 u8 i; u16 buf[20],res; u8 receiving_flag 0; // 新增一个标志,用于标记是否开始接收数组 void USART1_IRQHandler(void) {if(USART_GetITStatus(USART1, USART_IT_RXNE) ! RESET) //接收中断{res USART_ReceiveData(USART1);if(receiv…

全感官交互革命:当 AI 大模型学会 “看、听、说、创”

引言:从 “文字对话” 到 “全感官体验”,AI 正在重塑人类认知边界 当 AI 不再局限于文本对话,而是能 “看懂” 图像、“听懂” 语音、“生成” 视频,并将这些模态无缝融合时,一场关于人机交互的革命已然开启。DeepSe…

C++模板知识

目录 引言 一、非类型模板参数 二、类模板的特化 (一)概念 (二)函数模板特化 (三)类模板特化 1. 全特化 2. 偏特化 (四)类模板特化应用示例 三、模板的分离编译 …

Pillow 移除或更改了 FreeTypeFont.getsize() 方法

w, h self.font.getsize(label) # text width, height AttributeError: FreeTypeFont object has no attribute getsize 在Pillow 项目的变更日志里可以查到哪个版本移除了 getsize() 方法,Pillow仓库: Releases python-pillow/Pillow GitHub 因为…

Matlab自学笔记

一、我下载的是Matlab R2016a软件,打开界面如下: 二、如何调整字体大小,路径为:“主页”->“预设”->“字体”。 三、命令行窗口是直接进行交互式的,如下输入“3 5”,回车,就得到结果“…

VR汽车线束:汽车制造的新变革

汽车线束,作为汽车电路网络的主体,宛如汽车的 “神经网络”,承担着连接汽车各个部件、传输电力与信号的重任,对汽车的正常运行起着关键作用。从汽车的发动机到仪表盘,从传感器到各类电子设备,无一不是通过线…