LLM学习记录DAY14

news/2025/10/31 8:12:36/文章来源:https://www.cnblogs.com/szhAC/p/19178604

📘今日学习总结

一、常见评测指标

1. 分类任务

  • 精确率:预测为正例中真正为正的比例
  • 召回率:真正为正中被正确预测的比例
  • F1分数:精确率与召回率的调和平均数

2. 语言建模任务

  • 困惑度:衡量模型对文本的建模能力,越低越好
    • 公式:
      \(PPL(u) = \exp\left(-\frac{1}{T}\sum_{t=1}^{T} \log P(u_t|u_{<t})\right)\)

3. 文本生成任务

  • BLEU:机器翻译中衡量与参考译文的词汇重叠
  • ROUGE:文本摘要中衡量信息覆盖度(侧重召回率)

4. 问答任务

  • 准确率:预测正确的比例
  • EM(精确匹配):答案与标准答案完全一致

5. 执行类任务

  • 成功率:成功完成任务的比例
  • Pass@k:k个输出中至少有一个通过测试的概率

6. 偏好排序任务

  • Elo评分:通过成对比较动态更新模型评分

二、评测范式与方法

1. 基于评测基准

  • 典型工作:MMLU、BIG-Bench、HELM、C-Eval、Open LLM Leaderboard
  • 优点:标准化、可对比、自动化
  • 缺点:对提示敏感、存在数据污染

2. 基于人类评估

  • 典型工作:Chatbot Arena
  • 优点:真实交互、适用于复杂任务
  • 缺点:成本高、可复现性差

3. 基于模型评估

  • 典型工作:AlpacaEval、MT-Bench
  • 优点:自动化、成本低、灵活
  • 缺点:存在位置/长度偏置、可靠性依赖模型能力

三、语言生成

1. 语言建模

  • 任务:预测下一个词元
  • 数据集:LAMBADA(预测段落最后一个词)

2. 条件文本生成

  • 机器翻译:BLEU、COMET,数据集如WMT
  • 文本摘要:ROUGE,数据集如XSum

3. 代码合成

  • 评测指标:Pass@k
  • 数据集:HumanEval
  • 现象:模型性能随参数规模提升(扩展定律)

4. 主要问题

  • 不可靠的文本评估:自动指标不能反映真实质量
  • 专业化生成弱:特定领域生成困难,易灾难性遗忘

四、知识利用

1. 闭卷/开卷问答

  • 闭卷:检测模型内部知识编码
  • 开卷:结合外部知识库(如检索增强生成RAG)

2. 知识补全

  • 任务如“Dante was born in [MASK]”
  • 难点:特定关系补全困难(如出生地 vs 货币)

3. 主要问题

  • 幻象
    • 内在幻象:生成的内容和输入内容存在冲突
    • 外在幻象:生成的内容不能通过输入内容来判断对错
  • 知识时效性:难以注入新知识,需借助外部工具

五、复杂推理

1. 知识推理

  • 数据集:CSQA、PIQA、SIQA
  • 评测指标:准确率

2. 符号推理

  • 任务:伪字母拼接、尾字母拼接、多位数加法
  • 方法:思维链(Chain-of-Thought, CoT)

3. 数学推理

  • 数据集:GSM8K、MATH
  • 方法:CoT显著提升性能

4. 主要问题

  • 推理不一致:答案与推理过程不符
  • 数值计算弱:需借助外部工具(如计算器)
  • 解决方案:过程反馈、多路径推理、自我反思

六、人类对齐

1. 三个维度

  • 有用性:完成任务的能力
  • 诚实性:避免幻象,数据集如TruthfulQA
  • 无害性:避免偏见/歧视,数据集如CrowS-Pairs、Winogender

2. 评测方法

  • Chatbot Arena:人类偏好标注 + Elo排名
  • TruthfulQA:测试模型是否重复人类误解
  • CrowS-Pairs:评估社会偏见
  • Winogender:评估性别偏见在共指消解中的表现

七、环境交互

1. 任务类型

  • 自然语言指令 → 动作规划
  • 模拟环境交互:如ALFWorld、WebShop

2. 评测指标

  • 行动计划可行性
  • 任务完成率

3. 典型工作

  • PaLM-SayCan:结合语言模型与价值函数
  • ALFWorld:文本模拟家庭环境
  • WebShop:模拟在线购物流程

八、工具使用

1. 使用方式

  • 上下文学习:从工具描述/样例中学习
  • 微调:在工具调用数据上微调

2. 评测数据集

  • HotpotQA:多跳推理问答
  • APIBench:API调用能力
  • ToolBench:跨类别多工具调用

3. 典型系统

  • HuggingGPT:调用HuggingFace模型完成任务
  • Gorilla:连接大量API
  • Toolformer:模型自学使用工具

九、高级能力与评测基准

1. MMLU

  • 多任务知识理解,涵盖人文/社科/STEM
  • GPT-4在5-shot下达到86.4%准确率

2. BIG-Bench

  • 204项挑战性任务
  • PaLM 540B在65%任务上超越人类

3. BIG-Bench Hard

  • 23项LLM表现不如人类的任务
  • CoT提示技术显著提升性能

4. HELM

  • 全面评测,7类指标,16类场景

5. C-Eval

  • 中文综合评测体系,涵盖多学科
  • 中文模型在人文科目上表现更优

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/951305.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025年质量好的eva珍珠棉实力厂家TOP推荐榜

2025年质量好的EVA珍珠棉实力厂家TOP推荐榜 在包装材料领域,EVA珍珠棉因其优异的抗震、防潮、环保、可回收和隔音性能,成为电子、家居、医疗、物流等行业的重要选择。随着市场需求的增长,选择一家技术领先、生产稳…

2025年10月美白精华产品推荐对比:多通路抑黑配方与术后适用度排行

在护肤需求持续细分的当下,“美白”已从单纯追求肤色变浅,转向“淡斑、提亮、维稳”多目标并行。2025年第三季度国家药监局《化妆品注册备案月报》显示,含美白功效的护肤新品备案量同比提升18%,其中“敏感肌可用”…

2025年质量好的铝塑板岗亭厂家最新权威实力榜

2025年质量好的铝塑板岗亭厂家最新权威实力榜铝塑板岗亭作为现代城市基础设施的重要组成部分,广泛应用于小区、工厂、学校、商业区等场所。随着2025年的到来,市场对铝塑板岗亭的质量、设计和功能要求越来越高。本文将…

2025年质量好的防爆柴油机单轨吊车厂家最新推荐权威榜

2025年质量好的防爆柴油机单轨吊车厂家最新推荐权威榜在矿山开采和井下作业领域,防爆柴油机单轨吊车已成为不可或缺的运输设备。随着国家对矿山安全生产要求的不断提高,选择一家技术先进、质量可靠的防爆柴油机单轨吊…

实用指南:正则表达式入门与进阶(优化版)

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

2025年比较好的锂电池平板车杭州环保装修

2025年比较好的锂电池平板车杭州环保装修推荐指南开篇介绍随着环保意识的不断提升和新能源技术的快速发展,锂电池平板车在杭州环保装修市场正迎来爆发式增长。2025年,这种结合了绿色能源与智能运输的设备已成为装修行…

2025年知名的不锈钢电动伸缩门装修

2025年知名的不锈钢电动伸缩门装修公司推荐指南不锈钢电动伸缩门行业概述随着智能化建筑需求的不断提升,不锈钢电动伸缩门作为现代建筑安全防护的重要组成部分,在2025年迎来了新一轮的技术革新和市场扩张。这类产品不…

2025年比较好的大连全屋定制方案最新推荐排行榜

2025年比较好的大连全屋定制方案最新推荐排行榜 随着生活品质的提升,全屋定制已成为现代家居装修的主流趋势。2025年,大连市场上的全屋定制服务更加成熟,各大装饰公司纷纷推出个性化、智能化的定制方案,以满足不同…

[题解]P8186 [USACO22FEB] Redistributing Gifts S

P8186 [USACO22FEB] Redistributing Gifts S 对于每行的初始礼物,将它和左侧的礼物连单向边。 最后,每个点都可以通过交换获得所在强连通分量上的任意一个礼物,而其他礼物则无法获得。可以用 Floyd 跑传递闭包(即判…

Cohesity NetBackup 11 for Linux Windows - 领先的企业备份和恢复解决方案

Cohesity NetBackup 11 for Linux & Windows - 领先的企业备份和恢复解决方案Cohesity NetBackup 11 for Linux & Windows - 领先的企业备份和恢复解决方案 Comprehensive enterprise data protection 请访问原…

JEB Pro v5.33 (macOS, Linux, Windows) - 逆向工程平台

JEB Pro v5.33 (macOS, Linux, Windows) - 逆向工程平台JEB Pro v5.33 (macOS, Linux, Windows) - 逆向工程平台 Reverse Engineering for Professionals. 请访问原文链接:https://sysin.org/blog/jeb/ 查看最新版。原…

2025年知名的大连装修效果图家装方案优选排行

2025年知名的大连装修效果图家装方案优选排行 随着人们生活品质的提升,家装需求日益多样化,选择一家靠谱的装修公司至关重要。大连作为东北地区的重要城市,装修市场竞争激烈,涌现出许多优秀的家装企业。本文根据2…

2025年评价高的杭州房屋装修热门口碑推荐

2025年评价高的杭州房屋装修热门口碑推荐 随着杭州城市化进程的加速和居民生活品质的提升,房屋装修需求持续增长。2025年,杭州装修市场竞争激烈,消费者更加注重装修公司的口碑、设计水平、施工质量及售后服务。本文…

【转载】Opencv 中 waitkey() 0xFF,“0xFF”的作用解释「建议收藏」

【转载】Opencv 中 waitkey()& 0xFF,“0xFF”的作用解释「建议收藏」大家好,我是架构君,一个会写代码吟诗的架构师。今天说一说Opencv 中 waitkey()& 0xFF,“0xFF”的作用解释「建议收藏」,希望能够帮…

HSV(三通道)———— H(色相) S(饱和度) V(明度)

HSV(三通道)———— H(色相) S(饱和度) V(明度)HSV的详细含义 Hue(色相):表示颜色类型,范围是 0 ~ 180(OpenCV中8位图像将0~360缩放到此范围)。 Saturation(饱和度):颜色的纯度,0(灰色)~ 2…

「比赛游记」CSP2025 游记

请求起飞第一周模拟赛,飞 飞 飞飞 飞,将军用 T1 把我飞飞了 . 第二周模拟赛,飞 飞 飞 飞飞,忘了谁用 T1 把我飞飞了 . 第三周模拟赛,飞飞 飞飞 飞飞 飞飞,是人类吗还 . 大赛能不能打好是有前兆的吗,NOI 前就感觉…

2025年10月脸颊有晒斑产品推荐榜:五款淡斑精华实测排行与解析

入秋以后,紫外线强度虽下降,但夏季累积的晒斑开始显色,脸颊对称或散落的褐色斑点成为镜子里的“常驻嘉宾”。很多人发现,单靠粉底已遮不住边缘模糊的色块,而盲目刷酸、猛药叠加又引发泛红脱皮,陷入“淡斑—敏感—…

应用安全 --- PC安全 之 VMP2 IAT修复

应用安全 --- PC安全 之 VMP2 IAT修复加密工具选择 vmp2.13.8 加密选项内存保护 (是):程序运行时,它的内容会放在电脑的内存里。这个选项就像是给内存里的程序加了一个“障眼法”,防止破解者用特殊工具直接“偷看”…

2025年10月又红又痒用什么产品对比榜:五款精华舒缓泛红瘙痒实测

入秋以后,门诊里因为“又红又痒”来求助的人明显增多。很多人白天被空调风一吹,脸颊就烧得发烫;夜里一抓,耳后、鼻翼立刻起小疹子。第二天还要戴口罩上班,化妆品不敢上,防晒霜也刺痛,恶性循环让情绪跟着崩盘。皮…

2025年10月熬夜急救产品推荐榜:敏感肌可用急救精华排行

凌晨一点还在亮着的屏幕、第二天早八的会议、镜子里的蜡黄与毛孔,是多数都市人再熟悉不过的场景。中国睡眠研究会2024年发布的《职场青年睡眠报告》显示,18-35岁人群中,主动或被动熬夜比例高达76%,其中62%的人次日…