【自然语言处理与大模型】大模型(LLM)基础知识④

(1)微调主要用来干什么

微调目前最主要用在定制模型的自我认知和改变模型对话风格。模型能力的适配与强化只是辅助。

  • 定制模型的自我认知:通过微调可以调整模型对自我身份、角色功能的重新认知,使其回答更加符合自定义的场景。还能限制模型的任务边界,让其在指定领域范围回答问题,避免越界或错误信息。

        比如:qwen的模型默认回答“我是qwen”,微调过后让其回答“我是小呆(自定义的名字)”,再比如:你问模型“你有什么能力?”,模型默认回答“我会生成文本、写作、编写代码等等”。但如果你做的是医疗领域的微调,模型就可以输出“我可以帮助用户分析应该吃什么药”。再比如:微调前模型什么问题都回答,微调后只回答医疗问题,其他的问题拒绝回答。

  • 改变模型的对话风格:是指通过在预训练大模型的基础上,使用特定风格的对话数据对模型进行二次训练,使其在保持原有语言能力的同时,生成更符合目标风格的回复。通过微调实现的风格迁移本质上是模型参数空间的向量偏移。

        比如:医疗咨询场景中,微调后的模型会使用更严谨的术语;儿童教育场景中,模型会生成更亲切的回复。

  • 模型能力的适配与强化:通过微调能使通用模型具备垂直领域的知识,使其对垂直领域的问答能力提升,但由于模型具有幻觉且若想回复垂直领域的效果很好需要预处理大量训练数据,所以使用微调为模型注入垂直领域知识只是一种辅助手段。

        过少的样本或单一的微调数据会导致模型在未见过的数据上表现不佳,此时模型过拟合,泛化能力差。少样本的长时间微调还可能导致模型原有的通用能力被削弱,造成灾难性遗忘。

(2)为什么不选择直接使用微调来实现专业领域问答系统?

        要想获得好效果需要大量数据标注,而想要得到大量数据要付出较高成本,即便拥有大量数据也可能出现幻觉。而少样本的数据微调可能会导致过拟合,使得模型泛化能力不佳,严重的会导致通用能力下降。

  • 数据标注成本高:微调需要依赖高质量的标注数据,而专业领域的标注数据获取成本极高。需要领域专家参与标注(如法律合同条款解析、医学诊断逻辑标注),成本远高于通用领域。专业领域的高质量数据量通常有限,导致模型难以覆盖所有场景。领域知识(如法律条文、医疗指南)会随时间变化,需持续维护标注数据,进一步增加成本。
  • 幻觉问题难以彻底解决:即使使用高质量数据微调,模型仍可能产生幻觉(生成错误或虚构信息)。如果标注数据本身存在偏差或过时信息,模型可能继承这些错误。微调后的模型在处理复杂或模糊问题时,可能生成逻辑不严谨的回答。专业领域的知识往往分散在多个来源(如论文、法规、案例),微调模型难以整合所有信息。
  • 少样本微调导致过拟合:数据量不足导致模型无法学习到领域知识的通用规律,反而“记住”了训练数据中的噪声和细节。少样本对参数很大的模型而言,只会被“记住”而无法抽象成一个知识。
(3)实际应用中如何实现专业领域问答呢?

        实际应用中常采取混合策略,也就是先用RAG,然后再使用微调进一步提升RAG输出的准确率。RAG的优势在于对知识更新成本低,不需要重新训练模型只需要外挂知识库就可以实现,对于动态数据也能低成本的更新。RAG还极大的增强了模型输出内容的可解释性,回答基于可以验证的知识库,能够溯源。但RAG之后模型每次都是对相似度匹配出来的top-n结果做阅读理解,模型本身并没有相关领域的深刻知识。于是想到了对模型进行微调,起到补充作用,提升模型对领域术语的理解(如法律术语,医学名词),还可以优化生成逻辑(如合同条款解析的格式化输出)。

(4)大模型应用落地的三个方向是?

        大模型应用落地的三个方向——微调(Fine-tuning)、检索增强生成(Retrieval-Augmented Generation, RAG)、以及智能体(Agent),各自代表了将大型预训练模型应用于具体任务或场景的不同策略。下面简要介绍这三个概念:

  • 微调(Fine-tuning):微调是指在已经在一个大规模数据集上预训练好的模型基础上,针对特定任务使用较小规模的特定数据集进行进一步训练的过程。通过这种方式,模型可以学习到执行特定任务所需的细节和细微差别,同时保留从预训练阶段学到的广泛知识。这种方法特别适用于那些有大量标记数据的任务。
  • 检索增强生成(Retrieval-Augmented Generation, RAG):RAG是一种结合了信息检索与文本生成的方法,旨在提高生成式模型输出的相关性和准确性。它的工作原理是首先根据输入查询从一个大的文档库中检索出最相关的文档片段,然后将这些片段作为额外的信息提供给生成模型,以帮助其生成更加准确和上下文相关的回复。这种方法对于需要精确事实依据的任务特别有用。
  • 智能体(Agent):在人工智能领域,“Agent”通常指的是能够自主执行任务、作出决策并适应环境变化的系统或模型。当谈论大模型时,“Agent”的概念通常涉及利用这些模型来构建可以理解复杂指令、规划步骤、解决问题并执行任务的智能体。这样的“Agent”可以通过对环境的观察来学习,并且能够在不同的应用场景中表现出灵活的行为。这包括但不限于对话系统、自动化助手以及各种形式的机器人技术等。
(5)哪些模型参数来控制对话生成的自由度和多样性?
  • Top_p (核采样Nucleus Sampling)

定义:Top_p是一种采样方法,通过选取概率总和达到p的最小集合中的单词进行采样。与传统的top-k采样(仅从概率最高的k个词中选择)不同,top_p根据累积概率动态决定候选词汇集。

大小范围:通常取值在0到1之间。例如,当设置为0.9时,意味着会选择累计概率达到90%的那些最有可能的词作为候选进行采样。

  • 存在处罚(Presence Penalty)
定义:存在处罚是用来控制生成文本中新话题引入频率的一个参数。较高的存在处罚可以鼓励模型产生更多样化的内容,减少重复提及相同的主题或概念。
大小范围:该参数的值通常是正数,表示惩罚强度。正值越大,对已经提到过的词语再次出现的惩罚越强;如果设置为0,则不应用任何惩罚。
  • 频率惩罚(Frequency Penalty)

定义:频率惩罚用于调节生成文本中词语出现频率的一种机制。它基于词语在整个输出序列中的出现次数来施加惩罚,旨在避免某些词被过度使用,从而增加输出内容的新颖性和多样性。

大小范围:类似于存在处罚,频率惩罚的值也是非负实数。数值越高,对于高频词的抑制作用越强。设置为0则表示不对词频做额外处理。

(6)RAG的优点有哪些?

优点

描述

避免模型幻觉

引入外部知识库信息,减少虚假内容生成

动态知识更新

知识库可实时更新,无需重新训练模型

提高答案准确性

结合外部知识生成更准确、相关的内容

增强可解释性

生成内容基于可检索知识,用户可验证来源

成本效益高

无需修改模型参数,仅优化输入过程,节省训练和部署成本

安全与隐私管理

通过限制知识库权限控制敏感信息访问

灵活定制

可针对特定领域(如医疗、金融)定制知识库,快速适配不同场景

(7)RAG的缺点有哪些?

缺点

描述

依赖外部知识库

检索结果的质量和知识库完整性直接影响生成效果

检索效率与准确性矛盾

大规模知识库检索可能降低效率,难以兼顾速度和精准度

处理复杂查询能力有限

对涉及多步骤推理或模糊语义的查询效果不佳

数据敏感性不足

对日期、数值等细节信息的处理容易出错

文档拆分问题

文档切分可能导致关键信息丢失或上下文断裂

用户查询质量影响效果

用户提问模糊或使用缩写时,可能降低模型理解能力

实现复杂性

需要协调检索和生成模块,增加系统设计和维护成本

(8)RAG的核心优势与核心痛点是什么?

RAG的核心优势是动态更新知识库方便,让模型具备领域知识的成本低,可解释性强。

RAG的核心痛点是对回复内容的精度要求越高,越难实现。知识库的内容往往是多模态的,这导致构建知识库所需要做的数据预处理越来越复杂。当前 RAG 的优化方向可归纳为 数据质量 → 检索精度 → 生成控制 → 查询理解 的全流程改进。

  • 数据质量:原始知识库中存在噪音(如HTML标签、重复内容)、结构化数据解析困难(如表格、多模态数据)。对应使用去重纠错工具去除冗余内容和纠正错误格式。引入多模态支持,使用图像、表格的专用解析器(如 PDFBox、Tesseract OCR)
  • 检索精度:检索结果排名靠前的文档可能不包含答案,有可能是chunk分的不好,或者是top-k设置的不合理。对应解决方案目前有Rerank重排序算法,对检索结果进行语义重排序。还引入知识图谱,进行混合检索(同时使用相似度、关键词匹配、图谱查询)。
(9)什么是模态?什么是多模态?
  • 模态是指一种特定类型的数据形式或感知方式。在人工智能和机器学习中,常见的模态包括:文本、图像、音频、视频、传感器数据。
  • 多模态是指同时处理多种模态的数据,提升理解和生成能力。多模态大模型(Multimodal Large Model)能够将不同模态的信息结合起来,完成跨模态的任务。
(10)多模态有哪些应用场景

Language-Audio

  • Text-to-Speech Synthesis(文转音): 将文本转换为语音,实现自然语言到声音的转换。
  • Audio Captioning(音频字幕): 从语音中提取关键信息,生成简洁的文字描述,用于内容摘要或理解。

Vision-Audio

  • Audio-Visual Speech Recognition(视听语音识别): 结合视频和音频信息,提高语音识别的准确性和鲁棒性。
  • Video Sound Separation(视频声源分离): 在复杂场景下分离不同声源,增强音频处理能力。
  • Image Generation from Audio(音频生成图像): 根据声音生成相关图像,可用于音乐可视化或情感表达。
  • Speech-conditioned Face generation(语音驱动面部生成): 通过语音生成说话者的面部视频,实现语音到视觉的转换。
  • Audio-Driven 3D Facial Animation(音频驱动的3D面部动画): 利用语音驱动3D人脸模型,生成逼真的面部动画,适用于虚拟现实和娱乐领域。
Vision-Language
  • Image/Video-Text Retrieval (图像/视频与文本的相互检索): 图像/视频<--->文本的相互检索。
  • Image/Video Captioning (图像/视频的内容描述): 给定一个图像/视频,生成文本描述其主要内容。
  • Visual Question Answering (基于图像/视频的问答系统): 给定一个图像/视频与一个问题,预测答案。
  • Image/Video Generation from Text(文本驱动的图像/视频生成): 给定文本,生成相应的图像或视频。
  • Multimodal Machine Translation(多模态机器翻译): 给定一种语言的文本与该文本对应的图像,翻译为另外一种语言。
  • Vision-and-Language Navigation (视觉-语言导航): 给定自然语言进行指导,使得智能体根据视觉传感器导航到特定的目标。
  • Multimodal Dialog (多模态对话): 给定图像、历史对话,以及与图像相关的问题,预测该问题的回答。

定位相关的任务

  • Visual Grounding (视觉定位): 根据文本描述在图像中定位相应的物体,实现文本与视觉内容的精确对应。
  • Temporal Language Localization (时序语言定位): 在视频中根据文本描述定位特定动作的发生时间,用于事件检测和时间线分析。
  • Video Summarization from text query (基于文本查询的视频摘要): 根据文本查询生成视频摘要,提取关键帧或片段,形成简短的视频概要。
  • Video Segmentation from Natural Language Query (基于自然语言查询的视频分割): 根据文本查询对视频进行分割,识别并提取出与查询相关的物体或场景。
  • Video-Language Inference (视频-语言推理): 结合视频内容和文本假设,判断二者是否存在语义上的关联,用于视频内容的理解和验证。
  • Object Tracking from Natural Language Query (基于自然语言查询的对象追踪): 在视频中根据文本描述追踪特定对象,实现动态目标的持续跟踪。
  • Language-guided Image/Video Editing (语言引导的图像/视频编辑): 根据文本指令自动对图像或视频进行编辑,如添加、删除或修改特定元素,提升内容创作的效率和灵活性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/906158.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于 Spring Boot 瑞吉外卖系统开发(十五)

基于 Spring Boot 瑞吉外卖系统开发&#xff08;十五&#xff09; 前台用户登录 在登录页面输入验证码&#xff0c;单击“登录”按钮&#xff0c;页面会携带输入的手机号和验证码向“/user/login”发起请求。 定义UserMapper接口 Mapper public interface UserMapper exte…

什么是TCP协议?它存在哪些安全挑战?

一、TCP协议概述 TCP&#xff08;传输控制协议&#xff09;是互联网中面向连接、可靠的传输层协议&#xff0c;主要负责在不可靠的IP层上实现数据的可靠传输。其核心特点包括&#xff1a; 面向连接&#xff1a;通信前需通过三次握手&#xff08;SYN-SYN/ACK-ACK&#xff09;建…

12条热门照片提示

12条热门照片提示 1. 赛博朋克光彩 (Cyberpunk Glow-Up) 未在文件中显示2. 卡通化我 (Cartoonify Me) Convert this image of [your subject here] into a 3D Pixar-style cartoon clean lines, soft lighting, expressive features, and a polished render that feels cine…

Java求职面试揭秘:从Spring到微服务的技术挑战

文章简述 在这篇文章中&#xff0c;我们将通过一个幽默的面试场景&#xff0c;揭秘互联网大厂Java求职者在面试中面对的技术挑战。面试官将从Spring框架、微服务架构到大数据处理等多个维度进行提问&#xff0c;并详细讲解这些技术点的应用场景和解决方案&#xff0c;帮助小白…

用Python输出一个文件夹的所有文件结构

输出一个文件夹的所有目录和文件结构 新建一个Python文件&#xff0c;输入 这个文件表示查询一个文件夹所有的目录结构 import osdef print_directory_structure(root_dir):"""打印树状目录结构&#xff08;优化版&#xff09;"""if not os.p…

R语言的专业网站top5推荐

李升伟 以下是学习R语言的五个顶级专业网站推荐&#xff0c;涵盖教程、社区、资源库和最新动态&#xff1a; 1.R项目官网 (r-project.org) R语言的官方网站&#xff0c;提供软件下载、文档、手册和常见问题解答。特别适合初学者和高级用户&#xff0c;是获取R语言核心资源的…

IntelliJ IDEA给Controller、Service、Mapper不同文件设置不同的文件头注释模板、Velocity模板引擎

通过在 IntelliJ IDEA 中的 “Includes” 部分添加多个文件头模板&#xff0c;并在 “Files” 模板中利用这些包含来实现不同类型文件的注释。以下是为 Controller、Service、Mapper 文件设置不同文件头的完整示例&#xff1a; 1. 设置 Includes 文件头模板 File > Settin…

LabVIEW双音信号互调失真测量

该VI构建实现了一套完整的双音信号互调失真&#xff08;IMD&#xff09;测量系统。该系统通过精确控制信号生成、采集与分析流程&#xff0c;实现对被测设备&#xff08;DUT&#xff09;非线性特性的量化评估&#xff0c;可广泛应用于通信设备、音频系统、射频器件等领域的研发…

56.合并区间(java)

题目描述&#xff1a; 1.先判断给定intervals是否为空或者大小是否为1&#xff0c;是则直接返回intervals。 2.对intervals进行排序 数组形式则使用&#xff1a;Arrays.sort(intevals,(a,b)->Integer.compare(a[0],b[0])); ArrayList形式&#xff1a;intervals.sort((a,b)-…

Redis设计与实现——Redis命令参考与高级特性

Redis命令参考 数据类型相关命令 SET&#xff1a;设置键值&#xff0c;支持过期时间、不存在/存在条件。GET&#xff1a;获取键值&#xff0c;若键不存在返回 nil。INCR/DECR&#xff1a;将键的整数值增1/减1&#xff0c;键不存在时初始化为0。MSET/MGET&#xff1a;批量设置…

基于 STM32 的全自动洗车监控系统设计与实现

摘要 本文提出一种基于 STM32F103RCT6 芯片的全自动洗车监控系统方案,通过多传感器融合与智能控制算法,实现车辆检测、洗车流程自动化及状态远程监控。系统集成硬件选型、电路设计、软件流程及通信功能,可广泛应用于智能洗车场景。 一、硬件系统设计 1. 核心芯片选型 主控…

掌握Multi-Agent实践(七):基于AgentScope分布式模式实现多智能体高效协作[并行加速大模型辅助搜索、分布式多用户协同辩论赛]

之前的案例都是运行在单台机器上以单进程形式运行,受限于 Python 的全局解释器锁,实际只能有效利用一个 CPU 的计算资源,并且无法支持多个用户从自己的电脑上接入同一个 Multi-Agent 应用进行交互。为了提高运行效率并支持多用户接入同一个应用中,AgentScope 提供了分布式…

docker-compose部署项目(springboot服务)以及基础环境(mysql、redis等)ruoyi-ry

上传jar 配置文件等 到目录&#xff1a;/home/ruoyi/docker 设置权限 chmod x *.sh 开通端口&#xff08;我已经开通了&#xff09; sh ./deploy.sh port 开始构建 docker-compose build 构建成功 可以先拉取镜像 docker pull nacos/nacos-server docker pull nginx docker …

Axure疑难杂症:统计分析页面引入Echarts示例动态效果

亲爱的小伙伴,在您浏览之前,烦请关注一下,在此深表感谢! Axure产品经理精品视频课已登录CSDN可点击学习https://edu.csdn.net/course/detail/40420 课程主题:统计分析页面引入Echarts示例动态效果 主要内容:echart示例引入、大小调整、数据导入 应用场景:统计分析页面…

如何使用WordPress创建美食博客

不管你是否意识到&#xff0c;食物是我们生活的核心。有些人将其用作燃料&#xff0c;而另一些人则将食谱作为一种艺术形式呈现。如果您属于后者&#xff0c;并且想创建一个美食博客来分享您的热情&#xff0c;那么WordPress是一个顶级平台。 几乎每个话题都有一个博客利基&am…

【MySQL】库与表的操作

一、库的操作 1. 查看数据库 语法&#xff1a;show databases;这里的database是要加s的 查看当前自己所处的数据库&#xff1a;select database(); 例如下图&#xff0c;我当前所处的数据库就是在class1数据库 2. 创建数据库 语法&#xff1a;create database [if not e…

Unity3D开发AI桌面精灵/宠物系列 【六】 人物模型 语音口型同步 LipSync 、梅尔频谱MFCC技术、支持中英文自定义编辑- 基于 C# 语言开发

Unity3D开发AI桌面精灵/宠物系列 【六】 人物模型 语音口型同步 LipSync 、梅尔频谱MFCC技术 C# 语言开发 该系列主要介绍怎么制作AI桌面宠物的流程&#xff0c;我会从项目开始创建初期到最终可以和AI宠物进行交互为止&#xff0c;项目已经开发完成&#xff0c;我会仔细梳理一下…

MoonBit正式入驻GitCode!AI时代的编程语言新星,开启高性能开发新纪元

在AI与编程语言深度交融的今天&#xff0c;开发者们正见证一场技术生产力的革命。由IDEA研究院基础软件中心倾力打造的MoonBit&#xff08;月兔&#xff09;编程语言&#xff0c;自2023年横空出世以来&#xff0c;凭借高性能、低延迟、轻量化的特性&#xff0c;迅速成为全球开发…

LLMs:《POE报告:2025年春季人工智能模型使用趋势》解读

LLMs&#xff1a;《POE报告&#xff1a;2025年春季人工智能模型使用趋势》解读 导读&#xff1a;2025年5月13日&#xff0c;该报告基于 Poe 平台的用户数据&#xff0c;分析了 2025 年春季人工智能模型的使用趋势。报告指出&#xff0c;人工智能格局快速演变&#xff0c;通用文…

STM32 之网口资源

1 网口资源介绍 STM32F407 是 STMicroelectronics 推出的高性能 ARM Cortex-M4 微控制器&#xff0c;具备多种外设接口&#xff0c;其中包括一个 Ethernet MAC 控制器&#xff08;带 IEEE 1588 支持&#xff09;。这意味着你可以使用 STM32F407 实现网络通信功能&#xff08;通…