【AI零基础学习笔记】基础篇001_大模型的演变及概念

文章目录

  • 1. 前言
  • 2. 大模型的演变
    • 2.1. 人工智能的定义和子领域
    • 2.2.机器学习
    • 2.3. 深度学习
    • 2.4. 生成式人工智能 - 大模型的演变
  • 3. 大模型的使用与训练
    • 3.1. 大模型训练的阶段
    • 3.1.1. 预训练
    • 3.1.2. SFT(监督微调)
    • 3.1.3. RLHF(基于人类反馈的强化学习)
  • 4. 大模型的特点与分类
    • 4.1. 特点
    • 4.2. 局限性
    • 4.3. 分类
  • 5. 大模型的工作流程
    • 5.1. 分词化与词表映射
    • 5.2.文本生成过程

1. 前言

拥有大模型之前:使用搜索引擎去搜索问题,由于网络内容质量参差不齐,导致搜索结果不准确。

拥有大模型之后:直接将问题输入大模型,由于大模型具有非常庞大且高质量的知识库,因此,大模型能够给出更准确的答案。

2. 大模型的演变

2.1. 人工智能的定义和子领域

人工智能按照技术实现的不同,可被划分为多个子领域,子领域之间往往相互关联和影响。

人工智能:人工智能是一个广泛涉及计算机科学、数据分析、统计学、机械工程、语言学、神经科学、哲学和心理学等多个学科的集合。

  • 机器学习:机器学习可以分为监督学习、无监督学习、强化学习。
  • 深度学习:深度学习是机器学习的一个子领域,它基于神经网络模型来处理数据。
  • 生成式人工智能:生成式人工智能又是深度学习中快速增长的子领域,使用大模型提供支持,在大量原始、未标记的数据基础上对深度学习模型进行预训练,使得机器能够理解语言甚至图像,并能够根据需要自动生成内容。

2.2.机器学习

机器学习是一种通过计算机程序来从数据中自动学习、改进和预测的计算机科学方法。

  • 监督学习:通过训练数据,让机器学习算法从数据中找出规律,并生成模型。

    比如,你告诉孩子各种水果的特征(形状、颜色),孩子学习到特征与水果的关联关系,并预测拿出来的水果是什么水果。

  • 无监督学习:无监督学习是一种机器学习方法,它不依赖于标签数据,而是通过数据本身来学习。

    比如,你不告诉孩子每个水果的特征,而是鼓励他自己找出根据特征将水果分组的方法。

  • 强化学习:强化学习是一种机器学习方法,它通过训练智能体来学习如何通过与环境进行交互来获得最大的奖励。

    比如:不告诉孩子水果的特征,而是每次向他展示一个水果,让他进行判断。如果他判断正确,则获得奖励,如果他判断错误,则获得惩罚。通过反复试错,孩子逐渐学会正确识别水果的规律。

2.3. 深度学习

深度学习算法试图模拟人脑的工作方式,通过对大量数据的学习,自动提取数据的高层次特征和模式,从而实现图像识别,语音识别,自然语言处理等任务。
按照架构不同,深度学习算法可以分以下几种:

  • 卷积神经网络(CNN):CNN是一种深度学习算法,用于处理图像数据。
  • 循环神经网络(RNN):RNN是一种深度学习算法,用于处理序列数据。
  • Transformer网络:Transformer网络是一种深度学习算法,用于处理文本数据。

同样以教孩子识别水果为例,
这次你带着孩子去超市,哪里有各种不同的水果。你没有向孩子解释每个水果的特点,而是给孩子指出那些是苹果,那些是香蕉。他通过观察和比较,慢慢学会了辨别各种水果。在这个过程中,孩子的大脑(深度学习模型)自动从复杂的视觉、嗅觉等信号中提取层次化的特征,从而达到识别水果的目的。

2.4. 生成式人工智能 - 大模型的演变

  1. 2018-2020年间,随着Transformer架构的普及和GPT系列模型的发展,"大模型"概念逐渐形成。2021年斯坦福大学《On the Opportunities and Risks of Foundation Models》论文系统化定义了基础模型(Foundation Models)概念,成为大模型研究的重要里程碑。
  2. 2022年,OpenAI公司发布了ChatGPT。这是一种先进的人工智能语言模型,专为对话交互而设计,具有强大的自然语言理解和生成能力。可以完成撰写论文、邮件、脚本等任务,ChatGPT的发布标志着AI大模型在语言理解和生成能力上的重大发展。对全球AI产业产生了深远影响,开启了人工智能大模型应用的新篇章。
  3. 2023年,国内厂商纷纷发布各自研发的大语言模型产品。百模大战一触即发。

3. 大模型的使用与训练

大模型的使用方法非常简单,我们可以直接向大模型输入问题,然后得到答案。

3.1. 大模型训练的阶段

大模型的训练整体上分为三个阶段:

  1. 预训练:让模型学习语言的基本结构和模式。
  2. SFT(监督微调):让模型学习执行特定的任务。
  3. RLHF(基于人类反馈的强化学习):使模型输出更加符合人类偏好。

3.1.1. 预训练

预训练的过程类似于从婴儿成长为中学生的过程,在这个阶段会学习各种各样的知识。比如语言习惯、知识体系等重要部分。对于大模型来说,这个阶段会学习不同种类的语料,学习到语言的统计规律和一般知识。
但是大模型在这个阶段只是学会了补全句子,并没有学会怎样领会人类的意图。
假设向未经微调的预训练模型提问:“埃菲尔铁塔在哪个地方?”,模型可能无法理解问题意图,而是基于统计规律补全类似"埃菲尔铁塔是法国巴黎的著名地标,建于1889年…"的文本片段。这说明预训练模型擅长文本补全,但尚未掌握遵循指令的能力。

3.1.2. SFT(监督微调)

SFT过程类似于从中学生成长为大学生的阶段,在这个阶段我们会学习专业知识,比如金融、经济、法律等等。对于大模型来说,这个阶段会学习各种人类的对话语料,甚至是非常专业的垂直领域知识。
在监督微调之后,它可以根据人类的意图回答专业领域的问题。
这时候我们再去提问:“埃菲尔铁塔在哪个地方?”,模型大概率会回答:法国。
这时候的模型已经可以按照人类的意图去完成基本的对话功能了,但是模型的回答可能不符合人类的偏好,比如可能会输出一些涉黄、涉证、涉爆或者种族歧视等言论。这时候我们就需要对大模型进行RLHF(基于人类反馈的强化学习)

3.1.3. RLHF(基于人类反馈的强化学习)

RLHF类似于从大学生不如职场的阶段,在这个阶段我们会开始工作,工作可能会收到领导中我们可能受到表扬,也可能会受到批评。我们会根据反馈调整自己的工作方法,争取在职场中获得更多的正面反馈。
对于大模型来说,在这个阶段他会针对同一个问题进行多次回答,人类会对这些回答进行打分,大模型会在这个阶段学习到如何输出分数最高的回答,使得回答更符合人类的偏好。

4. 大模型的特点与分类

4.1. 特点

大模型主要具有以下四个特点:

  1. 规模和参数量大:通过及其庞大规模的参数来捕获复杂的数据模式,使得他们能够理解和生成及其丰富的信息。
  2. 适应性和灵活性强:能够通过微调或少量样本学习,高效地迁移到各种下游任务,有很强的跨域能力。
  3. 广泛数据集的预训练:大模型使用大量多样化的数据进行预训练,以学习广泛的知识表示,能偶掌握语言、图像等数据的通用特征。
  4. 计算资源需求大:巨大的模型规模带来了高昂的计算和资源需求,包括但不限于数据存储、训练时间,能量消耗和硬件设施。

4.2. 局限性

大模型在快速发展的同时也存在明显局限:

  1. 幻觉问题:可能生成看似合理但不准确的内容
  2. 知识时效性:预训练数据截止后无法获取新知识
  3. 推理能力局限:复杂逻辑推理和数学计算仍存在挑战
  4. 伦理风险:可能产生偏见、歧视性内容或被用于生成虚假信息

4.3. 分类

按照应用场景,大模型可以分以下几种:

  • 大语言模型LLM:
  • 多模态大模型(Multimodal Foundation Models):
    • 计算机视觉模型(如CLIP、DALL-E)
    • 音视频理解模型(如Whisper、VideoMAE)
    • 跨模态对齐模型

大语言模型:
这类大模型专注于自然语言处理(NLP),旨在处理语言、文章、对话等自然语言文本。他们基于深度学习架构(如Transformer),通过大规模文本数据集训练而成,能够捕捉语言的复杂性,包括语法、语义、语境以及蕴含的文化和社会知识。
语言大模型典型应用包括文本生成、问答系统、文本分类、机器翻译、对话系统等。比如

  • GPT系列:GPT-3、GPT-4
  • Bard:谷歌的AI对话助手
  • 通义千问: 阿里云的大模型

多模态模型:
多模态大模型能够同时处理和理解来自不同感知通道的数据,比如文本、图像、音频、视频等。并在这些模态之间建立关联和交互。他们能够整合不同类型的输入信息,进行跨模态推理,生成和理解任务。
多模态大模型的应用包括视觉问答、图像生成、跨模态检索、多媒体内容理解等。

5. 大模型的工作流程

5.1. 分词化与词表映射

分词化(Tokenization)是自然语言处理(NLP)中的重要概念,它是将段落和句子分割成更小的分词(token)的过程。

举一个例子:I want to study ACA。
为了让机器理解这个句子,对字符串执行分词化,将其分解成独立的单元:[‘I’ ‘want’ ‘to’ ‘study’ ‘ACA’ ‘.’]

将句子分割成更小的、独立的部分可以帮助计算机理解句子的各个部分,以及它们在上下文中的作用,这对进行大量上下文分析时尤其重要。
分词器有不同的粒度分类:

  • 词粒度(Word-Level Tokenization):如上文所示的例子,适用于大多数西方文字语言。
  • 字粒度(Character-Level):中文中最直接的分词方法,以单个汉字为单位进行分词。
  • 子词粒度(Subword-Level):将单词分解成更小的单位,比如词根、词缀等。这种方法对于处理新词(比如专有名称、网络用语)特别有效,因为即使是新词,其组成部分(子词)很可能已经存在于词表中了。
    每个token都会根据预先设置好的词表,映射为一个token id,这是token的身份证,一句话最终会被表示为一个元素为token id的列表,供计算机进行下一步处理。

现代大语言模型(如GPT系列)主要采用子词分词技术:

  • Byte Pair Encoding (BPE):将常见词组合并为新token
  • WordPiece:BERT使用的变体,优先保留完整单词
  • SentencePiece:支持无空格语言(如中文)的统一分词方案

例如中文处理:

  • 字粒度:[“大”,“模”,“型”]
  • 子词粒度:[“大模型”](作为单个token)
  • 混合方案:[“大”,“模型”](平衡灵活性和效率)

5.2.文本生成过程

大语言模型的工作概括来说,是根据给定的文本预测下一个token。
对我们来说,看似像在对大模型提问,实际上是给了大模型一串提示文本,让它可以对后续的文本进行推理。
大模型的推理过程不是一步到位的,大模型会基于现有的token,根据概率最大原则预测出下一个最有可能的token,然后将该预测的token加入到输入序列中,并将更新后的输入序列继续输入给大模型预测下一个token。这个过程叫做自回归。直到输出特殊token(如<EOS>,end of sentence)或者达到最大长度时,大模型停止预测,返回预测结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1175288.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Unity 与西门子 PLC 联动:打造跨平台工业仿真系统

前言工业自动化领域&#xff0c;传统的设备调试往往依赖真实产线&#xff0c;不仅成本高、周期长&#xff0c;还存在安全风险。随着数字孪生和虚拟仿真技术的发展&#xff0c;越来越多的企业开始尝试在虚拟环境中验证控制逻辑和人机交互流程。Unity 作为一款强大的实时 3D 引擎…

图解说明nmodbus4类库使用教程的入门实践步骤

手把手教你用nmodbus4实现工业通信&#xff1a;从零开始的C# Modbus实战指南在工厂车间、楼宇自控系统或能源监控设备中&#xff0c;你是否曾面对一堆PLC和传感器却不知如何获取数据&#xff1f;当项目要求“读取40001寄存器”时&#xff0c;是不是总觉得像是在破译密码&#x…

语音合成服务治理:CosyVoice-300M Lite限流熔断实战

语音合成服务治理&#xff1a;CosyVoice-300M Lite限流熔断实战 1. 引言&#xff1a;轻量级TTS服务的工程挑战 随着语音交互场景在智能客服、有声阅读、虚拟主播等领域的广泛应用&#xff0c;Text-to-Speech&#xff08;TTS&#xff09;技术正逐步从实验室走向生产环境。然而…

图形化界面设计在上位机软件中的应用

图形化界面如何让上位机“活”起来&#xff1f;——从渲染引擎到动态组态的实战解析你有没有经历过这样的场景&#xff1a;面对一屏密密麻麻的数字和状态码&#xff0c;却完全看不出设备到底是正常运行还是即将报警&#xff1f;又或者&#xff0c;在紧急停机时&#xff0c;操作…

AI读脸术与合规性:GDPR下人脸数据处理的部署建议

AI读脸术与合规性&#xff1a;GDPR下人脸数据处理的部署建议 1. 引言&#xff1a;AI读脸术的技术背景与隐私挑战 随着计算机视觉技术的快速发展&#xff0c;基于深度学习的人脸属性分析已广泛应用于智能安防、零售分析、人机交互等领域。其中&#xff0c;“AI读脸术”作为一项…

Z-Image-Turbo实战指南:免配置云端环境,1小时1块快速验证

Z-Image-Turbo实战指南&#xff1a;免配置云端环境&#xff0c;1小时1块快速验证 你是不是也遇到过这样的困境&#xff1f;作为一家初创团队的技术负责人&#xff0c;老板急着要上线一个“AI个性化头像生成”功能&#xff0c;说是能提升用户活跃度。可你自己心里清楚&#xff…

中小团队如何做内容安全?Qwen3Guard轻量部署教程

中小团队如何做内容安全&#xff1f;Qwen3Guard轻量部署教程 1. 引言&#xff1a;中小团队的内容安全挑战与技术选型 随着互联网应用的快速发展&#xff0c;用户生成内容&#xff08;UGC&#xff09;已成为社交、社区、电商、教育等平台的核心组成部分。然而&#xff0c;随之…

MinerU能否替代人工录入?财务票据识别部署实战验证

MinerU能否替代人工录入&#xff1f;财务票据识别部署实战验证 1. 引言&#xff1a;智能文档理解的现实需求 在企业日常运营中&#xff0c;财务票据处理是一项高频且繁琐的任务。传统的人工录入方式不仅效率低下&#xff0c;还容易因视觉疲劳或人为疏忽导致数据错误。随着AI技…

扔掉 API!Anthropic 带头“开倒车”:为什么 Bash 是 AI Agent 的过渡形态?

看到最近一篇文章里写道&#xff1a;假设一个开发者需要将一个视频文件转换成 GIF。Anthropic觉得不应该去找一个专门的 videoToGif API。他会在命令行里输入 ffmpeg -i input.mp4 output.gif。如果他需要在一个代码库里查找所有包含特定函数调用的文件&#xff0c;他会用 grep…

Qwen3-4B+Stable Diffusion联动:多模态创作云端方案

Qwen3-4BStable Diffusion联动&#xff1a;多模态创作云端方案 你是不是也遇到过这样的问题&#xff1a;想用通义千问3&#xff08;Qwen3&#xff09;写文案、出脚本&#xff0c;再让Stable Diffusion生成配图&#xff0c;打造一套完整的图文内容生产流程&#xff1f;但本地电…

深度剖析USB转485驱动程序下载兼容性问题

USB转485驱动安装为何频频失败&#xff1f;从芯片选型到系统兼容的全链路拆解 你有没有遇到过这样的场景&#xff1a;现场调试时&#xff0c;USB转485一插上电脑毫无反应&#xff1b;设备管理器里显示“未知设备”&#xff0c;或者刚识别出来&#xff0c;过一会儿又掉线了。更…

一套基于 Ant Design 和 Blazor 的企业级组件库

致力于挖掘功能强大、性能优越、创新前沿且简单易用的 C#/.NET 开源框架、项目、类库与工具。助力 .NET 开发者轻松解锁并运用这些实用的宝藏资源&#xff0c;提升开发效率与创新能力&#xff01;项目介绍Ant Design Blazor 是一套基于 Ant Design 和 Blazor 的企业级组件库&am…

如何批量处理音频情绪分析?科哥镜像操作技巧揭秘

如何批量处理音频情绪分析&#xff1f;科哥镜像操作技巧揭秘 1. 引言&#xff1a;语音情感识别的工程挑战与自动化需求 在智能客服、心理评估、人机交互等实际应用场景中&#xff0c;语音情感识别已从单一音频分析逐步演变为大规模数据批处理任务。传统的单文件交互式操作模式…

手把手教你配置Batocera游戏整合包(入门必看)

手把手教你配置Batocera游戏整合包&#xff08;零基础也能上手&#xff09; 你是不是也曾在某个深夜&#xff0c;翻出尘封多年的红白机卡带&#xff0c;却发现主机早已无法开机&#xff1f;又或者看着孩子沉迷于现代3A大作&#xff0c;心里默默怀念那个用方向键闯关的纯粹年代…

周末黑客马拉松:Qwen3-4B+云端GPU,48小时极速开发

周末黑客马拉松&#xff1a;Qwen3-4B云端GPU&#xff0c;48小时极速开发 你是不是也遇到过这样的情况&#xff1f;周末一场黑客松突然来袭&#xff0c;题目一看——“做个智能对话机器人”或者“用大模型生成创意文案”&#xff0c;心里一喜&#xff1a;这题我会&#xff01;但…

IQuest-Coder-V1部署费用高?共享GPU集群优化方案

IQuest-Coder-V1部署费用高&#xff1f;共享GPU集群优化方案 1. 背景与挑战&#xff1a;大模型部署的成本瓶颈 IQuest-Coder-V1-40B-Instruct 是面向软件工程和竞技编程的新一代代码大语言模型。该系列模型在多个权威基准测试中表现卓越&#xff0c;尤其在 SWE-Bench Verifie…

阿里Qwen2.5-0.5B部署指南:中小企业AI解决方案

阿里Qwen2.5-0.5B部署指南&#xff1a;中小企业AI解决方案 1. 背景与技术定位 随着大语言模型在企业级应用中的不断渗透&#xff0c;中小企业对轻量、高效、低成本的AI推理方案需求日益增长。阿里通义千问团队推出的 Qwen2.5-0.5B-Instruct 模型&#xff0c;正是面向这一场景…

GLM-TTS音高控制秘籍:低成本租用GPU深度调参

GLM-TTS音高控制秘籍&#xff1a;低成本租用GPU深度调参 你是不是也遇到过这样的问题&#xff1f;作为一名音乐制作人&#xff0c;想要用AI语音为你的作品配上人声演唱&#xff0c;却发现大多数文本转语音&#xff08;TTS&#xff09;系统生成的声音“平得像念经”&#xff0c…

Hunyuan-MT-7B企业级体验:云端GPU临时扩容应对业务高峰

Hunyuan-MT-7B企业级体验&#xff1a;云端GPU临时扩容应对业务高峰 每年电商大促期间&#xff0c;翻译需求都会迎来爆发式增长——商品详情页要多语言上架、客服系统需支持跨境沟通、营销文案得适配不同地区用户。但问题是&#xff1a;这些高并发的翻译任务只集中在短短几天内…

PaddleOCR-VL自动化方案:云端定时处理文档,月省30小时人工

PaddleOCR-VL自动化方案&#xff1a;云端定时处理文档&#xff0c;月省30小时人工 你是不是也遇到过这样的情况&#xff1f;每天一上班&#xff0c;邮箱里就堆满了几百张扫描单据、发票、合同、报销凭证&#xff0c;一张张手动录入信息&#xff0c;眼睛都快看花了&#xff0c;…