【大模型】大模型分类

大模型(Large Models)通常指参数量巨大、计算能力强大的机器学习模型,尤其在自然语言处理(NLP)、计算机视觉(CV)等领域表现突出。以下是大模型的常见分类方式:

1. 按应用领域分类

  • 自然语言处理(NLP)模型
    如GPT-3、BERT、T5等,主要用于文本生成、翻译、问答等任务。
  • 计算机视觉(CV)模型
    如ResNet、EfficientNet、Vision Transformer (ViT)等,用于图像分类、目标检测等任务。
  • 多模态模型
    如CLIP、DALL·E等,能够同时处理文本和图像等多模态数据。
  • 语音模型
    如WaveNet、Whisper等,用于语音识别、合成等任务。
  • 强化学习模型
    如AlphaGo、AlphaZero等,用于游戏、机器人控制等领域。

2. 按模型架构分类

  • Transformer 模型
    如GPT、BERT、T5等,基于Transformer架构,广泛应用于NLP。
  • 卷积神经网络(CNN)模型
    如ResNet、Inception等,主要用于图像处理。
  • 循环神经网络(RNN)模型
    如LSTM、GRU等,适用于序列数据处理。
  • 生成对抗网络(GAN)模型
    如StyleGAN、BigGAN等,用于图像生成和编辑。
  • 图神经网络(GNN)模型
    如GCN、GAT等,用于图结构数据处理。

3. 按模型规模分类

  • 小型模型
    参数量较少(如数百万到数亿),适合移动设备或实时应用。
  • 中型模型
    参数量在数十亿左右,适合一般企业应用。
  • 大型模型
    参数量达数百亿甚至千亿(如GPT-3、PaLM),适合复杂任务。
  • 超大规模模型
    参数量超过千亿(如GPT-4、Megatron-Turing NLG),需大量计算资源。

4. 按训练方式分类

  • 预训练模型
    如BERT、GPT等,通过大规模数据预训练,可微调以适应特定任务。
  • 微调模型
    在预训练基础上,针对特定任务进行微调。
  • 端到端模型
    直接从输入到输出进行训练,无需预训练。

5. 按开源与闭源分类

  • 开源模型
    如BERT、GPT-2等,代码和权重公开,可自由使用和修改。
  • 闭源模型
    如GPT-3、GPT-4等,仅通过API提供,无法访问内部细节。

6. 按模型功能分类

  • 生成模型
    如GPT、DALL·E等,用于生成文本、图像等内容。
  • 判别模型
    如BERT、ResNet等,用于分类、检测等任务。
  • 多任务模型
    如T5、UniLM等,能够同时处理多种任务。

7. 按模型部署方式分类

  • 云端模型
    如GPT-3、PaLM等,部署在云端,通过API调用。
  • 边缘模型
    如MobileNet、TinyBERT等,部署在边缘设备上,适合低延迟场景。

8. 按模型优化目标分类

  • 通用模型
    如GPT、BERT等,适用于多种任务。
  • 专用模型
    如AlphaFold(蛋白质结构预测)、Codex(代码生成)等,针对特定领域优化。

这些分类方式有助于更好地理解大模型的特点和应用场景。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/71627.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

centos中使用svn整理

centos中使用svn整理 1. 安装 SVN 客户端2. 常见 SVN 用法及示例2.1 创建 SVN 仓库2.2 检出(Checkout)项目2.3 添加文件到版本控制2.4 提交(Commit)更改2.5 更新(Update)本地工作副本2.6 查看文件状态2.7 查…

游戏元宇宙崛起:AI代理IP驱动虚拟世界“无限可能”​

在科技飞速发展的当下,游戏元宇宙正以一种前所未有的姿态崛起,它犹如一颗璀璨的新星,吸引着无数人的目光。而AI代理IP,正成为驱动这个虚拟世界展现“无限可能”的关键力量。 「快代理|11年专注企业级代理IP云服务 —…

基于Servlet + JSP 的物业管理系统

Javaweb物业管理系统|Java|Servlet | JavaWeb|web网站| 分管理员登录,用户登录。 一、内容 项目源码 配套文档 环境部署教程 项目运行教程 二、技术介绍 技术应用: Servlet JavaBean CSS JSP 开发环…

Billing的patient balance的2个例子

Billing的patient balance的2个例子 第一个例子 下面是 0852医院的00005641的计算: 主保险 Allowable: 78.81 Applied:61.79 CoInsurance:17.02 第二保险 Allowable: 15.76 Applied:15.76 我们在计算时是用主保险的Allowable: 78.81&#xff…

哪些培训课程适合学习PostgreSQL中级认证知识?

PostgreSQL 中级工程师 PGCP 认证培训:由重庆思 庄经验丰富的讲师郑全老师授课。课程内容系统全面,涵盖了 PostgreSQL 数据库从基础到高级的知识,包括数据库的安装、建库、用户与角色管理等基础内容,也有性能调优、索引原理与应用…

计算机二级MS之PPT

声明:跟着大猫和小黑学习随便记下一些笔记供大家参考,二级考试之前将持续更新,希望大家二级都能轻轻松松过啦,过了二级的大神也可以在评论区留言给点建议,感谢大家!! 文章目录 考题难点1cm25px…

第5章 使用OSSEC进行监控(网络安全防御实战--蓝军武器库)

网络安全防御实战--蓝军武器库是2020年出版的,已经过去3年时间了,最近利用闲暇时间,抓紧吸收,总的来说,第5章开始进入主机安全(HIDS)领域了,2022年的时候有幸做过终端安全一段时间&a…

Android 低功率蓝牙之BluetoothGattCallback回调方法详解

BluetoothGattCallback 是 Android 中用于处理蓝牙低功耗(BLE)设备通信的核心回调类。它负责处理与 BLE 设备的连接、服务发现、数据读写等操作的结果。以下是对 BluetoothGattCallback 的详细解析: 1. onConnectionStateChange 触发时机&am…

DeepSeek group-limited expert routing和负载均衡

Ref https://github.com/deepseek-ai/DeepSeek-V3/blob/main/inference/model.py GitHub - deepseek-ai/EPLB: Expert Parallelism Load Balancer DeepSeek-V3 Technical Report DeepSeek的路由方法 class Gate(nn.Module):def __init__(self, args: ModelArgs):super().__…

Python的Pandas和matplotlib库:让数据可视化贼简单

在数据爆炸的时代,数据可视化已成为数据分析的关键环节。Python 作为强大的编程语言,拥有众多用于数据可视化的库,而 pandas 库在其中扮演着重要角色。它不仅能高效处理和分析数据,还具备强大的数据可视化功能,让我们轻…

【代码分享】基于IRM和RRT*的无人机路径规划方法详解与Matlab实现

基于IRM和RRT*的无人机路径规划方法详解与Matlab实现 1. IRM与RRT*的概述及优势 IRM(Influence Region Map)通过建模障碍物的影响区域,量化环境中的安全风险,为RRT算法提供启发式引导。RRT(Rapidly-exploring Random…

ubuntu打包 qt 程序,不用每次都用linuxdeployqt打包

用linuxdeployqt打包太麻烦,每次程序编译都要用linuxdeployqt打包一次,而且每次都要很长时间,通过研究得出一个新的打包方法 1.用用linuxdeployqt得出依赖的库文件(只要没有增加新模块,只要用一次就可以) …

Github 2025-03-06 Go开源项目日报 Top10

根据Github Trendings的统计,今日(2025-03-06统计)共有10个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Go项目10Terraform:基础设施即代码的开源工具 创建周期:3626 天开发语言:Go协议类型:OtherStar数量:40393 个Fork数量:9397 次关注人数:…

redis 与 DB 的一致性 7 种策略

为什么要使用 redis 做缓存?封底估算为什么是单行数据的QPS,而不是总的? 什么时候使用DB,Redis,本地缓存 数据的分类一致性的方案1. 先清除Redis,再更新 DB2. 先更新DB,再清除 Redis使用场景: 3. 延迟删除与延迟双删使用场景 4. 监听 binlog 清除5. 双写使用场景: 6. 监听bin…

使用 Elasticsearch 进行集成测试初始化​​数据时的注意事项

作者:来自 Elastic piotrprz 在创建应该使用 Elasticsearch 进行搜索、数据聚合或 BM25/vector/search 的软件时,创建至少少量的集成测试至关重要。虽然 “模拟索引” 看起来很诱人,因为测试甚至可以在几分之一秒内运行,但它们实际…

【selenium工具操作web页面中的下拉框元素 】

使用F12定位下拉框中的元素 使用F12定位下拉框中的元素 1、有一类元素不是直接显示的页面上的,而是需要点击某些其他元素后才会显示在页面上,比如这里的下拉框。 2、这类元素会有一个特点:鼠标如果移开(没在元素上),这些元素就会…

C++ set map 详解

文章目录 1. 容器2. set和multiset2.1 set2.1.1 构造函数2.1.2 insert和erase2.1.2.1 insert2.1.2.2 erase 2.1.3 查找和访问2.1.3.1 set迭代器相关2.1.3.2 find && count2.1.3.3 范围查找 2.2 multiset2.2.1 insert和erase2.2.2 find和count 2.3 set和multiset的在算法…

Unity网络开发基础 (2) 网络协议基础

本文章不作任何商业用途 仅作学习与交流 部分图片来自Unity唐老师 目录 1.虚拟模型 2.实际模型 TCP/IP 3.传输层协议 TCP/UDP TCP 协议详解 1. 核心机制 2. 头部格式(20 字节最小) UDP 协议详解 1. 核心特点 2. 头部格式(固定 8 字节…

HTML label 标签使用

点击 <label> 标签通常会使与之关联的表单控件获得焦点或被激活。 通过正确使用 <label> 标签&#xff0c;可以使表单更加友好和易于使用&#xff0c;同时提高整体的可访问性。 基本用法 <label> 标签通过 for 属性与 id 为 username 的 <input> 元素…

JDBC、MyBatis 、MyBatis-Plus面试总结(一)

以下为你整理了一些 MyBatis 和 MyBatis-Plus 中 mapper.xml 相关的常见面试问题及答案&#xff1a; 基础概念类 问题 1&#xff1a;什么是 mapper.xml 文件&#xff0c;它在 MyBatis 中有什么作用&#xff1f; 答案&#xff1a;mapper.xml 文件是 MyBatis 中用于定义 SQL 语…