ChatGPT需要什么资源?

在ChatGPT走红之后,国内有很多的媒体和人一下子慌了神。特别是自媒体上,铺天盖地的都是说“为什么中国没有诞生ChatGPT”、“美国将要爆发一场新的技术革命”之类的文章。很多的一些研究机构和企业都宣称,我们马上就要推出自己的ChatGPT了。还有很多人觉得,ChatGPT给自己带来了新机会。(嘲讽)

但是,实际上,要实现一个ChatGPT既不必要,也不可能。为什么呢?不必要性,我们后面会慢慢展开讲。这一讲,先来谈谈不可能性。

我们前面讲到,ChatGPT的核心是语言模型,而语言模型是需要用大量的数据来训练的,有了数据后,还需要强大的算力支持,然后还需要有足够高水平的并行计算和机器学习的算法支持。数据、算力、算法三道坎,只有极少的互联网超级大厂能够越过去。

接下来我们分别从数据、算力和算法这三个方面来看看。

  1. 首先,数据是训练语言模型的首要资源。之前的Google训练自动问答的模型时,就用到了互联网上能找到的几乎所有高质量的数据,而现在的ChatGPT所用的数据量是极其庞大的,包括自媒体和社交网络上的数据。但是并不是每个企业都能得到所有这些数据,所以在这一点上就存在限制。

  1. 其次,是算力。训练语言模型需要强大的算力支持,这包括数据处理和训练过程。算力的需求在不断增加,即使使用了大量GPU等硬件,所需的计算资源也非常庞大,超过了大多数企业的能力范围。

早期的语言模型算法非常简单,主要是基于文本的统计和简单数学公式,用于计算词在不同上下文条件下的概率,并预先保存这些信息。然而,随着人们意识到简单统计无法覆盖所有语言现象,尤其是之前未见过的现象,开始着手深度挖掘语言中的语法和语义信息,这需要更大的计算量。

具体来说,计算量需要增加100万倍到1亿倍是合理的估计。虽然摩尔定律让计算成本逐渐下降,但人工智能的要求和所需算力不断提高,算力始终是一个瓶颈。

为了开发复杂的语言模型,研究者们甚至争取到了美国国家科学基金会(NSF)和美国国防部的经费支持,并获得了大量超级服务器的帮助。今天的ChatGPT采用的语言模型参数数量是早期模型的10万倍,比Google构建的模型大了1000倍。开发它所需的算力甚至可能是上百亿倍。

例如,开发GPT-3时,公司OpenAI的硬件成本超过了一亿美元,使用了约10万个GPU,提供超100PFLOPS(PFLOPS每秒所执行的浮点运算次数)的算力。这样的资源投入使得它可以为用户提供高质量的服务,但近期还不得不关闭付费用户的注册,以节约计算资源。而GPT-4的开发则需要更多的计算资源,包括使用了微软云计算的大量计算资源。

总之,训练语言模型需要强大的算力,这是ChatGPT成功的关键部分。

  1. 最后,我们来看算法。算力固然重要,但只有有配套的优质算法,才能发挥算力的作用。现今深度学习等算法已经是智能化数据中心的标配,而训练语言模型所需的机器学习算法十分复杂。除了算力,基础的自然语言处理技术也是实现ChatGPT的必要条件。

最直观的例子,你想让计算机回答问题,至少要让它懂得问题。你要想让它从上千亿的文本中知道哪些可能是答案,需要做到问题和答案的匹配。这个工作不是一年半载就能完成的。

今天,很多机器学习的算法已经开源了,有些应用已经有公司和研究机构投入科研力量开发过,比如基本的图形识别和语音识别技术,但是深度的自然语言理解其实还不属于这个范畴。在这些领域所具有的技术积累,其实也是一种资源。

有一些公司和研究机构在这个领域长期投入,拥有技术积累,比如:Google、微软,中国的百度、字节跳动等,它们或许能在较短时间内做出类似ChatGPT的产品。但是对于没有足够技术资源的人来说,跟风ChatGPT很可能是无知者无畏或纯粹的炒作。

今天,训练语言模型用到的机器学习算法要复杂很多。

2010年的时候,Google推出了一个基于云计算平台深度学习的工具——Google大脑。采用这个工具,语言模型的效果可以大幅提升,在其它条件不变的情况下,语音识别和机器翻译的相对错误率可以降低10%以上。深度学习的基本算法和支持它的基础架构,已经是智能化的数据中心,有些地方也称之为“智算平台”的标配。如果只是用一个由处理器,包括GPU,堆砌起来的数据中心训练语言模型,得到的结果会差很多。

综上所述,训练语言模型的三个限制分别是数据、算力和算法。所以,要实现一个ChatGPT,并不是简单的事情,需要巨大的资源支持。而对于一般企业或个人来说,可能并不具备这些条件,所以盲目跟风可能并不明智。

总结一下:训练语言模型的三个限制,分别是数据、算力和算法:

1、数据:训练语言模型所需的数据量是极其庞大的。不是每个企业都能得到所有的这些数据。

2、算力:随着时间的推移,人们对人工智能的要求也在不断提高,需要的算力也在不断增加。

3、算法:除了算力之外,基础的自然语言处理技术,也就是算法,也是实现ChatGPT这些产品必不可少的条件。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/701819.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

@ 代码随想录算法训练营第8周(C语言)|Day59(动态规划)

代码随想录算法训练营第8周(C语言)|Day59(动态规划) Day59、动态规划(包含题目 ● 583. 两个字符串的删除操作 ● 72. 编辑距离 ) 583. 两个字符串的删除操作 题目描述 给定两个单词 word1 和 word2&am…

Spring Cloud Gateway官方文档学习

文章目录 推荐写在前面一、熟悉Gateway基本概念与原理1、三大概念2、工作流程 二、基本使用路由断言的两种写法 三、路由断言工厂1、After路由断言工厂2、Before路由断言工厂3、Between路由断言工厂4、Cookie路由断言工厂5、Header路由断言工厂6、Host路由断言工厂7、Method路由…

如何远离原生家庭并与原生家庭相处

1、绝不主动联系。 2、任何辩理立即停止,即使你是对的。 3、绝不做任何取悦父母、感动父母的事。 4、只负责父母病了给他们送医院,得到应有的治疗。其他的和你无关。 5、遭遇道德绑架立即挂电话,立即离场,立即拉黑,绝不…

静态时序分析:SDC约束命令set_drive详解

相关阅读 静态时序分析https://blog.csdn.net/weixin_45791458/category_12567571.html 目录 指定电阻值 指定端口列表 简单使用 指定上升、下降沿 指定最大最小、条件 写在最后 本章将讨论使用set_drive命令,它用于对输入端口的驱动能力建模。首先需要说明的…

XXXX系统等级保护定级报告

XXXX系统等级保护定级报告 *标红内容为样例文本,请根据实际填写替换,非重要系统一般级别为一级 一、信息系统描述 对系统功能、运维方式、部署方式进行描述。 二、XX系统安全保护等级确定 (一)业务信息安全保护等级的确定 1、业务信息描…

130 如何通过vs2017开发linux c++程序

使用VS2017开发linux下的应用程序(C/C)_vc_linux.exe vs2017-CSDN博客 参考上面这哥们的,写的很详细 前言 本文章记录如何使用VS2017进行linux应用程序的开发(针对新手小白),VS2017能较为方便的通过SSH编辑…

基于回归支持向量机svr的确诊人数预测,基于lstm的确诊人数预测,基于bilstm的确诊人数预测,基于ga-lstm-svr的确诊人数预测

目录 背影 摘要 LSTM的基本定义 LSTM实现的步骤 基于lstm的确诊人数预测,基于bilstm的确诊人数预测 完整代码: 基于svr的确诊人数预测,基于lstm的确诊人数预测,基于bilstm的确诊人数预测,基于ga-lstm-svr的确诊人数预资源-CSDN文库 https://download.csdn.net/download/ab…

python中name=‘main’的理解

1、__name__的理解 Python解释器在导入模块时,会将模块中没有缩进的代码全部顺序执行一遍(模块就是一个独立的Python文件)。开发人员通常会在模块下方增加一些测试代码,为了避免这些测试代码在模块被导入后执行,可以利…

公司数据迁移,服务器小文件多复制慢解决方案

企业普遍面临一个挑战:如何高效地处理和移动大量的小型文件。这些文件虽然单个体积不大,但数量庞大,累积起来会占据极大的存储空间,而且在迁移过程中,复制这些文件的速度往往非常缓慢。这不仅影响了企业的运营效率&…

10-pytorch-完整模型训练

b站小土堆pytorch教程学习笔记 一、从零开始构建自己的神经网络 1.模型构建 #准备数据集 import torch import torchvision from torch.utils.tensorboard import SummaryWriterfrom model import * from torch.utils.data import DataLoadertrain_datatorchvision.datasets.…

如何运用Mybatis Genertor

MyBatis Generator是一个MyBatis的代码生成器,它可以帮助我们快速生成Mapper接口以及对应的XML文件和模型类。在Java开发中,能大大提升开发效率。本文将介绍如何在IntelliJ IDEA中使用MyBatis Generator。 1. 添加MyBatis Generator依赖 我们首先需要在…

计网 - 深入理解HTTPS:加密技术的背后

文章目录 Pre发展历史Http VS HttpsHTTPS 解决了 HTTP 的哪些问题HTTPS是如何解决上述三个风险的混合加密摘要算法 数字签名数字证书 Pre PKI - 数字签名与数字证书 PKI - 借助Nginx 实现Https 服务端单向认证、服务端客户端双向认证 发展历史 HTTP(超文本传输协…

《凤凰架构》-本地事务章节 读书笔记

1、写锁又名排它锁,写锁禁止其他事务施加读锁和写锁,而不禁止其他事务读取数据(如果遇到了个不加任何锁的另一个事务2,写锁是无法阻止事务2读取数据的),这就是读未提交隔离级别中的脏读问题产生的根因。 2…

vue3语法笔记

定义变量 ref reactive toRefs let presonreactive({name:zhangsan,age:19 })//直接解构不是响应式,需要加toRefs let {name,age}toRefs(preson)toRef let presonreactive({name:zhangsan,age:19 })变成响应式 let nametoRef(preson,name) console.log(name.valu…

代码随想录算法训练营第二十五天补|216.组合总和III ● 17.电话号码的字母组合

组合问题:集合内元素的组合,不同集合内元素的组合 回溯模板伪代码 void backtracking(参数) {if (终止条件) {存放结果;return;}for (选择:本层集合中元素(树中节点孩子的数量就是集合的大小)) {处理节点;backtrackin…

人工智能绘画的时代下到底是谁在主导,是人类的想象力,还是AI的创造力?

#ai作画 目录 一.AI绘画的概念 1. 数据集准备: 2. 模型训练: 3. 生成绘画: 二.AI绘画的应用领域 三.AI绘画的发展 四.AI绘画背后的技术剖析 1.AI绘画的底层原理 2.主流模型的发展趋势 2.1VAE — 伊始之门 2.2GAN 2.2.1GAN相较于…

深度学习系列60: 大模型文本理解和生成概述

参考网络课程:https://www.bilibili.com/video/BV1UG411p7zv/?p98&spm_id_frompageDriver&vd_source3eeaf9c562508b013fa950114d4b0990 1. 概述 包含理解和分类两大类问题,对应的就是BERT和GPT两大类模型;而交叉领域则对应T5 2.…

【C++精简版回顾】9.static

1.static修饰成员类型 1.类外初始化&#xff0c;初始化时不需要static修饰(不能修饰)&#xff0c;要有类名限定 2.静态成员是属于类的&#xff0c;全对象公有 1.class class MM { public:MM(string name) {size;a size;this->name name;}void print() {cout << &quo…

瑞_23种设计模式_桥接模式

文章目录 1 桥接模式&#xff08;Bridge Pattern&#xff09;1.1 介绍1.2 概述1.3 桥接模式的结构 2 案例一2.1 需求2.2 代码实现 3 案例二2.1 需求2.1 代码实现 &#x1f64a; 前言&#xff1a;本文章为瑞_系列专栏之《23种设计模式》的桥接模式篇。本文中的部分图和概念等资料…

【MySQL】连接查询和自连接的学习和总结

&#x1f308;个人主页: Aileen_0v0 &#x1f525;热门专栏: 华为鸿蒙系统学习|计算机网络|数据结构与算法 ​&#x1f4ab;个人格言:“没有罗马,那就自己创造罗马~” #mermaid-svg-x4sPmqTXA4yupW1n {font-family:"trebuchet ms",verdana,arial,sans-serif;font-siz…