Meta基础设施演进与AI技术革命

news/2025/10/1 15:09:25/文章来源:https://www.cnblogs.com/qife122/p/19122454

Meta基础设施演进与AI时代

在过去的21年里,Meta从连接美国少数大学几千人的小型社交网络,发展成为服务全球超过34亿人的多个应用和新型硬件产品。我们的基础设施经历了显著演进,从几个托管设施中的小型服务器上的少量软件系统,发展成为庞大的全球网络化运营。

基础设施堆栈扩展(2004-2010年)

早期阶段,我们的工程工作重点在于扩展软件堆栈。当Facebook从哈佛扩展到其他大学时,每个大学都有自己的数据库。登录Facebook的学生会连接到一组公共Web服务器,这些服务器再将每个学生连接到其大学的数据库。

随着Facebook从大学扩展到高中,再到普通公众,我们平台上的用户数量急剧增加。我们通过扩展Memcache部署来管理数据库负载,然后构建了全新的软件系统,如TAO社交图,以及一系列新的缓存和數據管理系统。我们还为News Feed开发了新的排名服务,以及用于分享照片和视频的照片服务。

当扩展到欧洲时,我们开始扩展物理基础设施,从湾区的托管设施扩展到弗吉尼亚州阿什本的托管设施,同时我们在俄勒冈州普赖恩维尔和北卡罗来纳州森林城建立了首批数据中心。

随着物理基础设施扩展到多个数据中心,我们遇到了两个新问题:连接分布在美国和欧洲的用户到我们的数据中心,以及在每个数据中心复制整个软件堆栈。这促使我们构建了高带宽、多路径的主干网络来互连数据中心。

扩展挑战(2010-2020年)

构建全球基础设施带来了计算机科学的所有复杂边界情况。

缓存一致性
我们需要解决缓存一致性问题。用户会收到被标记在照片中的通知,但看不到照片,或者聊天线程中的消息顺序错乱。我们通过构建新的软件系统来提供缓存失效,最终为分布式系统构建了一致性API。

集群管理
随着新增数据中心区域和机器规模扩大,我们开发了新的抽象来管理它们,包括:

  • Twine:可扩展至管理数据中心区域数百万台机器的集群管理系统
  • Tectonic:数据中心规模的分布式文件系统
  • ZippyDB:强一致性分布式键值存储
  • Shard Manager:管理数千万个数据分片的全局系统
  • Delos:全球基础设施的新控制平面
  • Service Router:管理我们的全局服务网格

硬件故障屏蔽
更多机器意味着更高的故障可能性。我们构建了新系统来确保向用户屏蔽故障:

  • Kraken:利用实时流量负载测试识别和解决资源利用率瓶颈
  • Taiji:管理用户流量负载均衡
  • Maelstrom:安全高效处理数据中心规模的灾难,同时最小化用户影响

AI工作负载登场(2020年)

GPU的出现
我们在2010年代末首次遇到AI引发的基础设施挑战,当时短视频变得非常流行。个性化推荐需要理解平台上的所有视频,并为每个人挑选感兴趣的视频,这与之前基于社区兴趣的内容排名截然不同。

GPU和AI加速器进入视野。与主要是加载-存储机器的CPU不同,GPU是向量和矩阵处理机器,可以执行比CPU多几个数量级的计算。我们可以构建嵌入,将每个视频表示为数字向量,在低维空间中捕获视频的上下文,使语义上相似的内容彼此靠近。

AI集群是由数百甚至数千个极其强大的GPU组成的高性能计算系统,具有充足的内存,通过高带宽、低延迟网络互连,并配有定制软件堆栈以榨取系统最大性能。我们最初的AI集群互连了4k GPU,用于训练排名和推荐模型。

大语言模型的兴起(2022年)

当我们开始训练LLM时,情况迅速改变。LLM需要显著更多的计算容量,我们在几周内将训练任务规模从128个GPU扩展到2k,然后到4k GPU。

我们首次定期处理需要数千个GPU同步运行的训练任务。任何一个落后的GPU都会拖累整个集群的性能。通过与行业和合作伙伴的合作,我们将中断率降低了约50倍。

加速GPU规模和AI基础设施(2023年)

我们设计了一个使用数据中心建筑所有可用电力的集群,这导致我们在2023年底构建了两个各含24k H100的集群,一个使用Infiniband,另一个使用RoCE。

通过清空五个生产数据中心,我们能够在几个月内构建一个包含129k H100 GPU的单一AI集群!

效率挑战
我们的AI工作负载不是同质的。在我们的应用上提供个性化用户体验的排名和推荐模型与LLM有不同的需求。LLM本身也在快速发展。

Meta训练和推理加速器(MTIA)

我们大力投资开发自己的芯片。Meta训练和推理加速器(MTIA)针对我们的排名和推荐推理工作负载进行了优化。该芯片现已大规模部署在我们的数据中心,主要服务于广告工作负载,并为我们带来了比供应商芯片巨大的效率优势。

MTIA v2将为我们的排名和推荐广告模型提供动力。

先进封装技术的需求

晶体管缩放速度跟不上性能需求。目前,光罩尺寸限制在830 mm²,这意味着如果需要比单个芯片更高的性能,唯一选择是投资更多芯片。

内存解聚解决方案投资

推理模型、测试时推理和强化学习的兴起都给内存子系统带来了额外压力。我们开始将高带宽内存(HBM)堆叠在计算小芯片旁边以最大化I/O带宽。

硅光子的案例

硅光子学具有一系列优势,例如允许在更远距离上进行更快信号传输,可以显著降低机架的整体功耗。

开放标准在扩展AI中的作用

虽然硬件扩散提供了选项,但它们也为超大规模厂商、云运营商以及硬件和软件开发人员带来了管理挑战。

这里需要的是开放标准、开放权重模型和开源软件。像PyTorch和Triton这样的开源软件可以通过为机器学习开发人员和研究人员提供一致的编程接口来提供帮助。

下一阶段(2026年及以后)

在Meta,我们的目标是构建能够提供最佳、最具吸引力的体验的模型,并作为每天使用我们产品的数十亿人的个人助手。

构建这种复杂模型的基础设施意味着积极应对整个数据中心的挑战——从先进封装、热管理、电力输送到内存解聚,同时通过光学实现可扩展网络。

我们的下一个AI集群Prometheus将是一个1吉瓦的集群,横跨多个数据中心建筑。构建Prometheus是一项巨大的工程壮举,基础设施横跨单个数据中心区域中的五个或更多数据中心建筑。

我们还有一个更大的集群Hyperion,预计从2028年开始上线。一旦完成,Hyperion集群将能够扩展到5吉瓦的容量。

我们仍处于AI工作负载演进和采用的早期阶段。过去几年很忙碌,但未来几年将以更快的速度发展。AI对硬件的要求没有放缓的迹象。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/923964.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

完整教程:Spring AI整合聊天模型DeepSeek

完整教程:Spring AI整合聊天模型DeepSeekpre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "…

2025 年焚烧炉厂家 TOP 企业品牌推荐排行榜!权威甄选实力与口碑俱佳的江苏焚烧炉 / 无锡焚烧炉推荐这十家公司!

随着工业领域的快速发展,危险废物、工业废弃物的产生量持续增加,焚烧炉作为实现废弃物减量化、无害化处理的关键设备,其市场需求不断攀升。但当前焚烧炉行业面临诸多问题,部分厂家缺乏核心技术,设备排放难以达到环…

2025 年防腐涂料厂家 TOP 企业品牌推荐排行榜,乙烯基、环氧煤沥青、环氧防腐涂料、防腐涂料地坪 、防腐涂料水池推荐这十家公司!

在当前工业生产、建筑工程、石油化工等众多领域,防腐涂料扮演着至关重要的角色,它能有效延长设施设备的使用寿命,降低维护成本。然而,如今防腐涂料行业市场鱼龙混杂,产品质量参差不齐,不同品牌的技术水平、产品性…

Mysql DBA学习笔记(主从复制) - 实践

Mysql DBA学习笔记(主从复制) - 实践pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Mon…

网站中文章内图片做超链接wordpress微信登录页面模板

日志只有这一行,比较难排查 排查途径: 1、从上图找到唯一的文件输出output.js,断点查看堆栈信息,如下图,可以看到这个错误是由于哪个文件引起的 以为从App.vue中定位到原因了,其实也不对,继续…

百度注册网站网站字体大小合适

文章目录 Redis主从部署1.下载安装Redis2.单点双副本主从配置1.修改配置信息2.修改配置文件redis.conf3.拷贝配置文件到每一个实例文件夹里4.修改每一个实例的端口和工作目录5.配置主从关系6.检查效果 3.哨兵模式监控主从1.创建实例目录2.复制配置文件并进行修改3.启动并测试 4…

2025双氧水厂家权威推荐榜:优质供应与专业定制实力之选

2025双氧水厂家权威推荐榜:优质供应与专业定制实力之选 在当今精细化工与工业制造领域,双氧水作为重要的基础化学品,其品质稳定性和供应专业性直接影响着下游产业的生产效率与产品质量。随着环保要求的日益严格和应…

Win环境下包管理工具

目录1 Win下包管理工具1.1 简介1.2 winget1.2.1 简介1.2.2 操作使用1.2.3 安装指定盘1.2.4 软件源来源&加速1.2.4.1 软件源1.2.4.2 加速1.3 Scoop1.3.1 简介1.3.2 操作&安装1.3.3 常用命令1.3.4 软件源来源&am…

那个公司做网站制作图

基站即公用移动通信基站,是无线电台站的一种形式,是指在一定的无线电覆盖区中,通过移动通信交换中心,与移动电话终端之间进行信息传递的无线电收发信电台。 目前,在 5G时代 ,“ 宏基站 为主, 小…

VRNN论文总结 - 指南

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

西安市做网站公司网站设计的内容有哪些

一、项目介绍 系统管理员的功能概述: ①用户管理 a.注册用户账户 当一个新用户注册时,用户填写基本信息并上传。用户基本信息包括账号、 姓名、密码、手机、地址等信息。 b.用户信息管理 管理员可以查看系统所有用户的基本信息,并修改和…

清华建设工程有限公司公司网站wordpress the date

服务器和电脑传文件夹吗 内容精选换一换Model File:模型文件。单击右侧的文件夹图标,在后台服务器sample所在路径(工程目录/run/out/test_data/resnet-18/model)选择需要转化的模型对应的*.prototxt文件,并上传。Weight File:权重文件。请自行从https://…

网页标准化对网站开发维护的好处文化网站建设需要的功能

优美的应用体验 来自于细节的处理,更源自于码农的自我要求与努力,当然也需要码农年轻灵活的思维。本文章实现的Demo效果,如下图所示:class HeroHomePage extends StatefulWidget { override _TestPageState createState() > …

深入解析:Social-Auto-Upload - 多平台社交媒体视频自动化上传工具

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

MX Round 11 解题报告

MX Round 11 解题报告 T1 水题,直接枚举计算即可。 T2 场切了,很爽!!! 因为操作是可以被覆盖的,所以考虑倒序考虑操作:一个位置一旦有了数,就再也不会变了。 然后我们考虑:有数的位置一定是一段连续的区间。这…

用 C# 打造企业资产管理系统雏形——从控制台到完整模块设计 - 详解

用 C# 打造企业资产管理系统雏形——从控制台到完整模块设计 - 详解pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: &quo…

青岛网站设计流程做网站的说3年3年包括什么

大家好,我是 🐟💨。前天,星球 的一位大学生朋友问了我几个问题:你大学时如何安排每日的时间?为什么能学那么多技术?你会学习到很晚吗?你是如何保持自律的?我觉得这几个问…

html5 网站设计网站模板 山

申请该结构体数组,容量为5,初始化5个学生的信息 使用fprintf将数组中的5个学生信息,保存到文件中去 下一次程序运行的时候,使用fscanf,将文件中的5个学生信息,写入(加载)到数组中去,并直接输出学…

java开发之微信机器人的二次开发

java开发之微信机器人的二次开发个微API服务能处理用户微信中的各种事件,并辅助微信执行各种操作,提供了开发者与个人号对接的能力,是一款基于微信提供的个人号开放性API,使用简单,操作快捷,支持多种微信方式接入…

10.1刷题计划一

力扣33题 搜索旋转排序数组 设x=nums[mid]是我们现在二分取到的数,需要判断x和target的位置关系。 (1)如果x和target在不同的递增段: 1.如果target在第一段,x在第二段,说明target在x在左边。 2.如果x在第一段,…