美妆网站怎么做鞍山做网站企业
news/
2025/9/23 7:28:22/
文章来源:
美妆网站怎么做,鞍山做网站企业,山东省交通厅建设网站首页,wordpress 最简单皮肤如果把大模型训练比作 F1 比赛#xff0c;长凡所在的团队就是造车的人#xff0c;也是在比赛现场给赛车换轮子的人。1% 的训练提速#xff0c;或者几秒之差的故障恢复时间#xff0c;累积起来#xff0c;都能影响到几百万的成本。长凡说#xff1a;“大模型起来的时候长凡所在的团队就是造车的人也是在比赛现场给赛车换轮子的人。1% 的训练提速或者几秒之差的故障恢复时间累积起来都能影响到几百万的成本。长凡说“大模型起来的时候我们非常兴奋因为 DLRover 天生就是为大模型训练的场景设计的。”
目前业界普遍认为数据、算力、算法是大模型训练的三大核心要素AI 工程的价值似乎还没有得到足够的重视我们和蚂蚁 DLRover 开源负责人长凡深入聊了聊聊到了他为何在大模型出现前就选择了 AI Infra 的赛道他参与开源的经历也聊了 DLRover 诞生背后的故事。
AI Infra开源 一个通信毕业生的非主流选择
毕业于盛产程序员的北京邮电大学虽然本科和研究生专业都是通信相关的但长凡还是机缘巧合迈入了 AI 的大门如果你也走在职业发展的路口或许长凡的故事也能给你带来启发。
Q首先请介绍下自己为什么会选择在蚂蚁做 AI Infra 方面的工作
长凡 我本科在北交大的理科实验班研究生在北邮做 5G 移动通信的研究。大四的时候我去了中国移动研究院实习做机器学习在医疗领域的应用探索算是入门了大数据和机器学习。我自己对概率统计和编程也比较感兴趣发现自己所学的知识可以解决真实问题了。后来在研究生期间课余时间会打打 Kaggle 比赛边实践边学习。
毕业之前我来蚂蚁做暑期实习做 ML Infra 相关的项目。相比打 Kaggle 用算法解决具体业务问题Infra 的工作能帮助更多的同学来用 ML 解决更多的问题。再加上蚂蚁在大力发展 AI我所在的蚂蚁人工智能部有很多 AI 方向的资深技术大拿所以我毕业后选择了留在蚂蚁。
ChatGPT 出来后大模型一下子火了大模型相比之前的 AI 训练对 Infra 的需求要高得多对我们做 Infra 的是一个非常大的机遇。大模型训练和推理的成本非常高Infra 在提升效率和降低成本上大有可为。
Q是什么契机让你开始参与开源的参与开源对你的职业道路产生了哪些影响
长凡 在蚂蚁工作一年后我加入到 ElasticDL 团队跟着王益老师原百度 PaddlePaddle 技术负责人一起做开源项目。在开发 ElasticDL 过程中王益老师教会了我很多开源思想、开源工作方式和开发习惯。比如新功能需要先写设计文档然后拆解成 issue最后是开发测试PR 要尽量小小 PR 可以降低 Review 成本代码质量需要有工具来保障等等。
这段经历对我现在做 DLRover 帮助很大。在 DLRover 项目刚启动时我就在代码仓库了设置了很多代码质量相关的检测比如 DLRover 的代码 CI 覆盖率约 80%。后来张科老师接手带领 ElasticDL一直给我们强调开放合作。这也使得我在主导 DLRover 的开源过程中对架构设计更加开放。这里说的开放不仅仅指使开源的开放代码更多的是指我们的架构和接口设计的开放以便让更多的人能进来扩展相关功能满足各自的业务需求。比如我们的故障机检测功能当前支持 NVIDIA GPU 和 Ascend NPU如果用户在其他的芯片上训练可以自定义检测脚本。
Q随着大模型的兴起许多技术人也感受到了前所未有的挑战。作为 AI Infra 领域的架构师 你如何评估大型模型或 AI 对传统技术架构师的影响针对当前的技术趋势你对于这些架构师有哪些建议
长凡 大模型或者 AI 将会改变我们的产品形态和业务模式而且很多创新可能都是当前看不到或者很难预料的。作为技术架构师我们的目标其实很简单利用技术帮助业务发展。我觉得最好的方式就是从业务中来到业务中去。比如我们做 AI Infra 的经常和训练算法同学一起盯着训练作业review 训练代码并分析训练性能这样从中发现很多训练对 Infra 的实际需求。然后将这些需求抽象出来利用自己的技术经验来设计项目解决业务问题。
随着大模型技术的发展不管是对计算、存储等硬件领域还是对训练框架、分布式系统等软件领域对于 AI Infra 的架构师都有非常大的需求。如果想从事 AI Infra 领域可以结合自前的经验深入到 AI 应用中去一定能做出成果。
DLRover发展靠机遇持续发展靠技术判断力
时间拉回到 2022 年 9 月DLRover 刚刚开源那时深度学习的训练基本都是在单机多卡上完成的作为一个分布式训练的智能调度系统DLRover 的功能似乎有些过于强大就好像开了一辆百米加速的超跑来上下班。
DLRover 的容错和弹性扩缩容在单机多卡的训练上几乎没有用武之地团队也很迷茫是否要针对 GPU 训练做优化所以当 2022 年底ChatGPT 在全球引起广泛关注的的时候大规模分布式训练是大模型训练的刚需长凡一下子就兴奋了。
QDLRover是如何诞生的发展历程中有哪些关键的转折点或者故事
长凡 DLRover 脱胎于蚂蚁内部的一个项目主要利用容错和弹性扩缩容来提升搜推广训练的速度和资源利用率。2022 年 7 月该功能上线后集群资源利用率提升了快一倍训练时间也缩短了约 20%。基于自动扩缩容我们就想让用户只写模型代码系统能自动地将模型在集群上高效、稳定地和经济地训练出来从而大幅降低分布式训练的门槛和运维成本。基于这个愿景我们在 2023 年 3 月开源了项目并取名 DLRoverRover 代表火星车我们把 DL 训练作为火星车的乘客DLRover 这个火星车的目的就是快速、稳定、节能地将 DL 训练这位乘客送到目的地即训练出模型。
DLRover 刚开源的时候发布了 CPU 集群上 TensorFlow 异步分布式训练的自动资源配置与自动扩缩容该功能可以将算法工程师从作业资源调优上解脱出来。但是发布后社区反响一般主要原因是搜推广的训练已经比较成熟了业界也主要在关注 GPU 训练。为此我们内部也在讨论要不要在 GPU 训练上做点东西。但那时 GPU 训练主要还是 CV 和 NLP 领域以单机多卡为主DLRover 的容错和弹性扩缩容好像在单机多卡 GPU 训练上没有用武之地。
正在我们迷茫时2023 年初大模型火了。因为 GPU 本身的故障率较高大规模训练经常因为故障而中断严重影响了大模型训练的进度和集群的利用率。所以 DLRover 在 2023 年的重点方向就是降低故障对训练的影响。后来DLRover 针对大规模分布式训练的场景发布了故障自愈功能该功能吸引了很多大模型训练的同学也吸引了很多国产 AI 芯片的公司的关注。
QDLRover 为什么选择开源
长凡 DLRover 面向的用户主要使用的是开源技术比如 TensorFlow 和 PyTorch 等训练框架Kubernetes 和 Ray 等分布式集群调度系统。开源可以让我们接触到领域里更多的同行扩宽我们的视野。当前很多公司都在做 AI 训练大家面临的场景和问题可能都不一样。通过开源交流我们可以对 AI 训练所面临的问题与挑战有更全面的了解社区提出来的问题未来我们也可能会遇到。我们希望 DLRover 不仅能满足蚂蚁内部大模型训练的需求也能满足整个社区的普遍需求。
Q如果内部需求和社区需求不一致怎么办
长凡 这其实是开源项目经常会遇到的问题我觉得首先要有技术判断力判断这个需求是不是一个普遍需求公司未来是不是也可能用得到。比如以前我们认为跑大模型训练大多都用英伟达的 GPU 卡但现在社区开始提出希望我们适配国产芯片的需求很多国产芯片的公司也来找我们交流也就是很多人已经开始在国产芯片上去跑训练了这就是对我认知的一个刷新。如果我们未来买不到 GPU 了或者国产芯片能达到更好的效果了我们已经提前做了国产芯片的支持那这个需求就可以直接上了。
现在很多流行的开源项目以前 Star 数可能是线性增长在大模型出来之后是指数增长。就是因为他们两年前就觉得这个事情是一个正确的方向坚持在做然后机遇一来他们就起来了。 Q开源社区在 DLRover 的发展过程中扮演着怎样的角色有没有一些特别令你印象深刻的社区贡献者或者故事
长凡 开源社区给 DLRover 贡献了很多非常好的思路和有价值的需求。比如 DLRover 的 Flash Checkpoint 功能发布后社区同学的试用帮我们发现了一些没有测试的 corner case这帮助我们提高了 DLRover 的产品质量。还有我们最近吸引了很多国产 AI 芯片公司的关注社区也提出将我们的训练故障自愈扩展到国产芯片的意愿这些都是来自一线从业同学的真实声音是我们发展 DLRover 的宝贵源泉和动力。
未来展望帮助用户高效、稳定地训练模型
提到对项目未来的规划时长凡说“我们希望 DLRover 能帮助用户解决问题高效、稳定地训练模型。”也希望有更多对 AI 工程感兴趣的开发者能加入到 DLRover 项目一起推进 AI Infra 领域的发展。
Q目前还有哪些项目也在做类似的事情吗和 DLRover 相比有什么不同
长凡 分布式训练的弹性容错一直是开源社区在探索的比如 TorchElastic 和 Elastic Horovod 解决了训练框架的弹性与容错。大模型出来之前大家训练 NLP 或者 CV 模型主要还是单机或者小规模的集群。小规模训练因为使用的节点少故障率较低对弹性容错需求不大。大模型训练一下将训练规模扩大到几百上千卡故障率就高了很多。同时实际训练中训练容错和故障自愈需要集群调度、节点管理和训练框架一起协作。所以 DLRover 是将现有的弹性训练框架与节点管理、集群调度相结合来实现快速的训练故障自愈。
训练自愈这块其实很多云厂商也在做但是都是和自己的云平台耦合的。最近几个月也有好几篇定会文章介绍相关工作。DLRover 是和云平台解耦的用户只要是在 kubernetes 集群上做分布式训练就可以使用 DLRover 的训练故障自愈功能。除此之外由于我们之前在这块有过探索和积累所以训练稳定性这块的功能开源得比较快。 Q在 AI Infra 领域海外有哪些做得比较好的开源项目对于我们有哪些借鉴意义
长凡 Flash Attention 和 vllm这两个框架大幅提升了大模型训练和推理的性能更重要的是用户只需要安装 Python 包即可使用。他们的特点就是利用创新解决了一个很难且很有价值的问题但是又非常简单易用这对我们有很大启发。比如我们在设计 DLRover 训练自愈的 Flash Checkpoint 的 API 时也是尽量让 API 简单易用用户尽量少改代码就能使用 DLRover。
Q对于 DLRover 未来的规划你有什么愿景或目标
长凡 我们希望 DLRover 在大模型时代能让更多的用户高效地训练大模型降低 AI 训练门槛。当前 AI 训练有2个趋势一方面大家根据 Scaling law 来使用更大规模的集群来训练越来越大的模型另一方面很多工作在探索如何在小规模或者单机上微调模型。
不管是大规模预训练还是微调高效、稳定地训练模型都有困难需要根据经验反复调试。我们希望 DLRover 能帮助用户解决这方面的问题也希望能支持到国内的 AI 发展。DLRover 未来在功能和接口设计上会做得更加开放让用户能在国产芯片上使用 DLRover 高效、稳定地训练模型。当然我们也非常欢迎更多的同学加入到 DLRover 社区一起推进 AI Infra 的前进。
Q最后给我们预告下你在 GDC 上会分享哪些内容吧
长凡 GDC 上我将分享 DLRover 如何通过训练故障自愈来降低大规模 AI 训练的成本帮训练省钱的。以及大家如何来使用 DLRover 来提升训练的效率。 看完长凡的经历和 DLRover 的故事你是不是对 AI Infra 有了更多兴趣呢3 月 23 日下午长凡将在 2024 全球开发者先锋大会(GDC)分享《DLRover 训练故障自愈大幅提升大规模 AI 训练的算力效率》欢迎到现场和讲师近距离交流。 关于 DLRover
DLRoverDistributed Deep Learning System是蚂蚁集团 AI Infra 团队维护的开源社区是基于云原生技术打造的智能分布式深度学习系统。DLRover 使得开发人员能够专注于模型架构的设计而无需处理任何工程方面的细节例如硬件加速和分布式运行等开发深度学习训练的相关算法让训练更高效、智能例如优化器。目前DLRover 支持使用 K8s、Ray 进行自动化操作和维护深度学习训练任务。更多 AI Infra 技术请关注 DLRover 项目。
加入 DLRover 钉钉技术交流群31525020959
DLRover Star 一下https://github.com/intelligent-machine-learning/dlrover
在 GitHub 关注 DLRoverhttps://github.com/intelligent-machine-learning/dlrover
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/911765.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!