字节万卡集群技术细节公开:2天搞定GPT-3训练,算力利用率超英伟达Megatron-南讯小电影

字节万卡集群技术细节公开:2天搞定GPT-3训练,算力利用率超英伟达Megatron-LM

初始化时间降至30秒以下

鱼羊 发自 凹非寺

量子位 | 公众号 QbitAI

随着对Sora技术分析的展开,AI基础设施的重要性愈发凸显。

来自字节和北大的一篇新论文在此时吸引关注:

文章披露,字节搭建起的万卡集群,能在1.75天内完成GPT-3规模模型(175B)的训练。

字节万卡集群技术细节公开:2天搞定GPT-3训练,算力利用率超55%

具体来说,字节提出了一个名为MegaScale的生产系统,旨在解决在万卡集群上训练大模型时面临的效率和稳定性挑战。

在12288块GPU上训练1750亿参数大语言模型时,MegaScale实现了55.2%的算力利用率(MFU),是英伟达Megatron-LM的1.34倍。

论文还透露,截止2023年9月,字节已建立起超过1万张卡的Ampere架构GPU(A100/A800)集群,目前正在建设大规模Hopper架构(H100/H800)集群。

适用于万卡集群的生产系统

大模型时代,GPU的重要性已无需赘述。

但大模型的训练,并不是把卡的数量拉满就能直接开干的——当GPU集群的规模来到“万”字级别,如何实现高效、稳定的训练,本身就是一个颇具挑战的工程问题。

字节万卡集群技术细节公开:2天搞定GPT-3训练,算力利用率超55%

第一重挑战:效率。

训练大语言模型并非简单的并行任务,需要在多个GPU之间分布模型,并且这些GPU需要频繁通信才能共同推进训练进程。通信之外,操作符优化、数据预处理和GPU内存消耗等因素,都对算力利用率(MFU)这个衡量训练效率的指标有影响。

MFU是实际吞吐量与理论最大吞吐量之比。

第二重挑战:稳定性。

我们知道,训练大语言模型往往需要花费非常长的时间,这也意味着,训练过程中失败和延迟的现象并不鲜见。

失败的成本是高昂的,因此如何缩短故障恢复时间变得尤为重要。

为了应对这些挑战,字节跳动的研究人员构建了MegaScale,并已将其部署到字节的数据中心中,用以支持各种大模型的训练。

MegaScale是在英伟达Megatron-LM的基础上改进的。

字节万卡集群技术细节公开:2天搞定GPT-3训练,算力利用率超55%

具体改进包括,算法和系统组件的共同设计、通信和计算重叠的优化、操作符优化、数据流水线优化以及网络性能调优等:

  • 算法优化:研究人员在模型架构中引入并行化的Transformer块、滑动窗口注意力机制(SWA)和LAMB优化器,来提高训练效率而不牺牲模型的收敛性。
  • 通信重叠:基于对3D并行(数据并行、流水线并行、张量并行)中各个计算单元操作的具体分析,研究人员设计技术策略有效地减少了非关键执行路径上操作所带来的延迟,缩短了模型训练中每一轮的迭代时间。
  • 高效操作符:对GEMM操作符进行了优化,对LayerNorm和GeLU等操作进行了融合,以减少启动多个内核的开销,并优化内存访问模式。
  • 数据流水线优化:通过异步数据预处理和消除冗余的数据加载器,来优化数据预处理和加载,减少GPU空闲时间。
  • 集体通信群初始化:优化了分布式训练中英伟达多卡通信框架NCCL初始化的过程。在未经优化的情况下,2048张GPU的集群初始化时间是1047秒,优化后可降至5秒以下;万卡GPU集群的初始化时间则可降至30秒以下。
  • 网络性能调优:分析了3D并行中的机器间流量,设计技术方案提高网络性能,包括网络拓扑设计、减少ECMP哈希冲突、拥塞控制和重传超时设置。
  • 故障容忍:在万卡集群中,软硬件故障难以避免。研究人员设计了一个训练框架,来实现自动故障识别和快速恢复。具体包括,开发诊断工具来监控系统组件和事件、优化checkpoint高频保存训练进程等。

论文提到,MegaScale能够自动检测和修复超过90%的软硬件故障。

字节万卡集群技术细节公开:2天搞定GPT-3训练,算力利用率超55%

实验结果表明,MegaScale在12288个GPU上训练175B大语言模型时,实现了55.2%的MFU,是Megatrion-LM算力利用率的1.34倍。

训练530B大语言模型的MFU对比结果如下:

字节万卡集群技术细节公开:2天搞定GPT-3训练,算力利用率超55%

One More Thing

就在这篇技术论文引发讨论之际,字节类Sora产品也传出了新消息:

剪映旗下类似Sora的AI视频工具已经启动邀请内测。

字节万卡集群技术细节公开:2天搞定GPT-3训练,算力利用率超55%

看样子地基已经打好,那么对于字节的大模型产品,你期待吗?

论文地址:
https://arxiv.org/abs/2402.15627

版权所有,未经授权不得以任何形式转载及使用,违者必究。

相关内容推荐

史塔克家族
海底两万里电影
shea
贩卖人口电影
人面花
直一
杜光庭
亨利八世
秀大
既要又要还要
纳碎党
白洁电梯
村里的女人
虎城
王天风
艾西亚
大王不高兴
周贺
死亡摄影师
杨菲菲
走进美国
柯隶华
特别的猫
王玉青
吴淑娟
布里克斯
张小海
拉斯普金
二战时间
东北抗日联军
鹅群
久间田琳加
人生而孤独
zimu
两下
蒙顿
北魏冯太后
猜疑链
打火机和公主裙
失掉
霸王别姬作者
吉田朱里
扎雷
多木木多
向斯
突起
吴永
爱的标签
老迈
1075
玉城
优雅公主
神捕十三娘
斗破苍穹第三季
刘海宽
生活不是电影
强加
盘古开天
霍乱时期
苏杏璇
灵与肉电影
bradley
单独
自学成才
置评
snare
索拉里
赖雨濛
电视剧锦心似玉
通灵妃动漫
成英
蛮野
警匪游戏
陆青
征服宇宙
贝纳多特
肖战余生请多指教
老猪选猫
一步一
andres
长平
陆军特战队
vert
kits
格雷琴
okayama
前程远大
忠实
邪门
金晨曦
elias
船头尺
deus
鹿皮
王子变青蛙电视剧
章正
一念永恒白小纯
蔡悦
女总裁
刀子
黑马电影
astraea
formel
糖鸡
玉官
基什
沈洋
故里
台湾女人
春蚕
火药桶
洪范图
叙事空间
1938
端倪
长什么样
孟子皓
艳堂
万夫所指
你死我活
出航
丁典
进军罗马
邪王追妻
陆青
roop
kristy
变形金刚大战
马叔电影
拉摩的侄儿
婆妈
凌晨四点
龙妈电影
lamar
电影禁忌之恋
启功
猩猩金刚
SWET
notes
武训简介
回归之旅
第五类接触
stora
沈洋
神父
薛丽萍
杂项
陈港生
陈忠实作品
缘来还是你
taj
尊前谈笑人依旧
暧昧性
11121
洪恩
李欣华
沃尔塔
小五小五
皇家橡树号
本宫是谁的自称
时代的英雄
导演饺子
终极奥义
送行
胖姑娘
昴星团
鬼怪
与世隔绝
完美世界
绝代艳后电影
火线第三季
tito
梅好
构想
斯内尔
催眠诊所
电影乱伦
段亦宏
变种狂蜥
甄嬛与果郡王
frack
靓汤电影
你来人间一趟
特大号
红高粱男主
战士军前半死生
越南战争的电影
人后
动静
乡村教师电影
青年应该怎么做
崇高
威尔克
蒋一
恐怖电影英语
马服
江西卫视金牌调解
高小姐
一段旅程
pharaoh

合作伙伴

南讯小电影

ifaxing.net
kangyangsuo.com
www.cangchu-huojia.net
duoqv.cn
www.ifaxing.net
skbcnf.com
cangchu-huojia.net
www.bxdLk.com
www.zbyuzhiyuan.com
www.hfgsdb.com
world-ys.cn
www.duoqv.cn
www.zbyuzhiyuan.com
bxdLk.com
yzsdyxh.com
www.fengshenge.com
lyxzbjy.com
world-ys.cn
skbcnf.com
sdsrjt.com