DeepSeek开源第四弹：并行优化策略3项齐开

更新时间：2025-02-27 23:09:30 发布时间：4小时前评论：0

2月27日消息，DeepSeek开源周第四日，DeepSeek开源了并行优化策略（Optimized Parallelism Strategies），一次开源了3项：

DualPipe：一种用于V3/R1模型训练中实现计算与通信重叠的双向流水线并行算法

EPLB：一个针对V3/R1的专家并行负载均衡工具

Profile-data：训练和推理框架的分析数据

GitHub地址：

deepseek-ai/DualPipe

deepseek-ai/eplb

deepseek-ai/profile-data

一、DualPipe

DualPipe是DeepSeek-V3技术报告中提出的一种创新双向流水线并行算法。

它能够实现前向与后向计算和通信阶段的完全重叠，同时有效减少流水线气泡（空闲时间）。

DeepSeek展示了在8个流水线并行阶段和20个micro-batches情况下，DualPipe在两个方向上的调度示例。（来自DeepSeek-V3技术报告）

反向方向的微批次与前向方向对称，为了简化图示，这里省略了反向方向的批次 ID。图中由同一个黑色边框包围的两个单元格具有相互重叠的计算和通信。

流水线气泡与内存使用比较

表中，F代表前向块（forward chunk）的执行时间，B代表完整后向块（full backward chunk）的执行时间，W代表权重后向（backward for weights）块的执行时间，而F&B则表示同时执行且相互重叠的前向和后向块的执行时间。

DualPipe显著减少了管道气泡（空闲时间），表现出效率优势。

二、专家并行负载均衡器（EPLB）

在使用专家并行（EP）时，不同的专家模块会被分配到不同的GPU上。由于各个专家的计算负载会随当前任务而变化，因此保持各GPU间负载均衡至关重要。

如DeepSeek-V3论文所述，研究人员采用了冗余专家（redundant experts）策略，对高负载专家进行复制。

为了便于复制和部署，DeepSeek团队在eplb.py中开源了部署的EP负载平衡算法。该算法根据估计的专家负载计算平衡的专家复制和放置计划。

请注意，专家负载的具体预测方法不在此代码库的讨论范围内，一种常用的方法是采用历史统计数据的滑动平均值。

算法

负载平衡算法附带了两种用于不同情况的策略。

分层负载平衡（Hierarchical Load Balancing）

当服务器节点的数量除以专家组的数量时，使用分层负载平衡策略来利用组受限的专家路由。首先将专家组平均打包到节点上，确保不同节点的负载平衡。然后，在每个节点内复制专家。最后，将复制的专家打包到单独的GPU上，以确保不同的GPU负载平衡。分层负载平衡策略可以在预填充阶段使用较小的专家并行规模。

全局负载平衡（Global Load Balancing）

在其他情况下，使用全局负载平衡策略，该策略在全局范围内复制专家，而不管专家组如何，并将复制的专家打包到单个GPU中。该策略可以在具有较大专家并行规模的解码阶段采用。

三、DeepSeek基础设施中的数据分析：Profile-data

DeepSeek公开分享来自训练和推理框架的性能剖析数据，旨在帮助社区更深入地理解通信与计算重叠策略以及相关底层实现细节。

这些剖析数据是通过PyTorch Profiler工具获取的。

开发者可以下载后在Chrome浏览器中访问chrome://tracing（或在Edge浏览器中访问edge://tracing）直接进行可视化查看。

需要说明的是，为了便于剖析，研究人员模拟了一个完全均衡的MoE路由策略。

同时，DeepSeek还公开了这些数据的训练和推理过程。

举报收藏打赏 评论 0

版权声明 本文仅代表作者观点，不代表本站立场。
如遇本文系为网络转载到本站发表，图片或文章有版权问题的请联系客服确认后会立即删除文章。
如遇本文系作者授权本站发表，未经许可，不得转载。

--结束END--

有问题投稿请发送至: 邮箱/

本文标题: DeepSeek开源第四弹：并行优化策略3项齐开

本文链接: http://meilagrina.com/news/show-380043.html (转载时请保留)

0 条

1299元起！小米Buds 5 Pro发布：首发Wi

科技 yilonggz ⋅ 12阅读量 ⋅ 0评论 ⋅ 57分钟前

2025-02-27
254元！小米智能音箱Pro发布：首个“超级小爱”智能音箱

科技 sanyuantang ⋅ 15阅读量 ⋅ 0评论 ⋅ 57分钟前

2025-02-27
久洗不发黄！米家洗烘套装Pro蓝氧洗热泵烘发布：5199.2元

科技 bfavon ⋅ 6阅读量 ⋅ 0评论 ⋅ 57分钟前

2025-02-27
999元小米15 Ultra专业影像套装发布：2000mAh电池可反充手机

科技 aochangsh ⋅ 6阅读量 ⋅ 0评论 ⋅ 57分钟前

2025-02-27
小米Buds 5 Pro音质抢先试听！第一次让TWS耳机的声音有了画面感

科技 ynsenyu ⋅ 1阅读量 ⋅ 0评论 ⋅ 57分钟前

2025-02-27
雷军：SU7 Ultra绝对配得上地表最强四门量产车称号！

科技 dgworld2008 ⋅ 16阅读量 ⋅ 0评论 ⋅ 57分钟前

2025-02-27
雷军：太佩服保时捷了有实力还有格局

科技 fsjinyida ⋅ 20阅读量 ⋅ 0评论 ⋅ 57分钟前

2025-02-27
黄仁勋：DeepSeek R1点燃了全球热情

科技 yunv666 ⋅ 17阅读量 ⋅ 0评论 ⋅ 57分钟前

2025-02-27
误踩电门不加速！小米SU7 Ultra首搭误加速抑制辅助功能

科技 gdduozheng ⋅ 18阅读量 ⋅ 0评论 ⋅ 57分钟前

2025-02-27
零百加速2.1秒极速超350km/h！小米SU7 Ultra核心配置公布

科技 meiyansky ⋅ 7阅读量 ⋅ 0评论 ⋅ 57分钟前

2025-02-27

亚信科技助力广东联通全面接入DeepSeek，以国产AI赋能湾区转型

行业测试账号勿联 ⋅ 14阅读量 ⋅ 0评论 ⋅ 1小时前

2025-02-27
浙富控股研发费用有无猫腻？收入越多税费越少专科及高中研发人员占比超六成

行业测试账号勿联 ⋅ 18阅读量 ⋅ 0评论 ⋅ 1小时前

2025-02-27
收评：港股恒指跌0.29% 科指跌1.22%碧桂园涨超17%

行业测试账号勿联 ⋅ 10阅读量 ⋅ 0评论 ⋅ 1小时前

2025-02-27
部分Ins用户被推送不良内容，Meta道歉称已修复错误

行业测试账号勿联 ⋅ 1阅读量 ⋅ 0评论 ⋅ 1小时前

2025-02-27
摩根大通：美国股市3月初料陷入停滞之后将进入春季反弹

行业测试账号勿联 ⋅ 3阅读量 ⋅ 0评论 ⋅ 1小时前

2025-02-27
应对蛋价高涨美国或进口1亿枚鸡蛋美国将投入10亿美元应对禽流感

行业测试账号勿联 ⋅ 2阅读量 ⋅ 0评论 ⋅ 1小时前

2025-02-27
奈雪的茶股价大涨40%，健康战略获市场长期看好

行业测试账号勿联 ⋅ 5阅读量 ⋅ 0评论 ⋅ 1小时前

2025-02-27
中信建投武超则：国产算力产业链持续高景气看好AI终端爆发可能

行业测试账号勿联 ⋅ 5阅读量 ⋅ 0评论 ⋅ 1小时前

2025-02-27
天岳先进拟赴港上市，碳化硅衬底龙头再启新征程

行业测试账号勿联 ⋅ 12阅读量 ⋅ 0评论 ⋅ 1小时前

2025-02-27
小米15 Ultra支持无网通话：完全无网可最远7km双向通话

行业 ⋅ 2阅读量 ⋅ 0评论 ⋅ 1小时前

2025-02-27

应对蛋价高涨美国或进口1亿枚鸡蛋美国将投入10亿美元应对禽流感

经济资讯测试账号勿联 ⋅ 4阅读量 ⋅ 0评论 ⋅ 1小时前

2025-02-27
摩根大通：美国股市3月初料陷入停滞之后将进入春季反弹

经济资讯测试账号勿联 ⋅ 5阅读量 ⋅ 0评论 ⋅ 1小时前

2025-02-27
天岳先进拟赴港上市，碳化硅衬底龙头再启新征程

经济资讯测试账号勿联 ⋅ 7阅读量 ⋅ 0评论 ⋅ 1小时前

2025-02-27
奈雪的茶股价大涨40%，健康战略获市场长期看好

经济资讯测试账号勿联 ⋅ 14阅读量 ⋅ 0评论 ⋅ 1小时前

2025-02-27
从鸡蛋价格到房地产美国通胀再度升温

经济资讯测试账号勿联 ⋅ 14阅读量 ⋅ 0评论 ⋅ 1小时前

2025-02-27
2月27日晚8点京东3.8节现货开抢！满200减30叠加国家补贴省出新高度

经济资讯站长 ⋅ 14阅读量 ⋅ 0评论 ⋅ 1小时前

2025-02-27
每日播报丨鑫苑服务人事变动，文远知行与新加坡CTM签署战略合作

经济资讯测试账号勿联 ⋅ 5阅读量 ⋅ 0评论 ⋅ 1小时前

2025-02-27
瞄准脑机接口等新兴领域！上海医械院助力新质生产力发展

经济资讯测试账号勿联 ⋅ 4阅读量 ⋅ 0评论 ⋅ 3小时前

2025-02-27
旗手摇旗，3400唾手可得

经济资讯测试账号勿联 ⋅ 11阅读量 ⋅ 0评论 ⋅ 3小时前

2025-02-27
17系列最便宜版本！iPhone 17e曝光

经济资讯测试账号勿联 ⋅ 9阅读量 ⋅ 0评论 ⋅ 3小时前

2025-02-27

应对蛋价高涨美国或进口1亿枚鸡蛋美国将投入10亿美元应对禽流感

商业与经济测试账号勿联 ⋅ 15阅读量 ⋅ 0评论 ⋅ 1小时前

2025-02-27
黄金势将结束八周连涨因投资者获利了结

商业与经济测试账号勿联 ⋅ 12阅读量 ⋅ 0评论 ⋅ 1小时前

2025-02-27
摩根大通：美国股市3月初料陷入停滞之后将进入春季反弹

商业与经济测试账号勿联 ⋅ 17阅读量 ⋅ 0评论 ⋅ 1小时前

2025-02-27
原声音乐游戏哪个好十大必玩原声音乐游戏精选

科技测试账号勿联 ⋅ 20阅读量 ⋅ 0评论 ⋅ 3小时前

2025-02-27
在 iOS 18.4 中 Safari 会更容易显示你最近的搜索历史记录

科技测试账号勿联 ⋅ 6阅读量 ⋅ 0评论 ⋅ 3小时前

2025-02-27
河北联通智能万兆光网实践样本：实现用户体验与产业价值提升

科技测试账号勿联 ⋅ 3阅读量 ⋅ 0评论 ⋅ 3小时前

2025-02-27
疫病爆发模拟游戏哪个最好玩十大经典疫病爆发模拟游戏排行榜

科技测试账号勿联 ⋅ 9阅读量 ⋅ 0评论 ⋅ 3小时前

2025-02-27
去年中国市场销量同比暴跌 49%，阿斯顿・马丁宣布裁员并再度推迟首款纯电汽车上市

科技测试账号勿联 ⋅ 17阅读量 ⋅ 0评论 ⋅ 3小时前

2025-02-27
苹果和印尼已就解除 iPhone 16 销售禁令达成一致

科技测试账号勿联 ⋅ 13阅读量 ⋅ 0评论 ⋅ 3小时前

2025-02-27
安徽“瓜子大王”重回增长，洽洽食品去年收入71亿，量贩渠道成新“摇钱树”

科技测试账号勿联 ⋅ 18阅读量 ⋅ 0评论 ⋅ 3小时前

2025-02-27

测试账号勿联

去ta空间

24小时热闻

今日推荐