感谢DeepSeek开源！第四弹解读，梁文锋亲自署名研发！-3楼猫

今天是2025年2月27日，DeepSeek 开源周的第四天如期而至，这次他们甩出了一个大招——开源并行优化策略（Optimized Parallelism Strategies）项目。一口气带来了三大开源“法宝”：两个代码库工具 DualPipe 和 EPLB，以及一个专门用来分析训练和推理框架性能的数据集，其中DualPipe项目署名还有DeepSeek创始人梁文锋！本文我继续用更通俗的语言给大家介绍这些技术是如何造就 DeepSeek-V3 和 R1 模型的，它们又会对全世界产生怎样的影响。

01 新项目到底有多强？

距离开源周结束还有最后一天，DeepSeek的第四弹可是诚意满满，一口气拿出三个项目，今天我的工作量也相当于翻了三倍，其中DualPipe是大家关注度最高的项目，为双向流水线并行算法，是V3和R1训练中的核心算法，由三位开发者共同研发，分别是Jiashi Li、Chengqi Deng和DeepSeek创始人梁文锋，这也印证了外界的普遍说法——梁文锋作为DS的创始人&老板始终都在第一线亲自参与研发。

梁文锋主导算法框架设计，Jiashi Li、Chengqi Deng分别负责通信优化与调度策略实现，其中Jiashi Li应该是从字节跳动跳槽到DS的，Chengqi Deng毕业于浙大和梁文锋是校友，Deng深度参与了DeepSeek几乎所有的项目，DualPipe最早出现在DeepSeek-V3项目中，之前放出了论文，这次是附上了完整代码，主要用来优化MoE模型的并行计算，减少训练中的GPU空闲等待时间。

第一个项目DualPipe，是双向流水线并行计算；第二个项目EPLB专门针对V3和R1打造的MoE专家模型并行负载平衡器，通过动态分配模型中的负载，来提升MoE模型中GPU利用率；第三个项目Profile-Data提供性能分析数据集，用来优化计算与通信的重叠效率。直接去读这些专业名词可能会特别懵，接下来我们还是一步步去了解这三个工具到底是什么、能有什么用、DeepSeek的创新

点在哪里。

02 DualPipe：什么是双向并行计算？

DualPipe这个词拆解是Dual-Pipe两部分，前面Dual大家应该很熟悉，索尼手柄就叫Dual-Sense，Dual前缀指“双”，Pipe全称为Pipeline，UNIX/Linux操作系统中的Pipe是进程间单向通信机制，而大模型领域这个词不太好翻译中文，大致有流程、管道、流水线这几种说法，不过为了不引发歧义还是直接使用Pipeline更准确，Pipeline本身是一个贯穿数据处理、模型训练到应用部署的系统化工作流。

Pipeline核心在于把一个复杂任务（比如训练模型）拆成一串有序步骤，让数据像水一样流过去，每一步都有人（GPU）接手干活。随着大模型能力提升，传统多步骤Pipeline逐渐被端到端简化，DeepSeek的DualPipe可以翻译为双向Pipeline并行计算，传统的Pipeline训练采用单向数据传递，比如前向计算从首节点到末节点、反向传播再反向传递，GPU经常得等着前一步计算完才能干活，效率最多到60%-70%。

常见的并行策略

比如训练DeepSeek-V3大模型，神经网络层数很多，数据得从第一层算到最后一层（前向计算），然后根据误差从后往前更新权重（反向计算），通俗来说就是一条单行道，前向是数据从头走到尾，GPU 1 算完传给 GPU 2，GPU 2 算完传给 GPU 3，依次下去，反向是误差从尾巴传回开头，更新模型。

问题出在这条单行道效率不高，GPU 们得排队干活，前一个没算完，后一个只能干瞪眼，比如 GPU 1 在忙着前向计算时，GPU 2 到 GPU N 可能啥也没干，等着数据过来。这种等待时间叫“气泡”（bubble），浪费了不少算力。而DualPipe就是要把这条单行道改成“双车道”，允许前向和反向计算同时双向推进，让车流（计算任务）双向跑起来，形成对称的“双车道”Pipeline。

1F1B、ZB1P和DualPipe

简单来说就是数据往前算结果的时候，误差已经开始往回更新权重了，对于英伟达的芯片来说，就是 GPU 1 在算第一层的前向时，GPU N 可能已经在用上一轮的结果算反向了，而DualPipe光双向跑还不够，还可以把通信（GPU 间传数据）和计算叠在一起，比如GPU 1 在算前向时，顺手就把中间结果传给 GPU 2，传完接着算下一块，不用停工，这种设计就是上面说的“计算通信重叠”，直接把每台 GPU 的利用率拉到极致。这些通俗的语言相信大家应该能够看懂，后面几天我还会结合一些简单代码给大家做进阶介绍。

03 EPLB：什么是专家并行负载均衡器？

EPLB全称专家并行负载均衡器（Expert Parallelism Load Balancer），Expert Parallelism专家并行这几天我介绍过很多次了，就是DeepEP中的EP，专为混合专家模型（Mixture of Experts，简称 MoE）设计，MoE 是一种特别聪明的大模型结构，像 DeepSeek-V3/R1 都是站在MoE肩膀上的大模型，MoE有很多“专家”（expert），每个专家其实就是一个小的神经网络模块，擅长干不同的事。

这种设计很牛，因为不像传统模型全都一股脑算，MoE 只用一部分专家干活，效率高、参数多还能省算力。但问题也来了：专家多了，怎么分配任务就成了大麻烦。想象一下，你开了一家餐厅，有十个厨师（专家），每个厨师擅长不同的菜。客人点单来了，你得决定谁去做这道菜。如果分配不好，可能有的厨师忙得满头大汗，有的闲得抠脚，放在GPU集群上解释，每个 GPU 可能负责几个专家。如果任务没分均匀，有的 GPU 超载，有的闲着，整体算力利用率可能只有 50%-60%，浪费很严重。

这时候就需要一个“管家”来管管这些专家，把活儿分得公平又高效，DeepSeek的EPLB就是这个管家，负责给每个专家均衡分担负载任务，后面的负载均衡器（Load Balancer）取名也是相当形象。首先EPLB会实时看着每个厨师专家的订单量（实时性能数据），然后再进行动态调整，把一部分任务从专家 A 挪到专家 B 那边（即时调度），保证大家的工作量差不多，最终目标就是人人有活干人人劳动量都差不多，DeepSeek实测用了EPLB后，一个万卡集群的 GPU 利用率能到 92% 以上，资源浪费几乎被干掉。

04 DeepSeek的数据集是干什么的？

最后一个 profile-data 数据集，主要用来对训练、推理框架进行性能剖析。传统数据集是用来喂大模型的，这个数据集你可以理解为DeepSeek怕大家看不懂他在做什么，专门发布一个可视化工具，帮助社区更好理解上面DualPipe通信计算重叠策略。这个工具也是 DeepSeek 团队在训练和跑 DeepSeek-V3、R1 模型时的实用工具。

训练阶段

比如在训练阶段，模型计算用了多久，通信（GPU 之间传数据）花了多少时间，都被可视化出来，推理阶段，模型回答问题时，分成“预填充”（prefill，准备上下文）和“解码”（decode，生成答案）两个步骤，哪个快哪个慢也被可视化出来。profile-data类似于模型训练推理时候的透视显微镜，让开发者看清楚模型跑起来的每一个细节，方便调优。

解码阶段

05 DeepSeek是如何创新的？

大家每日嘲笑OpenAI是ClosedAI，因为他们技术藏得深，成果秀得多，PPT花式展示，天价广告打到了超级碗中场秀，但唯独怎么做到的往往是个黑箱，社区只能猜。而DeepSeek给大家完整展示了他们是如何取得领先的，秘诀只有一点——实事求是，务实。

今天的DualPipe、EPLB和profile-data三个代码库，我给大家揉碎了掰开讲，技术层面都非常枯燥，没整花哨的噱头，而是盯着问题下手，实打实地解决问题，你看完一整篇解读文章，可能也不如营销号给你提供的情绪价值高，但就是这些工具造就了DeepSeek——

先把问题想明白，然后根据不同的问题去对原有的轮子进行改造去创新，一步步积累产生质变。我这几天讲的很多技术其实也不是凭空造新轮子，而是找到大模型训练的硬伤，然后在现有技术上“修修补补”，最后修出质变。美国人确实非常擅长造势，DeepSeek给人感觉完全不玩这套，就埋头苦干，把训练的“脏活累活”干漂亮了，这次开源有论文有代码，DS团队还在社区给大家做QA解答，数据都摆桌上了，没一点神秘感，接下来就是静静等待明天开源周的最后一天，期待DeepSeek的新项目！