感谢DeepSeek开源!第四弹解读,梁文锋亲自署名研发!


3楼猫 发布时间:2025-02-28 23:50:14 作者:gdtop Language

今天是2025年2月27日,DeepSeek 开源周的第四天如期而至,这次他们甩出了一个大招——开源并行优化策略(Optimized Parallelism Strategies)项目。一口气带来了三大开源“法宝”:两个代码库工具 DualPipe 和 EPLB,以及一个专门用来分析训练和推理框架性能的数据集,其中DualPipe项目署名还有DeepSeek创始人梁文锋!本文我继续用更通俗的语言给大家介绍这些技术是如何造就 DeepSeek-V3 和 R1 模型的,它们又会对全世界产生怎样的影响。

感谢DeepSeek开源!第四弹解读,梁文锋亲自署名研发!-第0张

01 新项目到底有多强?

距离开源周结束还有最后一天,DeepSeek的第四弹可是诚意满满,一口气拿出三个项目,今天我的工作量也相当于翻了三倍,其中DualPipe是大家关注度最高的项目,为双向流水线并行算法,是V3和R1训练中的核心算法,由三位开发者共同研发,分别是Jiashi Li、Chengqi Deng和DeepSeek创始人梁文锋,这也印证了外界的普遍说法——梁文锋作为DS的创始人&老板始终都在第一线亲自参与研发。

感谢DeepSeek开源!第四弹解读,梁文锋亲自署名研发!-第1张

梁文锋主导算法框架设计,Jiashi Li、Chengqi Deng分别负责通信优化与调度策略实现,其中Jiashi Li应该是从字节跳动跳槽到DS的,Chengqi Deng毕业于浙大和梁文锋是校友,Deng深度参与了DeepSeek几乎所有的项目,DualPipe最早出现在DeepSeek-V3项目中,之前放出了论文,这次是附上了完整代码,主要用来优化MoE模型的并行计算,减少训练中的GPU空闲等待时间。

感谢DeepSeek开源!第四弹解读,梁文锋亲自署名研发!-第2张

第一个项目DualPipe,是双向流水线并行计算;第二个项目EPLB专门针对V3和R1打造的MoE专家模型并行负载平衡器,通过动态分配模型中的负载,来提升MoE模型中GPU利用率;第三个项目Profile-Data提供性能分析数据集,用来优化计算与通信的重叠效率。直接去读这些专业名词可能会特别懵,接下来我们还是一步步去了解这三个工具到底是什么、能有什么用、DeepSeek的创新

感谢DeepSeek开源!第四弹解读,梁文锋亲自署名研发!-第3张

点在哪里。

02 DualPipe:什么是双向并行计算?

DualPipe这个词拆解是Dual-Pipe两部分,前面Dual大家应该很熟悉,索尼手柄就叫Dual-Sense,Dual前缀指“双”,Pipe全称为Pipeline,UNIX/Linux操作系统中的Pipe是进程间单向通信机制,而大模型领域这个词不太好翻译中文,大致有流程、管道、流水线这几种说法,不过为了不引发歧义还是直接使用Pipeline更准确,Pipeline本身是一个贯穿数据处理、模型训练到应用部署的系统化工作流。

感谢DeepSeek开源!第四弹解读,梁文锋亲自署名研发!-第4张

Pipeline核心在于把一个复杂任务(比如训练模型)拆成一串有序步骤,让数据像水一样流过去,每一步都有人(GPU)接手干活。随着大模型能力提升,传统多步骤Pipeline逐渐被端到端简化,DeepSeek的DualPipe可以翻译为双向Pipeline并行计算,传统的Pipeline训练采用单向数据传递,比如前向计算从首节点到末节点、反向传播再反向传递,GPU经常得等着前一步计算完才能干活,效率最多到60%-70%。

感谢DeepSeek开源!第四弹解读,梁文锋亲自署名研发!-第5张

常见的并行策略

比如训练DeepSeek-V3大模型,神经网络层数很多,数据得从第一层算到最后一层(前向计算),然后根据误差从后往前更新权重(反向计算),通俗来说就是一条单行道,前向是数据从头走到尾,GPU 1 算完传给 GPU 2,GPU 2 算完传给 GPU 3,依次下去,反向是误差从尾巴传回开头,更新模型。

问题出在这条单行道效率不高,GPU 们得排队干活,前一个没算完,后一个只能干瞪眼,比如 GPU 1 在忙着前向计算时,GPU 2 到 GPU N 可能啥也没干,等着数据过来。这种等待时间叫“气泡”(bubble),浪费了不少算力。而DualPipe就是要把这条单行道改成“双车道”,允许前向和反向计算同时双向推进,让车流(计算任务)双向跑起来,形成对称的“双车道”Pipeline。

感谢DeepSeek开源!第四弹解读,梁文锋亲自署名研发!-第6张

1F1B、ZB1P和DualPipe

简单来说就是数据往前算结果的时候,误差已经开始往回更新权重了,对于英伟达的芯片来说,就是 GPU 1 在算第一层的前向时,GPU N 可能已经在用上一轮的结果算反向了,而DualPipe光双向跑还不够,还可以把通信(GPU 间传数据)和计算叠在一起,比如GPU 1 在算前向时,顺手就把中间结果传给 GPU 2,传完接着算下一块,不用停工,这种设计就是上面说的“计算通信重叠”,直接把每台 GPU 的利用率拉到极致。这些通俗的语言相信大家应该能够看懂,后面几天我还会结合一些简单代码给大家做进阶介绍。

感谢DeepSeek开源!第四弹解读,梁文锋亲自署名研发!-第7张

03 EPLB:什么是专家并行负载均衡器?

EPLB全称专家并行负载均衡器(Expert Parallelism Load Balancer),Expert Parallelism专家并行这几天我介绍过很多次了,就是DeepEP中的EP,专为混合专家模型(Mixture of Experts,简称 MoE)设计,MoE 是一种特别聪明的大模型结构,像 DeepSeek-V3/R1 都是站在MoE肩膀上的大模型,MoE有很多“专家”(expert),每个专家其实就是一个小的神经网络模块,擅长干不同的事。

感谢DeepSeek开源!第四弹解读,梁文锋亲自署名研发!-第8张

这种设计很牛,因为不像传统模型全都一股脑算,MoE 只用一部分专家干活,效率高、参数多还能省算力。但问题也来了:专家多了,怎么分配任务就成了大麻烦。想象一下,你开了一家餐厅,有十个厨师(专家),每个厨师擅长不同的菜。客人点单来了,你得决定谁去做这道菜。如果分配不好,可能有的厨师忙得满头大汗,有的闲得抠脚,放在GPU集群上解释,每个 GPU 可能负责几个专家。如果任务没分均匀,有的 GPU 超载,有的闲着,整体算力利用率可能只有 50%-60%,浪费很严重。

感谢DeepSeek开源!第四弹解读,梁文锋亲自署名研发!-第9张

这时候就需要一个“管家”来管管这些专家,把活儿分得公平又高效,DeepSeek的EPLB就是这个管家,负责给每个专家均衡分担负载任务,后面的负载均衡器(Load Balancer)取名也是相当形象。首先EPLB会实时看着每个厨师专家的订单量(实时性能数据),然后再进行动态调整,把一部分任务从专家 A 挪到专家 B 那边(即时调度),保证大家的工作量差不多,最终目标就是人人有活干人人劳动量都差不多,DeepSeek实测用了EPLB后,一个万卡集群的 GPU 利用率能到 92% 以上,资源浪费几乎被干掉。

感谢DeepSeek开源!第四弹解读,梁文锋亲自署名研发!-第10张

04 DeepSeek的数据集是干什么的?

最后一个 profile-data 数据集,主要用来对训练、推理框架进行性能剖析。传统数据集是用来喂大模型的,这个数据集你可以理解为DeepSeek怕大家看不懂他在做什么,专门发布一个可视化工具,帮助社区更好理解上面DualPipe通信计算重叠策略。这个工具也是 DeepSeek 团队在训练和跑 DeepSeek-V3、R1 模型时的实用工具。

感谢DeepSeek开源!第四弹解读,梁文锋亲自署名研发!-第11张

训练阶段

比如在训练阶段,模型计算用了多久,通信(GPU 之间传数据)花了多少时间,都被可视化出来,推理阶段,模型回答问题时,分成“预填充”(prefill,准备上下文)和“解码”(decode,生成答案)两个步骤,哪个快哪个慢也被可视化出来。profile-data类似于模型训练推理时候的透视显微镜,让开发者看清楚模型跑起来的每一个细节,方便调优。

感谢DeepSeek开源!第四弹解读,梁文锋亲自署名研发!-第12张

解码阶段

05 DeepSeek是如何创新的?

大家每日嘲笑OpenAI是ClosedAI,因为他们技术藏得深,成果秀得多,PPT花式展示,天价广告打到了超级碗中场秀,但唯独怎么做到的往往是个黑箱,社区只能猜。而DeepSeek给大家完整展示了他们是如何取得领先的,秘诀只有一点——实事求是,务实。

今天的DualPipe、EPLB和profile-data三个代码库,我给大家揉碎了掰开讲,技术层面都非常枯燥,没整花哨的噱头,而是盯着问题下手,实打实地解决问题,你看完一整篇解读文章,可能也不如营销号给你提供的情绪价值高,但就是这些工具造就了DeepSeek——

先把问题想明白,然后根据不同的问题去对原有的轮子进行改造去创新,一步步积累产生质变。我这几天讲的很多技术其实也不是凭空造新轮子,而是找到大模型训练的硬伤,然后在现有技术上“修修补补”,最后修出质变。美国人确实非常擅长造势,DeepSeek给人感觉完全不玩这套,就埋头苦干,把训练的“脏活累活”干漂亮了,这次开源有论文有代码,DS团队还在社区给大家做QA解答,数据都摆桌上了,没一点神秘感,接下来就是静静等待明天开源周的最后一天,期待DeepSeek的新项目!

感谢DeepSeek开源!第四弹解读,梁文锋亲自署名研发!-第13张


© 2022 3楼猫 下载APP 站点地图 广告合作:asmrly666@gmail.com