公司动态

DeepSeek开源周第二天:DeepEP表态,为MoE跟EP量身定

起源:DeepTech深科技明天宣布的是 DeepEP,第一个用于混杂专家(MoE,Mixture of Experts)模子练习跟推理的开源 EP 通讯库。GitHub 库地点:https://github.com/deepseek-ai/DeepEP其上风包含:✅高效、优化的 all-to-all 通讯✅节点内跟节点间(intranode and internode)均支撑 NVLink 跟 RDMA✅用于练习跟推理预添补的高吞吐量内核✅用于推懂得码的低耽误内核✅原生 FP8 调理支撑✅机动的 GPU 资本把持,实现盘算-通讯堆叠(起源:DeepSeek)EP 的全名是 Expert Parallelism,又称专家并行。它是在散布式进修中专门针对 MoE 场景的并行战略,其中心思维就是将差别专家放在差别盘算节点长进行并行盘算。据 DeepSeek 先容,DeepEP 是一个为 MoE 跟 EP 量身定制的通讯库。它能供给高吞吐量跟低耽误的 all-to-all GPU 内核,也称为 MoE 调理跟组合。该库还支撑低精度操纵,包含 FP8。机能基准测试表现吞吐量明显晋升,尤其是在练习跟推理预添补义务中。为了与 DeepSeek-V3 论文中提出的组限度门控算法(group-limited gating algorithm)坚持分歧,DeepEP 供给了一组针对非对称域带宽转发(比方将数据从 NVLink 域转发到 RDMA 域)停止优化的内核。这些内核供给了高吞吐量,使其合适练习跟推理预添补义务。别的,它们还支撑 SM(Streaming Multiprocessors,流式多处置器)数目把持。(起源:DeepSeek)对耽误敏感的推懂得码,DeepEP 包括一组存在纯 RDMA 的低耽误内核,以最年夜限制地增加耽误。该库还引入了一种基于 hook 的通讯-盘算堆叠方式,该方式不占用任何流式多处置器资本。值得留神的是,DeepSeek 特地指出,该库中的实现可能与 DeepSeek-V3 论文略有差别。在机能方面,针对存在 NVLink 跟 RDMA 转发的一般内核,DeepSeek 在 H800(~160GB/s NVLink 最年夜带宽)上测试了它们,每个内核都衔接到 CX7 InfiniBand 400Gb/s RDMA 网卡(~50GB/s 最年夜带宽)。他们遵守的是 DeepSeek-V3/R1 预练习设置。图 | 在一般内核上的机能数据(起源:DeepSeek)针对存在纯 RDMA 的低耽误内核,DeepSeek 同样在 H800 上测试了它们,每个内核都衔接到 CX7 InfiniBand 400Gb/s RDMA 网卡(最年夜带宽约 50GB/s)。他们遵守的是 DeepSeek-V3/R1 出产设置。图 | 在低耽误内核上的机能数据(起源:DeepSeek)在收集设置方面,DeepEP 已在 InfiniBand 收集长进行了片面测试。不外,实践上它也兼容融会以太网上的 RDMA (RoCE)。InfiniBand 经由过程虚构通道支撑流量断绝。为了避免差别范例的流量之间产生烦扰,DeepSeek 倡议在差别的虚构通道之间分别任务负载,包含应用一般内核的任务负载、应用低耽误内核的任务负载,以及其余任务量。别的,自顺应路由是 InfiniBand 交流机供给的一项高等路由功效,能够将流量平均地散布在多条门路上。现在,低耽误内核支撑自顺应路由,而一般内核则不支撑(可能很快会增加支撑)。为一般节点间内核启用自顺应路由可能会招致逝世锁或数据破坏成绩。对低耽误内核,启用自顺应路由能够完整打消路由抵触招致的收集拥塞,但也会引入额定的耽误。DeepSeek 倡议采取以下设置以取得最佳机能:在收集负载较重的情况中启用自顺应路由,在收集负载较轻的情况中应用静态路由。最后,DeepSeek 还表现,本人发明并应用了未在英伟达官方文档中表露的 PTX 指令 ld.global.nc.L1::no_allocate.L2::256B,由此能够取得“极致机能”。(起源:DeepSeek)从指令来揣测,它仿佛是一个特别的 PTX 指令,用于从全局内存加载数据,绕过 L1 缓存,以 256 字节的事件巨细经由过程 L2 缓存处置。这种指令的应用反应了 DeepSeek 对 GPU 内存档次构造的深度懂得,旨在经由过程翻新工程跟精致把持缓存行动来实现机能极致化。“为了让集群取得更好的机能,咱们倡议运转全部测试并应用最佳的主动调剂设置。默许设置在 DeepSeek 的外部集群长进行了优化。”DeepSeek 表现。参考材料:https://x.com/deepseek_ai/status/1894211757604049133https://github.com/deepseek-ai/DeepEP经营/排版:何晨龙
上一篇:DeepSeek这个风潮,厨电企业和仍是没有和? 下一篇:没有了