DeepSeek 正式推出 Mega MoE 融合算子并支持 FP4 精度

DeepSeek 旗下高性能算子库 DeepGEMM 于 4 月 16 日发布重大更新,正式推出 Mega MoE 融合算子。该算子通过将 dispatch、SwiGLU 等多个计算步骤与 NVLink 通信重叠,实现了计算与通信的高效融合。此外,本次更新还新增了 FP8xFP4 GEMM 算子、FP4 Indexer 以及 PDL(程序化依赖启动)支持,并显著提升了 JIT 编译速度。

DeepGEMM 是专为现代大模型设计的 CUDA 内核库,支持 NVIDIA SM90 和 SM100 架构。其核心优势在于轻量化设计与运行时即时编译,无需在安装阶段进行复杂编译。

Previous:

Next:

发表回复

Please Login to Comment
SHARE
TOP
🍉
🔈Hi,朋友。欢迎来到木木的博客小站!