混合专家模型

  • Deepep

    使用场景在大规模分布式训练中,使用 DeepEP 的高吞吐量内核加速 MoE 模型的 dispatch 和 combine 操作,显著提高训练效率。在推理阶段,...
    开发与工具,模型训练与部署,深度学习,混合专家模型,专家并行,通信库,低延迟,高吞吐量,GPU 加速,优质新品,开源, 08月02日 0 0