Deepep_开发_未来号

Deepep

类别：开发与工具,模型训练与部署,深度学习,混合专家模型,专家并行,通信库,低延迟,高吞吐量,GPU 加速,优质新品,开源,

官网:https://github.com/deepseek-ai/DeepEP 更新时间：2025-08-02 10:31:12
使用场景
在大规模分布式训练中，使用 DeepEP 的高吞吐量内核加速 MoE 模型的 dispatch 和 combine 操作，显著提高训练效率。
在推理阶段，利用 DeepEP 的低延迟内核进行快速解码，适合对实时性要求较高的应用场景。
通过通信-计算重叠方法，DeepEP 在不占用额外 GPU 资源的情况下，进一步优化了推理任务的性能。
产品特色
支持高吞吐量和低延迟的全连接 GPU 内核，适用于 MoE 模型的 dispatch 和 combine 操作。
优化了非对称域带宽转发，例如从 NVLink 域到 RDMA 域的数据转发。
支持低延迟内核，使用纯 RDMA 通信，适合延迟敏感的推理解码任务。
提供基于钩子的通信-计算重叠方法，不占用 GPU SM 资源，提高资源利用率。
支持多种网络配置，包括 InfiniBand 和 RDMA over Converged Ethernet (RoCE)。
使用教程
1. 确保系统满足硬件要求，如 Hopper 架构的 GPU 和支持 RDMA 的网络设备。
2. 安装依赖项，包括 Python 3.8 及以上版本、CUDA 12.3 及以上版本和 PyTorch 2.1 及以上版本。
3. 下载并安装 DeepEP 的依赖库 NVSHMEM，按照官方提供的安装指南进行操作。
4. 使用 `python setup.py install` 命令安装 DeepEP。
5. 在项目中导入 `deep_ep` 模块，并根据需要调用其提供的 dispatch 和 combine 等功能。

点击加载更多

Deepep

Deepep

精彩推荐

马斯克宣布旗下xAI开源Grok 2.5模型 Grok 3半年后跟进

AI医疗与创新药齐热，京东健康在押什么注？

即梦AI智能多帧功能：开启视频创作新时代

这群年轻人用“AI”种菜

马斯克旗下xAI宣布Grok 4 AI模型永久免费开放

猜你喜欢

人形机器人「朋友圈」的明牌和暗战

宇树科技专利侵权案一审判决：未构成侵权，原告败诉

OpenAI要刮油，谁会掉层皮？

用AI改造传统出行，这家公司推出万元级智能三轮车 | 涌现NewThings

刚刚，OpenAI Sora 2重磅登场！首个APP上线，或将成为AI时代新TikTok

字节信徒MiniMax

看360 - 吹响未来的号角！

Deepep

Deepep

精彩推荐

马斯克宣布旗下xAI开源Grok 2.5模型 Grok 3半年后跟进

AI医疗与创新药齐热，京东健康在押什么注？

即梦AI智能多帧功能：开启视频创作新时代

这群年轻人用“AI”种菜

马斯克​旗下xAI宣布Grok 4 AI模型永久免费开放

猜你喜欢

人形机器人「朋友圈」的明牌和暗战

宇树科技专利侵权案一审判决：未构成侵权，原告败诉

OpenAI要刮油，谁会掉层皮？

用AI改造传统出行，这家公司推出万元级智能三轮车 | 涌现NewThings

刚刚，OpenAI Sora 2重磅登场！首个APP上线，或将成为AI时代新TikTok

字节信徒MiniMax

看360 - 吹响未来的号角！

马斯克旗下xAI宣布Grok 4 AI模型永久免费开放