3FS

使用场景在大规模AI训练中,3FS用于存储和快速访问训练数据,显著提升训练速度。在推理阶段,3FS的KVCache功能为LLM推理提供高效的缓存支持,减少计算开...

  • 3FS

    类别:开发与工具,模型训练与部署,AI,分布式文件系统,高性能计算,存储,机器学习,普通产品,开源,
    官网:https://github.com/deepseek-ai/3FS 更新时间:2025-08-02 10:33:33
  • 使用场景

    在大规模AI训练中,3FS用于存储和快速访问训练数据,显著提升训练速度。

    在推理阶段,3FS的KVCache功能为LLM推理提供高效的缓存支持,减少计算开销。

    3FS用于数据准备阶段,高效管理数据管道的中间输出,优化数据处理流程。

    产品特色

    高性能:结合数千个SSD的吞吐量和数百个存储节点的网络带宽,支持大规模并行访问。

    强一致性:采用CRAQ协议,确保数据强一致性,简化应用开发。

    多种工作负载支持:适用于数据准备、训练样本加载、检查点保存和推理缓存等场景。

    易于使用:提供标准文件接口,无需学习新存储API。

    高扩展性:支持大规模集群部署,满足不同规模的AI项目需求。

    使用教程

    1. 从GitHub克隆3FS仓库:`git clone https://github.com/deepseek-ai/3fs`。

    2. 初始化子模块:`cd 3fs && git submodule update --init --recursive`。

    3. 安装依赖,如CMake、libuv、liblz4等(具体依赖见文档)。

    4. 构建3FS:`cmake -S . -B build -DCMAKE_BUILD_TYPE=RelWithDebInfo`,然后运行`cmake --build build`。

    5. 部署测试集群,按照部署指南配置存储节点和客户端。