使用场景
在大规模AI训练中,3FS用于存储和快速访问训练数据,显著提升训练速度。
在推理阶段,3FS的KVCache功能为LLM推理提供高效的缓存支持,减少计算开销。
3FS用于数据准备阶段,高效管理数据管道的中间输出,优化数据处理流程。
产品特色
高性能:结合数千个SSD的吞吐量和数百个存储节点的网络带宽,支持大规模并行访问。
强一致性:采用CRAQ协议,确保数据强一致性,简化应用开发。
多种工作负载支持:适用于数据准备、训练样本加载、检查点保存和推理缓存等场景。
易于使用:提供标准文件接口,无需学习新存储API。
高扩展性:支持大规模集群部署,满足不同规模的AI项目需求。
使用教程
1. 从GitHub克隆3FS仓库:`git clone https://github.com/deepseek-ai/3fs`。
2. 初始化子模块:`cd 3fs && git submodule update --init --recursive`。
3. 安装依赖,如CMake、libuv、liblz4等(具体依赖见文档)。
4. 构建3FS:`cmake -S . -B build -DCMAKE_BUILD_TYPE=RelWithDebInfo`,然后运行`cmake --build build`。
5. 部署测试集群,按照部署指南配置存储节点和客户端。