DCLM

使用场景研究人员使用DCLM创建了DCLM-BASELINE数据集,并用其训练模型,展现出与封闭源模型和其他开源数据集相比的优越性能。DCLM 支持在不同规模上...

  • DCLM

    类别:AI模型,AI模型推理训练,大型语言模型,数据集构建,模型训练,性能评估,优质新品,开源,
    官网:https://github.com/mlfoundations/dclm 更新时间:2025-08-01 18:37:52
  • 使用场景

    研究人员使用DCLM创建了DCLM-BASELINE数据集,并用其训练模型,展现出与封闭源模型和其他开源数据集相比的优越性能。

    DCLM 支持在不同规模上训练模型,例如400M-1x和7B-2x,以适应不同的计算需求。

    社区成员通过提交模型到DCLM的排行榜,展示了在不同数据集和规模上训练的模型性能。

    产品特色

    提供超过300T未过滤的CommonCrawl语料库

    基于open_lm框架提供有效的预训练配方

    提供超过50种评估方法来评估模型性能

    支持从411M到7B参数模型的不同计算规模

    允许研究人员实验不同的数据集构建策略

    通过优化数据集设计提高模型性能

    使用教程

    克隆DCLM仓库到本地

    安装所需的依赖项

    设置AWS存储和Ray分布式处理环境

    选择原始数据源并创建引用JSON

    定义数据处理步骤并创建pipeline配置文件

    设置Ray集群并运行数据处理脚本

    将处理后的数据tokenize和shuffle

    使用tokenized数据集运行模型训练脚本

    评估训练好的模型并提交结果到DCLM排行榜