使用场景
研究人员使用DCLM创建了DCLM-BASELINE数据集,并用其训练模型,展现出与封闭源模型和其他开源数据集相比的优越性能。
DCLM 支持在不同规模上训练模型,例如400M-1x和7B-2x,以适应不同的计算需求。
社区成员通过提交模型到DCLM的排行榜,展示了在不同数据集和规模上训练的模型性能。
产品特色
提供超过300T未过滤的CommonCrawl语料库
基于open_lm框架提供有效的预训练配方
提供超过50种评估方法来评估模型性能
支持从411M到7B参数模型的不同计算规模
允许研究人员实验不同的数据集构建策略
通过优化数据集设计提高模型性能
使用教程
克隆DCLM仓库到本地
安装所需的依赖项
设置AWS存储和Ray分布式处理环境
选择原始数据源并创建引用JSON
定义数据处理步骤并创建pipeline配置文件
设置Ray集群并运行数据处理脚本
将处理后的数据tokenize和shuffle
使用tokenized数据集运行模型训练脚本
评估训练好的模型并提交结果到DCLM排行榜