使用场景
使用Nemotron-CC数据集训练一个8B参数的模型,在MMLU指标上比DCLM提高了5.6
一个8B参数模型使用该数据集训练15T tokens后,在多个任务上表现优于Llama 3.1 8B模型
研究人员可以利用其不同质量等级的分区,进行针对性的模型训练和研究
产品特色
提供6.3万亿token的数据集,包含原始和合成token
通过多种方法优化数据质量,提高模型训练效果
支持长期预训练,解锁先进的训练能力
数据集包含多个质量等级和种类的分区,满足不同需求
提供jsonl和parquet两种格式的数据,方便不同场景使用
使用教程
1. 访问Nemotron-CC的官方网站,了解数据集的详细信息和下载方式
2. 根据研究需求,选择合适的数据分区和格式进行下载
3. 使用下载的数据集对语言模型进行预训练
4. 在预训练过程中,根据模型表现调整训练参数和策略
5. 利用预训练好的模型进行特定任务的微调和应用