Nemotron CC_开发

Nemotron CC

类别：AI模型,开发与工具,人工智能,数据集,预训练,自然语言处理,普通产品

官网:https://data.commoncrawl.org/contrib/Nemotron/Nemotron-CC/index.html 更新时间：2025-08-02 10:16:17
使用场景
使用Nemotron-CC数据集训练一个8B参数的模型，在MMLU指标上比DCLM提高了5.6
一个8B参数模型使用该数据集训练15T tokens后，在多个任务上表现优于Llama 3.1 8B模型
研究人员可以利用其不同质量等级的分区，进行针对性的模型训练和研究
产品特色
提供6.3万亿token的数据集，包含原始和合成token
通过多种方法优化数据质量，提高模型训练效果
支持长期预训练，解锁先进的训练能力
数据集包含多个质量等级和种类的分区，满足不同需求
提供jsonl和parquet两种格式的数据，方便不同场景使用
使用教程
1. 访问Nemotron-CC的官方网站，了解数据集的详细信息和下载方式
2. 根据研究需求，选择合适的数据分区和格式进行下载
3. 使用下载的数据集对语言模型进行预训练
4. 在预训练过程中，根据模型表现调整训练参数和策略
5. 利用预训练好的模型进行特定任务的微调和应用

Nemotron CC