Nemotron CC

使用场景使用Nemotron-CC数据集训练一个8B参数的模型,在MMLU指标上比DCLM提高了5.6一个8B参数模型使用该数据集训练15T tokens后,在...

  • Nemotron CC

    类别:AI模型,开发与工具,人工智能,数据集,预训练,自然语言处理,普通产品
    官网:https://data.commoncrawl.org/contrib/Nemotron/Nemotron-CC/index.html 更新时间:2025-08-02 10:16:17
  • 使用场景

    使用Nemotron-CC数据集训练一个8B参数的模型,在MMLU指标上比DCLM提高了5.6

    一个8B参数模型使用该数据集训练15T tokens后,在多个任务上表现优于Llama 3.1 8B模型

    研究人员可以利用其不同质量等级的分区,进行针对性的模型训练和研究

    产品特色

    提供6.3万亿token的数据集,包含原始和合成token

    通过多种方法优化数据质量,提高模型训练效果

    支持长期预训练,解锁先进的训练能力

    数据集包含多个质量等级和种类的分区,满足不同需求

    提供jsonl和parquet两种格式的数据,方便不同场景使用

    使用教程

    1. 访问Nemotron-CC的官方网站,了解数据集的详细信息和下载方式

    2. 根据研究需求,选择合适的数据分区和格式进行下载

    3. 使用下载的数据集对语言模型进行预训练

    4. 在预训练过程中,根据模型表现调整训练参数和策略

    5. 利用预训练好的模型进行特定任务的微调和应用