Crawl4llm

使用场景研究人员使用Crawl4LLM从ClueWeb22数据集中爬取高质量文档,用于LLM的预训练。开发者利用Crawl4LLM的灵活配置,自定义爬取策略,以...