近日,阿里巴巴通义实验室推出了一种名为 ZeroSearch 的强化学习框架,该框架能够在无需与真实搜索引擎交互的情况下,显著提升大型语言模型(LLM)的搜索能力。这一创新技术不仅解决了传统方法中搜索引擎返回文档质量不可控和 API 成本过高的问题,还通过轻量级监督微调和课程学习机制,逐步提升模型的推理能力,展现了强大的扩展性和通用性。论文地址:https://arxiv.org/pdf/2505.04588
近日,阿里巴巴通义实验室推出了一种名为 ZeroSearch 的强化学习框架,该框架能够在无需与真实搜索引擎交互的情况下,显著提升大型语言模型(LLM)的搜索能力。这一创新技术不仅解决了传统方法中搜索引擎返回文档质量不可控和 API 成本过高的问题,还通过轻量级监督微调和课程学习机制,逐步提升模型的推理能力,展现了强大的扩展性和通用性。论文地址:https://arxiv.org/pdf/2505.04588