
近日,美团正式发布其最新的开源大语言模型 LongCat(龙猫),旨在推动人工智能技术的发展和应用。该模型的发布不仅标志着美团在AI领域的又一重要进展,也为开发者和研究人员提供了一个功能强大的新工具。
LongCat 的核心版本 LongCat-Flash 拥有560亿个参数,其核心优势在于创新的混合专家(MoE)架构。这种架构通过动态计算机制,根据上下文需求仅激活18.6B至31.3B的参数(平均约27B),大幅优化了计算效率。这使得 LongCat 在推理过程中能达到每秒超过100个标记的处理能力,展现了卓越的性能。
在技术实现上,美团特别注重模型的训练稳定性与扩展性。通过一系列优化策略,LongCat 能够在超过十万个加速器的规模上进行高效训练,并实现低延迟推理。此外,模型设计考虑到了参数激活的动态分配,确保在不同任务下的计算负载保持一致。
为了提升模型能力,LongCat 采用了多阶段训练管道。初期训练旨在构建基础模型,并通过数据融合策略进行优化;后期训练则进一步增强了其推理和编码能力,并将上下文长度扩展至128k,以满足更复杂的任务需求。
评估结果显示,LongCat 在多个基准测试中的表现与业界领先模型相当,特别是在 MMLU、数学推理和通用推理等领域展现出良好的准确率。这些成绩不仅证明了LongCat的技术实力,也为其在实际应用中的潜力奠定了基础。
美团表示,通过开放 LongCat 这一强大模型,希望能够促进AI技术的共享与发展,为更多开发者提供便利,从而推动整个行业的进步。LongCat的开源,无疑将成为未来AI应用的有力助手。
地址:https://longcat.chat/