近日,DeepSeek 团队推出了其最新的实验性模型 DeepSeek-V3.2-Exp。该模型基于 V3.1-Terminus 构建,引入了 DeepSeek 稀疏注意力(DSA)技术,旨在更高效地处理长文本上下文,同时显著降低训练和推理的计算成本。
1. 核心技术突破:DeepSeek 稀疏注意力(DSA)
DeepSeek-V3.2-Exp 的核心创新在于 DeepSeek 稀疏注意力(DSA)技术。该技术通过实现细粒度的稀疏注意力,在几乎不影响输出质量的前提下,显著提升了长文本上下文的处理性能,并大幅降低了计算成本。根据官方提供的基准测试结果,V3.2-Exp 在性能上与 V3.1-Terminus 持平。
2. API 价格下调:性价比大幅提升
DeepSeek 团队宣布,API 价格大幅下调超过 50%,这一调整立即生效。此外,为了方便用户进行对比测试,V3.1-Terminus 将通过临时 API 在 2025 年 10 月 15 日 15:59(UTC 时间)之前继续提供服务。用户可以通过官方提供的链接了解详细的对比测试信息。
3. 开源释放:助力社区发展
DeepSeek 团队还开源了 DeepSeek-V3.2-Exp 模型,相关代码和文档可在 Hugging Face 和 GitHub 上找到。开源的举措不仅有助于社区的进一步研究和开发,也为研究人员提供了快速原型开发的工具,例如使用 TileLang 进行 GPU 内核的开发。
DeepSeek-V3.2-Exp 的发布,标志着 DeepSeek 团队在提升模型性能和降低成本方面迈出了重要一步,同时也为开发者和研究人员提供了更多的选择和资源。
AD:精心整理了2000+好用的AI工具!点此获取