2025年3月25日,中国人工智能初创公司DeepSeek在没有任何预告的情况下,于Hugging Face平台上线了其最新大语言模型——DeepSeek-V3-0324。这一低调的发布迅速在技术社区引发热议,众多开发者和AI爱好者分享了他们的初步体验与期待。

一、神秘发布:静悄悄亮相的6850亿参数巨兽

DeepSeek-V3-0324的参数量达到了6850亿,相较于上一代的6710亿参数,此次更新虽被官方定义为“小版本迭代”,但其性能提升却远超预期。据技术社区报道,该模型仅通过一条群组消息通知了这一升级,并迅速在Hugging Face上开源,供所有人免费下载。

二、性能飞跃:数学与编程能力显著提升

此次更新的核心亮点在于性能的显著提升。初步测试显示,DeepSeek-V3-0324在数学能力和编程能力方面均有明显进步。其代码生成效果接近Claude 3.7 Sonnet,数学解题能力媲美专业推理模型。此外,该模型还融合了多头潜在注意力(MLA)和多标记预测(MTP)技术,输出速度提高了近80%。

三、开源新姿态:MIT协议下的社区热烈反响

DeepSeek-V3-0324采用了更为宽松的MIT开源协议,允许用户免费下载和用于商业用途。这一变化被广泛视为积极发展,技术评论者指出,开源与性能提升的双重优势,使DeepSeek-V3-0324被视为潜在的行业变革者。

四、用户体验:从官网到API的无缝切换

DeepSeek在此次更新中优化了用户体验。用户只需在官网关闭“深度思考”功能,即可直接使用V3-0324版本,而API接口和使用方法保持不变。这种无缝切换设计降低了使用门槛,受到社区好评。 尽管此次更新被标记为“小版本升级”,但技术社区普遍猜测,这是否为即将推出的DeepSeek-R2铺路。此前,DeepSeek的R1模型在逻辑推理和数学任务上与OpenAI的o1模型展开竞争,而V3-0324的发布被视为为下一代推理模型积累技术基础。 DeepSeek-V3-0324的发布延续了该公司一贯的风格:低调发布,出色表现。从6850亿参数的规模,到数学与编程能力的显著提升,再到MIT协议的开源策略,这款模型无疑为AI领域注入了新的活力。随着更多评测结果的出炉,DeepSeek-V3-0324能否真正撼动现有AI格局,仍是未来数周值得关注的焦点。

AD:精心整理了2000+好用的AI工具!点此获取

0个人收藏 收藏

评论交流