腾讯发布“混元图像3.0”，引领多模态图像生成新潮流

AI 2025-10-02 09:34:27

资讯

近日，腾讯正式开源发布了混元图像 3.0，这是首个开源的工业级原生多模态图像生成模型，参数规模高达 800 亿。该模型的发布标志着腾讯在多模态图像生成领域取得了重大突破，为人工智能生成内容（AIGC）技术的发展注入了新的活力。

一、强大的模型性能

混元图像 3.0 拥有 800 亿总参数量和 130 亿激活参数，采用 64 个专家的 MoE（混合专家）架构，是目前全球最大的开源文本生成图像模型。其生成效果能够对标业界头部闭源模型，具备基于世界知识推理的原生多模态能力，能够结合常识和专业知识生成更准确、更丰富的图像内容。此外，该模型还支持 1000+ 字符的复杂语义理解，这在同类开源模型中极为罕见。

二、独特的技术架构

混元图像 3.0 的亮点在于其“原生多模态”技术架构，允许用户通过一个模型同时处理文字、图片、视频和音频等多种输入和输出形式，而不再依赖多个模型的组合。这种创新使得模型具备了图像生成和语义理解的双重能力，类似于一个拥有思考能力的“智能画家”。

三、广泛的应用场景

混元图像 3.0 可以应用于多种场景，如生成九宫格素描教程和算法流程可视化、解释物理原理、历史事件、生物过程、基于文学作品和诗歌创作视觉作品等。此外，它还能支持海报设计中的标题文字、信息图表中的注释文本、品牌标识和标志、多语言文本混合等图像内文本生成任务。

四、系列技术矩阵的完善

混元图像 3.0 是继今年 5 月发布的 2.0 版本后的又一重要升级。此前的 2.0 版本已实现毫秒级响应速度与超写实画质表现，支持实时生图功能。而 3.0 版本则在此基础上，进一步增强了模型的复杂性与表现力。腾讯混元系列此前已陆续开源 3D 生成模型（2.0 及 2.5 版本）、定制化图像生成插件 InstantCharacter，以及多模态视频生成工具 HunyuanCustom，形成了完整的 AIGC 技术矩阵。腾讯混元图像 3.0 的发布，不仅为创作者提供了强大的工具，也将推动整个 AIGC 行业的发展，为未来的图像生成和内容创作带来更多的可能性。