aibase发布于AI新闻资讯2025年8月26号 11:311分钟

面壁智能(FaceWall Intelligence)携手清华大学NLP实验室,正式发布其最新端侧多模态大模型 MiniCPM-V4.5,标志着边缘AI技术迈向全新高度。

image.png

作为MiniCPM系列的最新力作,该模型以卓越的性能、高效的部署能力和广泛的应用场景,再次刷新了业界对端侧多模态模型的期待。以下,AIbase为您详细解析这一突破性技术。

image.png

技术突破:更小参数,更强性能

MiniCPM-V4.5基于SigLIP2-400M视觉模块与MiniCPM4-3B语言模型构建,总参数量仅为 4.1亿,却在多项基准测试中展现出惊艳表现。据官方数据,MiniCPM-V4.5在OpenCompass综合评估中取得 69.0的平均得分,超越了GPT-4.1-mini(20250414版本,64.5分)以及Qwen2.5-VL-3B-Instruct(64.5分),成为端侧多模态模型的性能标杆。相比前代MiniCPM-V2.6(8.1亿参数,65.2分),新模型在参数量大幅减少的同时,性能提升显著,充分体现了面壁智能在模型压缩与优化上的深厚技术积累。

多模态能力升级:视觉、文本、视频全能

MiniCPM-V4.5支持 单图、多图及视频理解,并在高分辨率图像处理、OCR(光学字符识别)以及多语言支持方面表现出色。

  • 视觉能力:模型可处理高达 180万像素(1344x1344) 的图像,支持任意宽高比,OCR性能在OCRBench上超越GPT-4o、Gemini1.5Pro等主流专有模型。
  • 多图与视频理解:在Mantis-Eval、BLINK和Video-MME等基准测试中,MiniCPM-V4.5展现出领先的多图推理和视频时空信息处理能力,适用于复杂场景下的内容分析。
  • 多语言支持:继承MiniCPM系列的多语言优势,模型支持英语、中文、德语、法语、意大利语、韩语等 30多种语言,为全球用户提供无缝的多模态交互体验。

高效部署:专为边缘设备优化

MiniCPM-V4.5在效率方面堪称典范。得益于其 高 token 密度(处理180万像素图像仅需640个视觉token,较多数模型减少75%),模型在推理速度、首token延迟、内存占用和功耗上均有显著优化。测试显示,MiniCPM-V4.5在 iPhone16Pro Max 上实现 首token延迟低于2秒,解码速度超过 17token/s,无明显发热问题。这使得模型能够轻松部署于智能手机、平板电脑等边缘设备,满足移动、离线和隐私保护场景的需求。

此外,MiniCPM-V4.5支持多种部署方式,包括 llama.cpp、Ollama、vLLM 和 SGLang,并提供iOS应用支持,极大降低了开发者的使用门槛。

开放生态:推动学术与商业创新

面壁智能延续其开放源代码的传统,MiniCPM-V4.5遵循 Apache2.0许可证,向学术研究人员完全开源,商业用户通过简单注册即可免费使用。这一举措进一步降低了多模态AI的进入壁垒,推动了学术研究与商业应用的双向发展。截至目前,MiniCPM系列已在GitHub和HuggingFace上累计获得 超百万次下载,成为边缘AI领域的标杆模型。

MiniCPM-V4.5的发布不仅展示了面壁智能在多模态大模型领域的领先地位,也为边缘AI的普及化应用指明了方向。从实时视频分析到智能文档处理,再到多语言交互,MiniCPM-V4.5的广泛适用性为教育、医疗、内容创作等行业带来了新的可能性。

AIbase认为,随着端侧计算能力的快速提升和模型效率的持续优化,MiniCPM-V4.5有望成为边缘设备上媲美云端AI的“新常态”。

项目:https://huggingface.co/openbmb/MiniCPM-V-4_5

0个人收藏 收藏

评论交流