就在最近苹果更新了一个新的模型,叫做FastVLM,是开源的,还只有7B,显存占用不到10多个GB,这个模型在依靠阿里Qwen2-7B做出更深度的训练。
这个模型最大的突破就是识别视频流,在算法层面上,论文指出其准确度都是最高
这个模型的生成原理如下,通过将视频将一阵一阵的图像进行处理,并且通过提取每一帧图像的特征再来汇总最后在第五步的时候将特征汇总,然后再通过文本向量数据库将其结果与其匹配。
这个模型不仅还可以在原生手机客户端运行,还能够支持web浏览器,可以精准的识别现实物理世界的物品、字体、甚至是内容含义,让开发者可以快速调用。
相较于其他AI产品经理,这个视觉生成模型最好的是提供了视觉一体化的方案,并且由于更低的延迟,可以大大增加在应用场景的使用,用户不需要等待太长时间,同时又不需要太多算力。
这个模型的参数只有7B,有用户测试在16GB的M2就可以完成测试。
AI模型的端到端离线,是用户的刚需
相较于其他模型,这个7B的模型也支持离线,保证了数据隐私和安全,并且这个模型支持高分别率图像理解,并且还能够支持图像与文本之间的关系,以及前面介绍的视频理解。
并且模型是最合适在MR与AR眼镜上,并且通过可以通过视觉能力能够在眼镜上,有了FastVLM就可支持拓展到RAG,从而支持更多场景,比如疾病诊断、生活打扫等场景,甚至是用到机器人视觉上。
因为本质上模型还是需要向量数据库,通过将视频转为文本之后再和RAG搭配就可用得到更多场景。
目前生成速度可以将2小时的视频字幕,在几秒内生成,如下是我做的视频生成测试,将手里拿着的瓶子进行识别,就可以得到可乐,即使瓶子不完整
在AI模型跑到端里,手机、平板电脑都可以使用,那么就可以让更多用户使用,而不是受限于GPU算力,从未来来看每个人都将使用AI,算力的要求都会逐步降低,达到人类可以用的智力水平,而更多的算力将用户解决普通人几乎不会涉及到的场景与问题。
因此,我建议AI产品经理收藏这个模型,并且可以基于此来优化做自己的产品设计。
今天的分享就到这里。
本文来自微信公众号“Kevin改变世界的点滴”(ID:Kevingbsjddd),作者:Kevin那些事儿,36氪经授权发布。