视觉

资讯

苹果放大招！FastVLM 让视觉语言模型在 iPhone 上飞速 “狂飙”

苹果最近又搞了个大新闻，偷偷摸摸地发布了一个叫 FastVLM 的模型。听名字可能有点懵，但简单来说，这玩意儿就是让你的 iPhone 瞬间拥有了“火眼金睛”，...

苹果,视觉,语言模型 07月31日 0 0
资讯

通义开源视觉感知多模态RAG推理框架VRAG-RL

近日，通义实验室自然语言智能团队正式发布并开源了VRAG-RL——一款视觉感知驱动的多模态RAG推理框架，旨在解决在真实业务场景中，AI如何从图像、表格、设计稿...

通义,开源,视觉,多模态,RAG 07月31日 0 0
资讯

苹果 WWDC 2025:iOS 26升级视觉智能，AI 助力屏幕内容识别

苹果全球开发者大会（WWDC2025）在 Apple Park 隆重召开。此次大会上，苹果公司重磅发布了 iOS26系统的全新功能，带来了视觉智能(Visual...

苹果,WWDC,2025,iOS,升级,视觉,AI 07月31日 0 0
资讯

英伟达与港大携手推出新型视觉注意力机制，提升高分辨率生成速度超 84 倍！

近日，香港大学与英伟达共同研发了一种新的视觉注意力机制，名为广义空间传播网络（GSPN），该机制在高分辨率图像生成方面取得了显著的突破。传统的自注意力机制虽然在...

英伟达,视觉,生成速度 07月31日 0 0
资讯

月之暗面开源 Kimi-2506：多模态智能体，视觉理解能力重大升级

近日，国内知名大模型平台 “月之暗面” 正式发布了其开源的多模态模型 Kimi-VL-A3B-Thinking 的最新版本 ——Kimi-2506。这一版本的发...

月之暗面,开源,Kimi,多模态,智能体,视觉,升级 07月31日 0 0
资讯

Vibemotion AI发布！一键生成动态视频，零门槛创作引爆视觉革命

近日，创新型AI公司Vibemotion推出了一款革命性的AI动态图形平台，旨在通过简单的提示和素材输入，让用户轻松创建高质量的动态视频。目前，该平台采用等候名...

AI,视频,视觉 07月31日 0 0
资讯

Stream-Omni：同时支持各种模态组合交互,开启文本、视觉、语音结合

在人工智能技术飞速发展的今天，中国科学院计算技术研究所自然语言处理团队推出了一款名为 Stream-Omni 的文本 - 视觉 - 语音多模态大模型。这一模型的...

文本,视觉 07月31日 0 0
资讯

字节跳动AI核心人事变动:视觉多模态负责人杨建朝宣布“暂时休息”

据网易科技报道称，字节跳动豆包大模型视觉多模态方向负责人杨建朝宣布“暂时休息”，并完成工作交接。其职位将由原阿里M6大模型技术负责人周畅（花名“时光”）接任，继...

字节,AI,视觉,多模态 07月31日 0 0
资讯

字节跳动视觉大模型负责人杨建朝宣布暂时休息，周畅接任引发关注

近日，字节跳动的视觉大模型团队迎来了重要人事变动。该团队负责人杨建朝在内部宣布将 “暂时休息”，由周畅接任。这一决定不仅引起了字节跳动内部的关注，也在外界引发了...

字节,视觉,大模型 07月31日 0 0
资讯

高通AI重磅发布CSD-VAR：视觉自回归模型内容-风格分解新突破，解锁创意生成新高度！

近日，高通AI研究院（Qualcomm AI Research）推出了一项颠覆性技术——CSD-VAR，通过创新的内容-风格分解方法，进一步提升了视觉自回归模型...

高通,AI,AR,视觉 07月31日 0 0

点击加载更多