视觉

资讯

视觉语言模型新突破！Visual ARFT 助力多模态智能体能力

随着人工智能的迅猛发展，尤其是在大型推理模型领域，如 OpenAI 的 o3，研究者们正在努力让这些模型具备更强的智能体能力。这种能力不仅仅局限于文本处理，更扩...

视觉,语言模型,AR,多模态,智能体 07月30日 0 0
资讯

多模态大模型视觉推理能力评估:o3 仅得 25.8% 分数

近日，由清华大学、腾讯混元、斯坦福大学及卡耐基梅隆大学的研究团队联合发布了一项新评估基准 ——RBench-V，专门针对多模态大模型的视觉推理能力进行测试。该基...

多模态,大模型,视觉,推理能力 07月30日 0 0
资讯

快手All in AI视觉！成立可灵AI事业部，加速大模型商业化

4 月 30 日，快手发布组织架构调整公告，宣布正式成立可灵AI事业部，进一步强化其在人工智能领域的战略布局。公告显示，新成立的可灵AI事业部下设可灵AI产品部...

快手,AI,视觉,可灵,加速,大模型,商业化 07月31日 0 0
资讯

KREA AI携手ChatGPT推出视觉提示编辑功能，释放图像创作新潜能

KREA AI近日推出了一项令人振奋的功能更新，通过集成OpenAI的GPT图像API，用户可利用编辑标记、基本形状、注释和参考图像，以视觉方式提示ChatGP...

AI,ChatGPT,GPT,视觉 07月31日 0 0
资讯

商汤科技携手中移动香港与香港中文大学法学院开展视觉 AI 与大模型领域合作

近日，商汤科技在香港与中国移动香港有限公司及香港中文大学法学院签署了合作备忘录，正式启动在视觉人工智能（AI）与大模型技术等领域的深入合作。这一合作旨在利用三方...

商汤,科技,香港中文大学,大模型,视觉,AI,合作 07月31日 0 0
资讯

消息称通义视觉负责人薄列峰离职或加入某大厂新组建多模态团队

据多方信源透露，阿里巴巴通义实验室应用视觉团队负责人薄列峰（职级P10）已于2024年4月30日正式离职，并低调加盟某头部互联网公司，出任新设立的多模态模型部副...

通义,视觉,多模态 07月31日 0 0
资讯

字节跳动携手港大与华中科技大学推出UniTok，革新视觉分词技术

近日，字节跳动联合香港大学和华中科技大学共同推出了全新的视觉分词器 UniTok。这款工具不仅能在视觉生成和理解任务中发挥作用，还在技术上进行了重要创新，解决了...

字节,科技大,视觉 07月31日 0 0
资讯

Gemini2.0Flash图像生成升级:视觉质量大幅提升，文字更清晰

Google于近日宣布，旗下Gemini2.0Flash图像生成功能迎来重要升级，用户现可通过Google AI Studio体验最新模型:gemini-2.0...

图像生成,升级,视觉 07月31日 0 0
资讯

谷歌再破界限：Gemini 2.5 Pro实现6小时视频理解，AI视觉能力迈入新纪元

谷歌Gemini2.5Pro视频理解能力再升级，这款旗舰AI模型不仅支持长达6小时的视频分析，还拥有高达200万Token的超大上下文窗口，同时首次实现通过AP...

谷歌,视频,视觉,AI 07月31日 0 0
资讯

苹果发布FastVLM模型，可在iPhone上运行的极速视觉语言模型

苹果正式发布FastVLM，一款专为高分辨率图像处理优化的视觉语言模型（VLM），以其在iPhone等移动设备上的高效运行能力和卓越性能引发行业热议。FastV...

苹果,视觉,语言模型 07月31日 0 0

点击加载更多