视觉

资讯

AI日报：可灵AI API对口型能力全面开放；豆包大模型宣称追平GPT-4；百度2024年度AI提示词“答案”；通义千问视觉模型直降80%

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产...

AI,API,可灵,对口型,豆包,大模型,GPT,百度,提示词,通义,视觉 07月30日 0 0
资讯

GPT-4o 级别！VITA-1.5：实时视觉与语音交互， 1.5秒互动延迟

近日，VITA-MLLM 团队宣布推出 VITA-1.5，这是该团队在 VITA-1.0基础上推出的升级版本，致力于提升多模态交互的实时性与准确性。VITA-1...

GPT,视觉,语音交互 07月30日 0 0
资讯

中文视觉语音开源模型VITA-1.5发布具备类GPT 4o高级语音和视觉能力

最近，多模态大型语言模型（MLLM）取得了显著进展，特别是在视觉和文本模态的集成方面。但随着人机交互的日益普及，语音模态的重要性也日益凸显，尤其是在多模态对话系...

视觉,开源,GPT 07月30日 0 0
资讯

前微软视觉专家胡瀚加盟腾讯，全面负责混元多模态大模型研发

前微软亚洲研究院视觉计算组的首席研究员胡瀚已正式加入腾讯，接替已离职的前腾讯混元大模型技术负责人刘威，承担起多模态大模型的研发任务。这一消息引起了业界的广泛关注...

微软,视觉,腾讯,混元,多模态,大模型 07月30日 0 0
资讯

前微软视觉专家胡瀚加盟腾讯，掌舵多模态大模型研发

近日，前微软亚洲研究院的视觉计算组首席研究员胡瀚正式加盟腾讯，负责混元多模态大模型的研发工作。这一消息引发了业内的广泛关注，胡瀚的加入被认为将为腾讯的人工智能事...

微软,视觉,腾讯,多模态,大模型 07月30日 0 0
资讯

视觉中国：加快推进“AI技术+视觉数据+应用场景”落地

近日，视觉中国宣布，将加快推进“AI技术+视觉数据+应用场景”的落地。作为国内较早将互联网技术应用于版权视觉内容服务的文化科技企业，视觉中国正积极与合作伙伴探索...

视觉,AI,数据,应用 07月30日 0 0
资讯

Gemini AI 实现视觉处理新突破：实时视频与静态图像同步分析

谷歌的 Gemini AI 近期实现了一个令人瞩目的技术突破，它能够同时处理多个视觉流，这在人工智能领域是一项前所未有的成就。这一功能的亮相并不是通过谷歌的主流...

AI,视觉,视频 07月30日 0 0
资讯

OpenBMB发布多模态模型MiniCPM-o2.6 手机也能进行视觉和语音处理

近年来，人工智能技术取得了显著进展，但在计算效率与多功能性之间仍然存在挑战。许多先进的多模态模型，如 GPT-4，通常需要大量的计算资源，这限制了它们在高端服务...

多模态,视觉 07月30日 0 0
资讯

Runway推全新AI图像生成器Frames，打造电影级视觉表现

AI 媒体科技公司 Runway 宣布推出其最新的文本生成图像模型 ——Frames。作为一家以 AI 视频模型闻名的公司，Runway 此举意在扩展其在图像创...

Runway,AI,图像生成,视觉 07月30日 0 0
资讯

淘天推出创新对齐方法，解决视觉大模型中的幻觉问题

近年来，视觉大模型（Large Vision Language Models， LVLMs）在图像理解和跨模态任务中展现出非凡的能力，然而随之而来的 “幻觉现象...

创新,视觉,大模型 07月30日 0 0

点击加载更多