文本

资讯

超强AI电商购物助手!Add To Cart AI:可理解文本、语音、图像，帮用户找到产品

在当今快速发展的电商行业中，AI电商购物助手发展也备受关注。Add To Cart AI 是一款专为电商平台设计的 AI 驱动购物助手，旨在帮助消费者更快找到心...

AI,电商,文本 07月30日 0 0
资讯

颠覆视频创作!阿里巴巴 VACE 模型统一处理文本、图像和视频输入

阿里巴巴集团的科学家们推出了 VACE，这是一种旨在统一处理广泛视频生成和编辑任务的通用人工智能模型。VACE 的核心是增强的扩散 Transformer 架构...

视频,阿里,文本 07月30日 0 0
资讯

昆仑万维开源Skywork-R1V 2.0版本视觉与文本推理能力提升

4月24日，昆仑万维宣布正式开源其多模态推理模型Skywork-R1V2.0（以下简称R1V2.0）。这一升级版本在视觉与文本推理能力上均实现了显著提升，特别是...

昆仑万维,开源,视觉,文本,推理能力 07月30日 0 0
资讯

阿里MNN神更新！移动端开源多模态AI支持Qwen-2.5，文本图像语音全搞定！

阿里巴巴开源项目MNN（Mobile Neural Network）发布了其移动端多模态大模型应用MnnLlmApp的最新版本，新增对Qwen-2.5-Omni...

阿里,开源,多模态,AI,Qwen,文本 07月30日 0 0
资讯

全新音频问答模型 Omni-R1：利用文本驱动的强化学习和自动生成的数据推进音频问答

最近，一项来自 MIT CSAIL、哥廷根大学、IBM 研究所等机构的研究团队提出了一个名为 Omni-R1的全新音频问答模型。该模型在 Qwen2.5-Omn...

音频,问答,文本,强化学习,数据 07月30日 0 0
资讯

从文本到电影！谷歌Veo3 震撼发布：4K画质、音视频一体生成

在2025年5月20日举办的Google I/O开发者大会上，谷歌正式发布了其最新一代视频生成模型Veo3，标志着人工智能视频生成技术迈向新高峰。Veo3不仅在...

文本,谷歌,Veo3 ,视频 07月30日 0 0
资讯

谷歌Imagen 4图像模型震撼发布：2K画质与精准文本渲染重塑AI创作

谷歌正式推出了其最新一代图像生成模型Imagen4，进一步巩固了其在生成式AI领域的领先地位。Imagen4以更高的图像质量、更精准的提示理解和卓越的文本渲染能...

谷歌,文本,AI 07月30日 0 0
资讯

谷歌Gemma 3n发布！可在手机上流畅跑多模态AI，音频+图像+文本全能

谷歌在I/O2025大会上正式揭晓Gemma3n，一款专为低资源设备设计的多模态AI模型，仅需2GB RAM即可在手机、平板和笔记本电脑上流畅运行。Gemma3...

谷歌,多模态,AI,音频,文本 07月30日 0 0
资讯

谷歌推出 MedGemma AI 模型：医疗图像与文本分析的革命性工具

在刚刚结束的2025年 I/O 开发者大会上，谷歌宣布开源全新医疗 AI 模型 ——MedGemma。这款基于 Gemma3架构的模型专为医疗领域设计，具备强大...

谷歌,AI,医疗,文本 07月30日 0 0
资讯

多模态大模型MMaDA：让AI学会「跨次元思考」，文本图像通吃的全能型选手来了！

最近，普林斯顿大学、字节跳动、清华大学和北京大学联手搞了个大事情，推出了一款名为 MMaDA 的多模态大模型! 这可不是普通的 AI，它号称能让 AI 拥有“深...

多模态,大模型,AI,文本 07月30日 0 0

点击加载更多