最近,研究人员开发了一种新的通用光学字符识别(OCR)模型,名为 GOT(通用 OCR 理论)。在他们的论文中,首次提出了 “OCR2.0” 的概念,这个新模型...
音乐,文本
07月30日
0
Google AI近日发布了Gemma-APS,这是一套专门用于文本到命题分割的模型集合,旨在解决当前机器学习模型在处理复杂人类语言时面临的诸多挑战。Gemma...
Google,AI,文本
07月30日
0
来自智源研究院的Emu3团队发布了一套全新的多模态模型Emu3,该模型仅基于下一个token预测进行训练,颠覆了传统的扩散模型和组合模型架构,在生成和感知任务上...
Stable Diffusion,Emu3,文本,视频
07月30日
0
智源研究院正式发布了他们的新一代多模态世界模型 Emu3,该模型的最大亮点在于,它仅依靠下一个 token 的预测能力,就能在文本、图像和视频这三种不同模态中进...
多模态,世界模型,Emu3,预测,文本,视频
07月30日
0
近日,人工智能公司 Rhymes AI 正式开源其先进的文本生成视频模型 Allegro。Allegro 允许用户将简单的文字描述转换为高质量的短视频片段,为人...
AI,开源,视频,文本,高清视频
07月30日
0
Cohere 发布了最先进的多模态 AI 搜索模型 Embed3—— 现在支持多模态搜索,这意味着用户不仅可以通过文本,还能通过图像进行企业级的检索。Embed...
多模态,搜索,文本
07月30日
0
最近,一款名为 L-Ring2的智能戒指在 Kickstarter 上引起了广泛关注。这款产品不仅外观时尚,还融合了尖端的人工智能技术,支持实时翻译语言,语音转...
AI,ChatGPT,GPT,翻译,文本
07月30日
0
最近,谷歌宣布将其文本水印工具 SynthID 开源,旨在帮助开发者更好地识别 AI 生成的文本。这一工具现已通过谷歌的 “负责任生成 AI 工具包” 向公众开...
谷歌,开源,AI,文本,SynthID
07月30日
0
ElevenLabs日前发布全新AI语音生成工具Voice Design,通过简单的文本描述即可创建个性化语音,开创了AI配音领域的新纪元。这款工具最大的特点是...
ElevenLabs,AI,文本,个性化
07月30日
0
近日,Google DeepMind 正在将其 SynthID 技术集成到其 Gemini 模型中,并将其作为开源项目发布。SynthID for Text 使...
Google,DeepMind,开源,AI,文本
07月30日
0