文本

资讯

OCR 2.0模型来了！图表、几何图形、音乐符号均转换为可编辑文本

最近，研究人员开发了一种新的通用光学字符识别（OCR）模型，名为 GOT(通用 OCR 理论)。在他们的论文中，首次提出了 “OCR2.0” 的概念，这个新模型...

音乐,文本 07月30日 0 0
资讯

Google AI推出Gemma-APS：革新文本分割的新型命题解析模型

Google AI近日发布了Gemma-APS，这是一套专门用于文本到命题分割的模型集合，旨在解决当前机器学习模型在处理复杂人类语言时面临的诸多挑战。Gemma...

Google,AI,文本 07月30日 0 0
资讯

颠覆 Stable Diffusion！智源重磅发布 Emu3，图像、文本、视频全拿下！

来自智源研究院的Emu3团队发布了一套全新的多模态模型Emu3，该模型仅基于下一个token预测进行训练，颠覆了传统的扩散模型和组合模型架构，在生成和感知任务上...

Stable Diffusion,Emu3,文本,视频 07月30日 0 0
资讯

智源发布原生多模态世界模型Emu3：仅靠下一个token预测实现文本、图像和视频理解和生成

智源研究院正式发布了他们的新一代多模态世界模型 Emu3，该模型的最大亮点在于，它仅依靠下一个 token 的预测能力，就能在文本、图像和视频这三种不同模态中进...

多模态,世界模型,Emu3,预测,文本,视频 07月30日 0 0
资讯

Rhymes AI开源视频生成模型Allegro：文本秒变高清视频

近日，人工智能公司 Rhymes AI 正式开源其先进的文本生成视频模型 Allegro。Allegro 允许用户将简单的文字描述转换为高质量的短视频片段，为人...

AI,开源,视频,文本,高清视频 07月30日 0 0
资讯

Cohere推出多模态搜索模型Embed3，可用文本、图片检索文件

Cohere 发布了最先进的多模态 AI 搜索模型 Embed3—— 现在支持多模态搜索，这意味着用户不仅可以通过文本，还能通过图像进行企业级的检索。Embed...

多模态,搜索,文本 07月30日 0 0
资讯

AI智能指环L-Ring2来了！集成ChatGPT 4o，实时翻译、语音转文本、手势控制通通支持

最近，一款名为 L-Ring2的智能戒指在 Kickstarter 上引起了广泛关注。这款产品不仅外观时尚，还融合了尖端的人工智能技术，支持实时翻译语言，语音转...

AI,ChatGPT,GPT,翻译,文本 07月30日 0 0
资讯

谷歌开源AI文本水印工具SynthID 一眼识别出AI生成内容

最近，谷歌宣布将其文本水印工具 SynthID 开源，旨在帮助开发者更好地识别 AI 生成的文本。这一工具现已通过谷歌的 “负责任生成 AI 工具包” 向公众开...

谷歌,开源,AI,文本,SynthID 07月30日 0 0
资讯

ElevenLabs 推出AI语音生成工具 Voice Design 简单文本即可创建个性化语音

ElevenLabs日前发布全新AI语音生成工具Voice Design，通过简单的文本描述即可创建个性化语音，开创了AI配音领域的新纪元。这款工具最大的特点是...

ElevenLabs,AI,文本,个性化 07月30日 0 0
资讯

Google DeepMind 为 Gemini 开源 AI 文本水印

近日，Google DeepMind 正在将其 SynthID 技术集成到其 Gemini 模型中，并将其作为开源项目发布。SynthID for Text 使...

Google,DeepMind,开源,AI,文本 07月30日 0 0

点击加载更多