Voice Cursor

使用场景开发者可以利用Voice Cursor创建具有语音反馈的文本编辑器,提高视障人士的写作体验。内容创作者可以使用Voice Cursor将文本内容转换为音...

  • Voice Cursor

    类别:开发与工具,AI模型,Gemini 2.0,文本到语音,实验性项目,Google Creative Lab,无障碍技术,普通产品,开源,
    官网:https://github.com/googlecreativelab/gemini-demos/tree/main/voice-cursor 更新时间:2025-08-02 10:06:04
  • 使用场景

    开发者可以利用Voice Cursor创建具有语音反馈的文本编辑器,提高视障人士的写作体验。

    内容创作者可以使用Voice Cursor将文本内容转换为音频,为视频和播客制作提供素材。

    教育工作者可以利用Voice Cursor将教学材料转换为音频,为有阅读障碍的学生提供辅助学习工具。

    产品特色

    集成Gemini 2.0文本到语音能力

    提供8种不同的Gemini声音选项,具有独特特征

    支持15种不同的情感语调,以塑造文本的表达方式

    视觉集成,通过颜色编码高亮显示使用的声音和语调

    即时生成,由Gemini的最新模型提供快速的音频合成

    克隆仓库并安装依赖以开始使用

    创建包含AI Studio API密钥的.env.local文件以启用功能

    启动开发服务器以在本地测试和体验

    使用教程

    1. 克隆Voice Cursor的GitHub仓库到本地环境。

    2. 安装项目所需的依赖。

    3. 创建一个.env.local文件,并填入从Google AI Studio获取的API密钥。

    4. 启动开发服务器,通常通过运行命令`npm run dev`。

    5. 在浏览器中打开`http://localhost:3000`,开始体验Voice Cursor。

    6. 高亮显示文本,Voice Cursor将根据选择的声音和语调生成音频。

    7. 探索不同的情感语调选项,通过修改`src/lib/tone-options.ts`文件来自定义音频输出。