近日,Meta 与滑铁卢大学的研究团队共同开发了一款名为 MoCha 的人工智能系统,该系统能够根据文本或语音输入生成带有同步语音和自然动作的完整角色动画。这一创新技术不仅打破了传统动画生成的局限,还为内容创作带来了全新的可能性。
1. 核心技术与创新突破
MoCha 系统的核心亮点在于其能够生成全身动画,而不仅仅是面部表情或嘴型。它通过“语音-视频窗口注意力”机制,解决了视频压缩与音频分辨率不匹配以及唇部动作错位的问题。该机制通过限制每帧画面访问特定窗口范围内的音频数据,模拟人类语音的运作方式,使角色的口型与对话内容精准匹配,同时肢体语言也与文本所表达的含义自然契合。 此外,MoCha 还采用了扩散变压器(Diffusion Transformer)架构,能够生成逼真且富有表现力的全身动作。在多角色场景中,用户可以通过简单的标签(如“人物1”“人物2”)引用角色,无需重复描述,极大地简化了创作流程。
https://www.yumiok.com/wp-content/uploads/2025/04/1743599239-MoCha.mp4