通义实验室发布并开源首个支持影视级多场景配音的多模态大模型 Fun-CineForge。模型基于 CosyVoice3 语音合成底层能力构建,核心技术创新在于首次将”时间模态”引入配音模型,使其在说话人面部缺失等复杂场景下仍可实现音画同步,支持独白、旁白、对话及多说话人等多种影视配音场景,当前支持 30 秒以内视频片段推理。
通义实验室开源影视级配音大模型 Fun-CineForge
Previous: 月之暗面发布 Attention Residuals 技术
Next: Apple 发布 AirPods Max 2