通义实验室开源影视级配音大模型 Fun-CineForge

通义实验室发布并开源首个支持影视级多场景配音的多模态大模型 Fun-CineForge。模型基于 CosyVoice3 语音合成底层能力构建，核心技术创新在于首次将”时间模态”引入配音模型，使其在说话人面部缺失等复杂场景下仍可实现音画同步，支持独白、旁白、对话及多说话人等多种影视配音场景，当前支持 30 秒以内视频片段推理。