通义实验室开源影视级配音大模型 Fun-CineForge

通义实验室发布并开源首个支持影视级多场景配音的多模态大模型 Fun-CineForge。模型基于 CosyVoice3 语音合成底层能力构建,核心技术创新在于首次将”时间模态”引入配音模型,使其在说话人面部缺失等复杂场景下仍可实现音画同步,支持独白、旁白、对话及多说话人等多种影视配音场景,当前支持 30 秒以内视频片段推理。

Previous:

Next:

发表回复

Please Login to Comment
SHARE
TOP
🍉
🔈Hi,朋友。欢迎来到木木的博客小站!