4月17日晚,阿里巴巴开源通义万相“首尾帧生14B模型”,这是业界首个开源的百亿级参数规模首尾帧生模型,它可根据用户指定的开始和结束,生成一段能衔接首尾画面的720p高清,满足延时摄影、变身等更可控、更定制化的生成需求。用户可在通义万相官网直接免费体验该模型,或在GitHub、Hugging Face、魔搭社区下载模型本地部署后进行二次开发。
首尾帧生比文生、单图生的可控性更高,是最受AI创据介绍,基于现有的Wan2.1文生基础模型架构,通义万相首尾帧生模型进一步引入了额外的条件控制机制,通过该机制可实现流畅且精准的首尾帧变换;在训练阶段,团队还构建了专门用于首尾帧模式的训练数据,同时针对文本与编码模块、扩散变换模型模块采用了并行策略,这些策略提升了模型训练和生成效率,也保障了模型具备高分辨率生成的效果。