要点:
1、创新性文生视频模型FreeInit通过重新初始化噪声,改进时间的一致性。
2、研究人员发现视频扩散模型的推理初始化噪声中低频信息很难被完全移除。
3、FreeInit通过多次迭代重复采样优化过程,提升低频信息质量,改善生成视频质量。
站长之家1月5日 消息:南洋理工大学S实验室的研究人员开源了一种创新性文生视频模型,名为FreeInit。他们发现视频扩散模型在生成视频时存在时间一致性不足和不自然的动态效果。
为了解决这个问题,他们提出了一种通过重新初始化噪声的方法来改善时间一致性。他们发现视频扩散模型的推理初始化噪声中低频信息很难被完全移除,这可能是导致生成视频效果不佳的原因之一。为了验证FreeInit的有效性,研究人员进行了大量实验,结果显示FreeInit可以显著提高模型的时间一致性指标。
具体来说,FreeInit的采样优化过程包括多个步骤:
推理的第一步,FreeInit先初始化独立高斯噪声,然后通过离散采样策略采样生成初步的视频潜码。
利用扩散模型的去噪功能,从完全随机的噪声中采样出较为清晰的视频潜码。
获取上一步生成视频潜码的带有时间相关性的噪声版本,将生成的视频潜码通过原始的高斯噪声进行正向扩散过程,使其重新含有低频时间相关信息。
将含低频相关性噪声与新的高斯噪声高频部分结合,得到重新初始化的噪声,并为下一轮采样的初始提供输入。
通过多次重复迭代,FreeInit可以进一步累积提升低频信息质量,逐步弥合训练和推理的初始化差距,从而改善生成视频的质量和时间一致性。研究人员表示,FreeInit在多个文到视频生成模型上进行的实验中取得了较好的效果。他们开源了FreeInit的代码和论文,供研究者们参考和使用。