苹果公司近日发布了一款名为STIV的视频生成大模型,该模型拥有87亿参数,能够处理文本和图像条件的视频生成任务,统一了文本到视频(T2V)和文本-图像到视频(TI2V)的任务。STIV模型基于PixArt-Alpha架构,通过变分自编码器将输入帧转换为时空潜变量,并使用Diffusion Transformer(DiT)块进行处理。模型的创新点包括时空注意力分解、条件嵌入、旋转位置编码(RoPE)和流匹配目标等,这些优化提升了模型的训练稳定性和生成质量。实验结果显示,STIV在VBench基准数据集上表现优异,超越了PIKA、KLING和GEN-3等模型。此外,STIV模型还易于扩展至视频预测、帧插值和长视频生成等任务,为视频生成模型在未来多种应用场景中的推广奠定了基础。
-=||=-收藏赞 (0)
评论 ( 0 )