当前位置：首页 » 文章

苹果发布87亿参数视频生成大模型STIV

苹果公司近日发布了一款名为STIV的视频生成大模型，该模型拥有87亿参数，能够处理文本和图像条件的视频生成任务，统一了文本到视频（T2V）和文本-图像到视频（TI2V）的任务。STIV模型基于PixArt-Alpha架构，通过变分自编码器将输入帧转换为时空潜变量，并使用Diffusion Transformer（DiT）块进行处理。模型的创新点包括时空注意力分解、条件嵌入、旋转位置编码（RoPE）和流匹配目标等，这些优化提升了模型的训练稳定性和生成质量。实验结果显示，STIV在VBench基准数据集上表现优异，超越了PIKA、KLING和GEN-3等模型。此外，STIV模型还易于扩展至视频预测、帧插值和长视频生成等任务，为视频生成模型在未来多种应用场景中的推广奠定了基础。

-=||=-收藏赞 (0)

Apple STIV 参数苹果视频生成视频生成模型

苹果发布87亿参数视频生成大模型STIV

评论 ( 0 )

取消回复