苹果公司近日发布了一款名为STIV的视频生成大模型,该模型拥有87亿参数,能够处理文本和图像条件的视频生成任务,统一了文本到视频(T2V)和文本-图像到视频(TI2V)的任务。STIV模型基于PixArt-Alpha架构,通过变分自编码器将...
微信咨询
关注公众号
回顶部