

注册

开源

 提交网站

腾讯混元发布图生视频模型并对外开源
腾讯混元发布图生视频模型并对外开源，同时上线对口型与动作驱动等玩法，并支持生成背景音效及2K高质量视频。基于图生视频的能力，用户只需上传一张图片，并简短描述希望画面如何运动、镜头如何调度等，混元即可按要求让图片动起来，变成5秒的短视频，还能...
03-06 3470已赞
首个可保留情感的音频LLM！Meta重磅开源7B-Spirit LM，一网打尽「音频+文本」多模态任务
Meta最近开源了一个7B尺寸的Spirit LM的多模态语言模型，能够理解和生成语音及文本，可以非常自然地在两种模式间转换，不仅能处理基本的语音转文本和文本转语音任务，还能捕捉和再现语音中的情感和风格。
11-25 3120已赞