注意看,这是一位在海边漫步的美女,可以让她「动」起来吗?
这是一位「梦幻」的皮克斯女孩,她会跳「活泼」的女团舞吗?
揭晓答案——
刚刚,腾讯混元上线并开源全新图生视频模型。只需三步,用户就可以用图片生成一支5秒长的短片:
登录混元AI视频官网,上传一张图片,输入创意描述——AI就能让画面动起来;还能让图片中的角色开口说话、唱歌(对口型),甚至是跳舞、做体操(动作驱动)。并且,腾讯混元还支持自动生成背景音效,视频画质最高可达 2K 高清。
目前,腾讯混元图生视频模型已在腾讯云上线,企业和开发者可通过官网申请调用API接口。腾讯混元还将其对外开源,包含权重、推理代码和LoRA训练代码,开发者可在Github、HuggingFace等主流社区下载。
来,直接带你「解锁」三大玩法:
//图生视频:支持2K高清画质,智能生成背景音效
目前,腾讯混元「图生视频」支持5秒短片生成——基于1.0通用模型,支持2K高清画质,适用于各种场景,生成视频稳定流畅。
用户上传图片后,可以按照「主体+动作」或「主体+动作+运镜方式」的格式,输入提示词文本,AI便能让静态画面「动」起来。
同时,腾讯混元还支持背景音效自动生成,如脚步声、衣物摩擦声、环境氛围音等,让静态图片真正变成可视、可听、可感的动态短片。
看几个案例——

按住画面移动小窗
提示词:变色龙在往前爬

按住画面移动小窗
提示词:她在微笑,眨眼睛

按住画面移动小窗
提示词:美女用手戴上了墨镜
//音频驱动:文本朗读+上传音频,AI精准对口型
音频驱动,就是让图片会开口说话、会唱歌。
用户上传一张人物图片,并选择输入文本或音频,AI 便能精准匹配嘴型,让人物流畅说话或演唱,甚至还能呈现符合语气的面部表情。
音频驱动有两种玩法,操作简单:
● 方式一:输入文本,AI 自动朗读 ——
用户可直接输入一段文字,AI 便会驱动人物开口朗读。目前,支持十多种声音模型,如温柔静静、少年阿北、气质婉君、清朗阿辰等。用户可以自由选择不同的发音风格,适用于虚拟人主播、短视频配音、动漫角色语音合成等场景。
比如,让这位汉服美女念一段绕口令,字正腔圆,毫无破绽:

按住画面移动小窗
或者是让欧洲帅哥为腾讯混元「带盐」,发音地道,腔调十足:

按住画面移动小窗
● 方式二:上传音频,AI 识别声音并对口型 ——
用户可直接上传一段真人语音(或影视剧音频片段),AI 会自动解析音频内容,并让图片中的角色嘴型精准匹配,流畅自然地开口讲话或演唱歌曲。
//动作驱动:5套动作模版,一键生成同款视频
想让静态人物不仅会动,还能「舞」出花样?
用户只需上传一张图片,并选择一个动作模版,AI 便能让图片中的人物精准复现跳舞、挥手、做体操等动作,甚至完成更复杂的表演。
这项能力不仅适用于舞蹈、短视频创作,还能广泛应用于游戏角色动画、影视制作、AI娱乐互动,大幅降低角色动画的创作成本,让虚拟形象的动作更加生动自然。
腾讯混元预置了5套动作模版,让用户随心所欲体验 AI 生成的趣味玩法。比如,开头的皮克斯女孩,其实还会跳好几种「舞蹈」:
腾讯混元图生视频模型,是在文生视频模型的基础上升级而来——
在保留超写实画质、流畅动作生成、原生镜头切换等核心能力的基础上,结合图像、文本、音频和姿态等多种输入条件,让模型能够捕捉到丰富的视觉和语义信息,实现对生成视频的多维度控制。
现在登录混元AI视频官网,开启想象力的自由探索,来试试吧!