首页 / 作品展示 / 作品详情
腾讯混元再开源:这次,是图生视频_

腾讯混元再开源:这次,是图生视频_

发布日期:2026-06-02 11:52 小旭音乐
腾讯混元再开源:这次,是图生视频_
图片


注意看,这是一位在海边漫步的美女,可以让她「动」起来吗?


图片


这是一位「梦幻」的皮克斯女孩,她会跳「活泼」的女团舞吗?


揭晓答案——


图片

图片


刚刚,腾讯混元上线并开源全新图生视频模型。只需三步,用户就可以用图片生成一支5秒长的短片:


登录混元AI视频官网,上传一张图片,输入创意描述——AI就能让画面动起来;还能让图片中的角色开口说话、唱歌(对口型),甚至是跳舞、做体操(动作驱动)。并且,腾讯混元还支持自动生成背景音效,视频画质最高可达 2K 高清。


目前,腾讯混元图生视频模型已在腾讯云上线,企业和开发者可通过官网申请调用API接口。腾讯混元还将其对外开源,包含权重、推理代码和LoRA训练代码,开发者可在Github、HuggingFace等主流社区下载。


来,直接带你「解锁」三大玩法:


//图生视频:支持2K高清画质,智能生成背景音效


目前,腾讯混元「图生视频」支持5秒短片生成——基于1.0通用模型,支持2K高清画质,适用于各种场景,生成视频稳定流畅。


用户上传图片后,可以按照「主体+动作」或「主体+动作+运镜方式」的格式,输入提示词文本,AI便能让静态画面「动」起来。


图片


同时,腾讯混元还支持背景音效自动生成,如脚步声、衣物摩擦声、环境氛围音等,让静态图片真正变成可视、可听、可感的动态短片。


看几个案例——


图片
Thumbplayer Poster Plugin Image
播放
下一个
打开循环播放
00:00
/
00:00
倍速
3.0X
2.0X
1.5X
1.25X
1.0X
0.75X
0.5X
语言
多音轨
AirPlay
0
静音播放中,点击
画中画
网页全屏
全屏
error-background
你可以 试试
视频信息
1.33.6
播放信息 上传日志 调试信息 [X]
视频ID
VID
-
播放流水
Flowid
-
播放内核
Kernel
-
显示器信息
Res
-
帧数
-
缓冲健康度
-
网络活动
net
-
视频分辨率
-
编码
Codec
-
mystery
mystery
-

按住画面移动小窗

点击播放视频


提示词:变色龙在往前爬


图片
Thumbplayer Poster Plugin Image
播放
下一个
打开循环播放
00:00
/
00:00
倍速
3.0X
2.0X
1.5X
1.25X
1.0X
0.75X
0.5X
语言
多音轨
AirPlay
0
静音播放中,点击
画中画
网页全屏
全屏
error-background
你可以 试试
视频信息
1.33.6
播放信息 上传日志 调试信息 [X]
视频ID
VID
-
播放流水
Flowid
-
播放内核
Kernel
-
显示器信息
Res
-
帧数
-
缓冲健康度
-
网络活动
net
-
视频分辨率
-
编码
Codec
-
mystery
mystery
-

按住画面移动小窗

点击播放视频


提示词:她在微笑,眨眼睛


图片
Thumbplayer Poster Plugin Image
播放
下一个
打开循环播放
00:00
/
00:00
倍速
3.0X
2.0X
1.5X
1.25X
1.0X
0.75X
0.5X
语言
多音轨
AirPlay
0
静音播放中,点击
画中画
网页全屏
全屏
error-background
你可以 试试
视频信息
1.33.6
播放信息 上传日志 调试信息 [X]
视频ID
VID
-
播放流水
Flowid
-
播放内核
Kernel
-
显示器信息
Res
-
帧数
-
缓冲健康度
-
网络活动
net
-
视频分辨率
-
编码
Codec
-
mystery
mystery
-

按住画面移动小窗

点击播放视频


提示词:美女用手戴上了墨镜


//音频驱动:文本朗读+上传音频,AI精准对口型


音频驱动,就是让图片会开口说话、会唱歌。


用户上传一张人物图片,并选择输入文本或音频,AI 便能精准匹配嘴型,让人物流畅说话或演唱,甚至还能呈现符合语气的面部表情。


图片


音频驱动有两种玩法,操作简单: 


● 方式一:输入文本,AI 自动朗读 ——


用户可直接输入一段文字,AI 便会驱动人物开口朗读。目前,支持十多种声音模型,如温柔静静、少年阿北、气质婉君、清朗阿辰等。用户可以自由选择不同的发音风格,适用于虚拟人主播、短视频配音、动漫角色语音合成等场景。


比如,让这位汉服美女念一段绕口令,字正腔圆,毫无破绽:


Thumbplayer Poster Plugin Image
播放
下一个
打开循环播放
00:00
/
00:00
倍速
3.0X
2.0X
1.5X
1.25X
1.0X
0.75X
0.5X
语言
多音轨
AirPlay
0
静音播放中,点击
画中画
网页全屏
全屏
error-background
你可以 试试
视频信息
1.33.6
播放信息 上传日志 调试信息 [X]
视频ID
VID
-
播放流水
Flowid
-
播放内核
Kernel
-
显示器信息
Res
-
帧数
-
缓冲健康度
-
网络活动
net
-
视频分辨率
-
编码
Codec
-
mystery
mystery
-

按住画面移动小窗

点击播放视频


或者是让欧洲帅哥为腾讯混元「带盐」,发音地道,腔调十足:


Thumbplayer Poster Plugin Image
播放
下一个
打开循环播放
00:00
/
00:00
倍速
3.0X
2.0X
1.5X
1.25X
1.0X
0.75X
0.5X
语言
多音轨
AirPlay
0
静音播放中,点击
画中画
网页全屏
全屏
error-background
你可以 试试
视频信息
1.33.6
播放信息 上传日志 调试信息 [X]
视频ID
VID
-
播放流水
Flowid
-
播放内核
Kernel
-
显示器信息
Res
-
帧数
-
缓冲健康度
-
网络活动
net
-
视频分辨率
-
编码
Codec
-
mystery
mystery
-

按住画面移动小窗

点击播放视频


● 方式二:上传音频,AI 识别声音并对口型 ——


用户可直接上传一段真人语音(或影视剧音频片段),AI 会自动解析音频内容,并让图片中的角色嘴型精准匹配,流畅自然地开口讲话或演唱歌曲。


//动作驱动:5套动作模版,一键生成同款视频


想让静态人物不仅会动,还能「舞」出花样?


用户只需上传一张图片,并选择一个动作模版,AI 便能让图片中的人物精准复现跳舞、挥手、做体操等动作,甚至完成更复杂的表演。


图片


这项能力不仅适用于舞蹈、短视频创作,还能广泛应用于游戏角色动画、影视制作、AI娱乐互动,大幅降低角色动画的创作成本,让虚拟形象的动作更加生动自然。


腾讯混元预置了5套动作模版,让用户随心所欲体验 AI 生成的趣味玩法。比如,开头的皮克斯女孩,其实还会跳好几种「舞蹈」:


图片
图片


腾讯混元图生视频模型,是在文生视频模型的基础上升级而来——


在保留超写实画质、流畅动作生成、原生镜头切换等核心能力的基础上,结合图像、文本、音频和姿态等多种输入条件,让模型能够捕捉到丰富的视觉和语义信息,实现对生成视频的多维度控制。


现在登录混元AI视频官网,开启想象力的自由探索,来试试吧!

免责声明:本站内容来源于互联网公开信息,仅供学习和参考使用。如涉及版权问题,请联系我们,我们将在核实后第一时间删除相关内容。
标签: 音效制作
« 上一篇:酷狗音乐增资至78.6亿;重塑「喝彩之后·北京」华熙LIVE·五棵松将 下一篇:上版权费用,补费之后既往不咎,尊重原创,不是情分是本分_ »