腾讯混元再开源:这次,是图生视频_

发布日期：2026-06-02 11:52 小旭音乐

注意看，这是一位在海边漫步的美女，可以让她「动」起来吗？

这是一位「梦幻」的皮克斯女孩，她会跳「活泼」的女团舞吗？

揭晓答案——

刚刚，腾讯混元上线并开源全新图生视频模型。只需三步，用户就可以用图片生成一支5秒长的短片：

登录混元AI视频官网，上传一张图片，输入创意描述——AI就能让画面动起来；还能让图片中的角色开口说话、唱歌（对口型），甚至是跳舞、做体操（动作驱动）。并且，腾讯混元还支持自动生成背景音效，视频画质最高可达 2K 高清。

目前，腾讯混元图生视频模型已在腾讯云上线，企业和开发者可通过官网申请调用API接口。腾讯混元还将其对外开源，包含权重、推理代码和LoRA训练代码，开发者可在Github、HuggingFace等主流社区下载。

来，直接带你「解锁」三大玩法：

//图生视频：支持2K高清画质，智能生成背景音效

目前，腾讯混元「图生视频」支持5秒短片生成——基于1.0通用模型，支持2K高清画质，适用于各种场景，生成视频稳定流畅。

用户上传图片后，可以按照「主体+动作」或「主体+动作+运镜方式」的格式，输入提示词文本，AI便能让静态画面「动」起来。

同时，腾讯混元还支持背景音效自动生成，如脚步声、衣物摩擦声、环境氛围音等，让静态图片真正变成可视、可听、可感的动态短片。

看几个案例——

00:00

倍速

3.0X

2.0X

1.5X

1.25X

1.0X

0.75X

0.5X

语言

多音轨

静音播放中，点击

你可以试试

视频信息

1.33.6

播放信息上传日志调试信息 [X]

视频ID

VID

播放流水

Flowid

播放内核

Kernel

显示器信息

Res

帧数

缓冲健康度

网络活动

net

视频分辨率

编码

Codec

mystery

按住画面移动小窗

点击播放视频

提示词：变色龙在往前爬

00:00

倍速

3.0X

2.0X

1.5X

1.25X

1.0X

0.75X

0.5X

语言

多音轨

静音播放中，点击

你可以试试

视频信息

1.33.6

播放信息上传日志调试信息 [X]

视频ID

VID

播放流水

Flowid

播放内核

Kernel

显示器信息

Res

帧数

缓冲健康度

网络活动

net

视频分辨率

编码

Codec

mystery

按住画面移动小窗

点击播放视频

提示词：她在微笑，眨眼睛

00:00

倍速

3.0X

2.0X

1.5X

1.25X

1.0X

0.75X

0.5X

语言

多音轨

静音播放中，点击

你可以试试

视频信息

1.33.6

播放信息上传日志调试信息 [X]

视频ID

VID

播放流水

Flowid

播放内核

Kernel

显示器信息

Res

帧数

缓冲健康度

网络活动

net

视频分辨率

编码

Codec

mystery

按住画面移动小窗

点击播放视频

提示词：美女用手戴上了墨镜

//音频驱动：文本朗读+上传音频，AI精准对口型

音频驱动，就是让图片会开口说话、会唱歌。

用户上传一张人物图片，并选择输入文本或音频，AI 便能精准匹配嘴型，让人物流畅说话或演唱，甚至还能呈现符合语气的面部表情。

音频驱动有两种玩法，操作简单：

● 方式一：输入文本，AI 自动朗读 ——

用户可直接输入一段文字，AI 便会驱动人物开口朗读。目前，支持十多种声音模型，如温柔静静、少年阿北、气质婉君、清朗阿辰等。用户可以自由选择不同的发音风格，适用于虚拟人主播、短视频配音、动漫角色语音合成等场景。

比如，让这位汉服美女念一段绕口令，字正腔圆，毫无破绽：

00:00

倍速

3.0X

2.0X

1.5X

1.25X

1.0X

0.75X

0.5X

语言

多音轨

静音播放中，点击

你可以试试

视频信息

1.33.6

播放信息上传日志调试信息 [X]

视频ID

VID

播放流水

Flowid

播放内核

Kernel

显示器信息

Res

帧数

缓冲健康度

网络活动

net

视频分辨率

编码

Codec

mystery

按住画面移动小窗

点击播放视频

或者是让欧洲帅哥为腾讯混元「带盐」，发音地道，腔调十足：

00:00

倍速

3.0X

2.0X

1.5X

1.25X

1.0X

0.75X

0.5X

语言

多音轨

静音播放中，点击

你可以试试

视频信息

1.33.6

播放信息上传日志调试信息 [X]

视频ID

VID

播放流水

Flowid

播放内核

Kernel

显示器信息

Res

帧数

缓冲健康度

网络活动

net

视频分辨率

编码

Codec

mystery

按住画面移动小窗

点击播放视频

● 方式二：上传音频，AI 识别声音并对口型 ——

用户可直接上传一段真人语音（或影视剧音频片段），AI 会自动解析音频内容，并让图片中的角色嘴型精准匹配，流畅自然地开口讲话或演唱歌曲。

//动作驱动：5套动作模版，一键生成同款视频

想让静态人物不仅会动，还能「舞」出花样？

用户只需上传一张图片，并选择一个动作模版，AI 便能让图片中的人物精准复现跳舞、挥手、做体操等动作，甚至完成更复杂的表演。

这项能力不仅适用于舞蹈、短视频创作，还能广泛应用于游戏角色动画、影视制作、AI娱乐互动，大幅降低角色动画的创作成本，让虚拟形象的动作更加生动自然。

腾讯混元预置了5套动作模版，让用户随心所欲体验 AI 生成的趣味玩法。比如，开头的皮克斯女孩，其实还会跳好几种「舞蹈」：

腾讯混元图生视频模型，是在文生视频模型的基础上升级而来——

在保留超写实画质、流畅动作生成、原生镜头切换等核心能力的基础上，结合图像、文本、音频和姿态等多种输入条件，让模型能够捕捉到丰富的视觉和语义信息，实现对生成视频的多维度控制。

现在登录混元AI视频官网，开启想象力的自由探索，来试试吧！

免责声明：本站内容来源于互联网公开信息，仅供学习和参考使用。如涉及版权问题，请联系我们，我们将在核实后第一时间删除相关内容。

标签： 音效制作

« 上一篇：酷狗音乐增资至78.6亿;重塑「喝彩之后·北京」华熙LIVE·五棵松将下一篇：上版权费用,补费之后既往不咎,尊重原创,不是情分是本分_ »

腾讯混元再开源:这次,是图生视频_

按住画面移动小窗

按住画面移动小窗

按住画面移动小窗

按住画面移动小窗

按住画面移动小窗

相关作品