通义千问推出「一张照片生成拜年舞蹈视频」功能，背后涉及哪些技术，难度如何？

2月5日，阿里云通义千问APP上线多项免费新应用，一个月前火爆全网的全民舞王应用也迎来上新，用户可通过一张照片生成拜年视频，用更轻松、接近真人出镜的方式向亲朋好友传递新年的美好祝福。
据介绍，该应用基于阿里通义实验室自研的Animate Anyone算法，生成视频较好地还原人物、表情及服装细节，并且生成的视频动作也能精准控制，整体视频也相对来说也连贯流畅。根据业内数据集的测试结果显示，Animate Anyone的性能表现显著优于国内外同类模型。如何评价这一出圈功能？背后都涉及哪些技术？难度如何？

发表于 3 天前

不知道大家试过了没有，反正我试过了，这是我在通义千问APP上做的视频，舞蹈用的鸡你太美。

通义千问推出「一张照片生成拜年舞蹈视频」功能，背后涉及哪些技术，难度如何？-1.jpg

使用方法非常的简单，你只需要下载好APP，然后准备一张「人」全身照，背景干净点，没有遮挡，至于为什么人要打引号，因为也可以不是人，类人有胳膊有腿就行。我用的素材就是「东汉击鼓说唱陶俑」，古人大哥原本是半蹲坐的，合成的视频直接让古人大哥站起来跳科目三了。

通义千问推出「一张照片生成拜年舞蹈视频」功能，背后涉及哪些技术，难度如何？-2.jpg

准备好照片之后选择任意一个舞蹈，就可以生成了，大概需要十几16分钟左右，你可以退出去玩其他的功能。

通义千问推出「一张照片生成拜年舞蹈视频」功能，背后涉及哪些技术，难度如何？-3.jpg

因为这个视频生成的计算是在云端，并且是完全免费的，生成后会自动提醒你。
其实这个技术在人工智能领域，特别是AIGC方向，属于非常火热的ImagetoVideo，也可以简写成I2V，它做的很简单，就是让一张静态的图片动起来。
而说到底，视频是由一帧帧的图片按照时间先后顺序组合成的，所谓的图生视频，其实基础就是图像生成，然后再组合起来。

通义千问推出「一张照片生成拜年舞蹈视频」功能，背后涉及哪些技术，难度如何？-4.jpg

而图像生成技术其实在我看来有三个标志性的技术，就是生成对抗网络（GANs）、变分自编码器（VAEs）和Diffusion Models（扩散模型）。

通义千问推出「一张照片生成拜年舞蹈视频」功能，背后涉及哪些技术，难度如何？-5.jpg

这三个技术的核心原理不同，最开始是GAN，大概是2014年出现的，它的核心原理【上图第一个模型】是由一个裁判Discriminator来判断生成的图像是真的还是生成的，最后想要达到的效果就是生成的图片裁判分辨不出来真假，但是它的缺点非常突出，就是非常难以训练。
接下来是VAE，它的训练难度就要比GAN简单太多了，非常的平滑，但是问题也就来了，它缺乏细节，相比起GAN会显得非常的模糊，在需要生成精细图片的时候就派不上用场了。
最后一个，diffusion扩散模型，也是现在绝大多数生成模型的背后核心算法，它的原理非常的巧妙，基本思想来源于统计物理中的扩散过程，这些模型通过模拟扩散过程来生成数据。

通义千问推出「一张照片生成拜年舞蹈视频」功能，背后涉及哪些技术，难度如何？-6.jpg

它是一种概率生成模型，它通过逐步引入噪声到数据中，然后学习如何逆转这一过程以生成数据。在图像生成的应用中，模型首先将真实图像转化为噪声，然后学习一个逐步去噪的过程来恢复出原始图像。这一过程涉及大量的迭代，模型在每一步都微调像素值，最终生成高质量的图像。
因为它需要大量的迭代，所以它的缺点就是训练需要消耗的资源以及时间都很大，但是跟它生成的图片的质量相比，这点儿缺点也就不值一提了。你可以看看我生成的图片，非常的精美且几乎很难区分是真实的还是生成的。

通义千问推出「一张照片生成拜年舞蹈视频」功能，背后涉及哪些技术，难度如何？-7.jpg

说回到图生视频，原理上很简单，比如一个人物的抬手动作，分解成很多张照片，然后组合起来就行了。
但实际上这个简单的步骤中有很多的坑，比如这三个：

图像理解：分析如何从单一照片中提取足够信息以重建动态人物模型的难点。
动作生成：讨论如何准确地将拜年舞蹈动作映射到生成的人物模型上。
视频连贯性：解释在视频帧之间保持动作自然流畅的技术难题。

阿里的这个图生视频的工作，已经发表在arXiv上了，名字叫《Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation》，主要就是解决了这三个问题。

他们这个工作的核心原理就在这个图里，其核心依旧是stablediffusion，不过他们提出了一个新的模型结构，referenceNet来保证生成的视频中外观特征是可以保持一致的，其次为了保证动作的一致性和连贯性，还有一个pose guider，也就是动作指引器。

效果非常的好，你看阿里他们上传到油管的视频，收获了1800+的赞同，并且生成的视频效果非常的流畅。

特别是跟DisCo，也是一个图生视频框架相比，Animate Anyone基本上很好的保持了参考图片细节特征，比如衣服颜色、款式，甚至人物的脸部和发型都保留的非常棒。
这么好的效果主要工程就在于Denoising UNet，它负责将带有噪声的初始编码迭代地去噪，以生成视频帧。去噪过程涉及空间注意力（Spatial-Attention）、跨注意力（Cross-Attention）和时间注意力（Temporal-Attention）三种机制，分别处理不同类型的信息。

空间注意力: 处理单个帧内部的像素关系。
跨注意力: 结合CLIP提取的语义特征和参考图像的特征。
时间注意力: 负责处理连续帧之间的时间关系，确保视频的连贯性。

这个方法跟同类的方法比较，效果要高出一大截，你看这个在时尚视频数据集上的比较，黑色的结果是阿里的，远远高于其他模型，从肉眼也能看得出。

红色的部分，要么生成的图片跟原本的衣服颜色都不一样，或者是第二行的，看起来很像，但你细看花纹，也会发现很大的差异，只有最后阿里的结果，基本上各个角度来比较，都很好的还原了原有的颜色和纹理。

这个也很明显，别的模型都很容易在迭代中乱生成，颜色，衣服特征都不能保持一致。

这也是为什么AnimateAnyone这个工作在Github上已经有1.2万+的收藏了，太多了等着开源。

油管的评论也能看出大家的期待。

、
最后，过去半年里，视频生成虽然取得了巨大的发展，但依旧这个工作其实还有一些不少的难题问题需要去解决。，比如你细看的话，生成的视频中手部会有模糊的情况，当然了这是目前行业的也是很多stable通病模型，为基本的算法的通病，其次它的生成时间还有点长的生成效率是比较慢的，我之前生成一个视频需要花费16分钟，生成了16秒，意味着一秒钟需要花费一分钟的时间来生成，当然这只是一款免费的应用，还要啥自行车呢效率还是比较低的！。
不过我觉得这两个问题是会被解决了，因为手部问题已经可以通过controlnet来大大的改善，其次生成效率这个问题，以后显卡多了，计算资源冗余的情况下，计算量消耗大就不再是问题了。
对了，大家可以尝试用非真人的图片多试试，我觉得用一些神话人物，甚至立体雕塑之类的做动画非常的有意思。

发表于 3 天前

前两天刷到一个很有意思的视频，就是题目里的「一张照片生成拜年舞蹈视频」，说实话motion transfer做了这么多年，进展倒是有不少，但落地这么丝滑的很少见。感觉像是妙鸭和AI绘画的感觉——找对路了。
出于好奇心我去翻了下视频简介，才发现和拜年模拟器这样小团队的作品不一样，这玩意是通义千问APP自带的功能。其实我手机里一直有千问APP，但平时只会用到大模型的文字和基础多模态功能，要不是别人说我还真不知道。

等我根据官方指引体验了APP上这个“全民舞王”后，我才明白这个功能有多魔性，而能把图片转视频做的这么丝滑，作为行内人，我几乎是一眼就看出来了这是从哪篇论文里整的活儿——没错，就是之前我提过的那篇论文：

说来也巧，当时看完论文之后我对模型结构倒是没什么惊讶，但那个demo效果确实逆天，比之前所有动态图像生成的效果要明显好出很多，只要输入人物全身照片，就可以生成各类动作，并且几乎能够保留原始形象的面部表情、身材比例、服装乃至背景等特征，整体动作也非常丝滑。
这是当时的效果：

https://www.zhihu.com/video/1738199051009667072
这也是当时这篇文章在国外爆火出圈的原因——效果太好。外网相关视频播放量超1亿， Github上的Star短短数日就超过了1万，成了继pika之后AIGC大模型领域最受欢迎的算法之一，可惜这套算法并没有开源，所以很多人，包括我在内，都在等他们的实际产品。
于是便等来了这次的通义千问APP新功能上线——不出意外的又迅速火出圈。在聊具体功能之前，我先来简单科普下这套自研的视频生成模型Animate Anyone是怎么运作的。
作为APP背后的算法，Animate Anyone主要解决了三个问题：

如何让人物动起来
如何让人物更加丝滑的动起来
如何让人物更加丝滑的动起来的同时，保证背景、服装、表情的连贯一致

这三个问题看着简单，实际这个领域每年有上千篇论文发表，都没有能完美解决的。要么是局部失真、细节模糊，甚至人物部分扭曲形变，要么动画的每一帧之间看起来不够连贯（俗称帧间抖动）。

最右边是Animate Anyone的效果
https://www.zhihu.com/video/1738203430378938368
对于第一个问题，从GANinate到AnimateDiff ，业界已经有很多开源方法，实现起来并不难，只是效果比较一般。难就难在后面两个问题。而Animate Anyone则通过几个方法巧妙的解决了它们：

基于目前AI绘画领域主流模型稳定扩散（SD）的网络结构和预训练权重，修改了Denoising UNet以适应多帧输入。
在UNet块的每个相应层，使用空间注意力将ReferenceNet特征集成到Denoising UNet中，可以更精确的捕获参考图像的空间细节（比如表情、神态）
而为了确保姿态可控性，作者设计了一种轻量级姿态引导器，以有效地将姿态控制信号集成到去噪过程中，说人话就是，让每个动作都更加符合人类实际的动作模式
最后，为了实现时间稳定性，模型引入时间层来对多个帧之间的关系进行建模，从而保留视觉中的高分辨率细节质量，模拟连续且平滑的运动过程。

感兴趣的同学可以在文末找到项目地址，这里就不深究细节了。
<hr/>当然，实际体验下来，我感觉通义千问APP上的效果比当时论文放出来的demo还要好，个人猜测是模型相比最初论文里的已经迭代了几版，加上限定了动作场景（拜年舞蹈）所以约束了生成的复杂度——很不错的思路。
具体有哪些变化，这里我就用APP里最新的模型效果简单给大家看下。

目前使用Animate Anyone也很简单，安装通义千问APP之后，输入&#34;全民舞王&#34;，或者直接从【应用】页面点击模块进入功能

选择喜欢的舞蹈模板，并上传一张全身照片，系统就能生成约10秒的舞蹈视频。目前官方自带了一些形象，比如旺财和喵子——不过我给我家猫看了，它说猫不可能跳舞，肯定是AI生成的。

https://www.zhihu.com/video/1738200375545688064
当然，少不了经典铁山靠：

除了以上两种，APP里一共提供了12类热门舞蹈模板供用户选择，还有科目三、鬼步舞或兔子舞等流行舞蹈，目前是完全免费的。
综合体验下来，基本印证了之前的猜测：模型原本的数据集肯定是做了扩充，加入了很多非传统姿态动作。而除了个别动作适配有些问题外，几乎所有舞蹈生成的效果都非常丝滑，乍一看很难再识别是不是真人跳的了。
有一点要注意：为了保证效果，APP的舞王功能一开始目前必须上传非常清晰的全身照（包含下半身）才行，最近才有一些模板可以使用半身照，我试了证件照是不行的，分辨率也有要求。不过，作为目前相对成熟的AI动作生成算法，还是很推荐大家去体验体验~作为AI从业者，期待后续的迭代升级，也希望今年可以看到AI领域更多出圈的应用！

参考资料
[1] 项目地址：https://humanaigc.github.io/animate-anyone/
[2] 论文地址：https://arxiv.org/pdf/2311.17117.pdf
[3] Github：https://github.com/HumanAIGC/AnimateAnyone

发表于 3 天前

应该是有一套动作骨骼，类似于模拟人生或者上古卷轴的一些动作mod，然后将用户上传的图片作为皮肤贴图覆盖在骨骼上，就行成了效果。以前这个过程是需要mod作者做出一套骨骼，再做出一套贴图，然后一点一点调整放上去，最后出一套动画，再供给玩家下载使用，而现在，这一套过程都会由AI完成，那么反过来想一想，明年以后的游戏动作模组，会发展出什么样的效果着实挺令人期待的。
未来的游戏开发，在内置ai的情况下，说不定可以实现动作外形的全面个性化，全玩家自创武功招式的时代在向我招手。

发表于 3 天前

有朋友喊我体验一下，我就赶紧打开了通义千问试了一下，挺有意思的。这应该就是过年期间最出圈的AI应用了，很欣慰通义千问能让普罗大众免费体验到大模型的快乐。不仅让我看到自己的尬舞，也回想起前几年调研Skeleton Tracking的那些记忆。本文从技术角度简单分析一下其实现过程。
全民舞王是通义千问提供的多种大模型的一种。使用过程是先选择跳舞的动作模板，然后上传一张全身照片，之后就是等待十几分钟来生成跳舞的视频。这里涉及到机器学习领域的这些年的几个研究重点：
1. Skeleton Tracking：从画面中提取人体的骨骼模型，才能用于代入跳舞模板
2. Background Model：将上传的照片里，分离出人和背景，并让人跳舞，背景保留
3. 可控的图生成视频/skeleton based controllable text to video generation：让骨骼运动模型控制生成视频
Skeleton Tracking是从图片中提取出人体的运动骨骼模型。往往是相连的一些点组成的。几年前我管住的方向是基于结构光摄像头的，而最近几年随着算力和算法的提升，大家都已经转向用普通的2D图片来提取了，而且效果也是越来越好。如下图就是个基于结构光摄像头的Skeleton Tracking。可见把人体的运动关节精简为比较少的几个，只关注这些运动范围较大且明显的关节。

Skeleton Tracking其实可以做很多好玩的东西。比如在电脑里控制运动角色玩游戏，虚拟试衣，以及之前我关注的虚拟攀岩。这些与人可以直接交互的玩法可以发挥很多创意。
Background Model的发展更早，记得2015年我参加一个机器学习领域的会议时，就看到demo可以在2D图像中直接识别出地板和墙壁。现代从背景中提取人体已经可以做到很高的精度了。
可控的图生成视频是此次通义千问全民舞王的关键应用。前两年流行给一张图中的人脸加上动态表情，就曾流行过一段，现在全民舞王可以做到全身的跳舞了，又向前迈出了一大步。
有志于从事AI相关工作的各位，AI领域可以有着巨大的发挥空间，不仅仅是从事底层的开发。上层应用也是有着巨大的发挥空间的。像此次的全民舞王就是把多个机器学习领域的发展组合起来，形成了这样一个带有人性温暖的应用。通义千问的做法，此时推进AI普惠未来的有效途径。

https://www.zhihu.com/video/1738164678969266176

发表于 3 天前

用到的是图生视频（image-to-video generation）技术，属于 AIGC 的一个子领域。
简单说，图生视频就是根据静态图像生成一个动态的视频帧序列，其核心是用深度学习算法对图像中物体接下来随时间的运动和变化进行预测。
这里面的难点主要体现在物体和场景的时间连续性的维护上，也就说如何准确地理解和预测物体的运动和变化，既要时间上连贯，又要符合物理世界规律，这才能保证生成的视频是逼真的。比如台球，不能上一帧还在桌上滚动，下一帧就飞到天上去了。（ps，除非你想这么干）

很多人都把 2023 年当作生成式人工智能元年，作为一个重要分支，生成式 AI 视频在 2023 年也迎来了小爆发。从下半年开始相继出现了几款比较火的 AI 视频应用，比如 RunwayGen、Pika、Stability 的 SVD 等等。它们都能根据文字描述或参考图片生成一段几秒钟的视频。由于这种技术在娱乐、视频创作和游戏等领域都有很大的应用潜力，再加上其效果非常直观，所以很受关注。下面这张图[1]整理了过去一年最主要的AI视频应用或技术。可以看到在这个领域，大厂和创业公司可谓齐头并进。

生成式 AI 视频包括 text-to-video、image-to-video，以及 video-to-video 等几种形式，像上面提到的 RunwayGen、Pika、SVD 一般都同时支持文生视频和图生视频，题目中描述的这种属于 image-to-video。
根据介绍，题目中提到的“图生视频”应用采用的是阿里云的 Animate Anyone 技术，由于生成视频的效果很好，该研究在去年 11 月发布之后，很快就在社区内爆火，在 X、油管等外网社交平台上获得了非常多的关注和讨论。

另外，刚刚去GitHub上看了下，这个项目目前已经收到了 12.9k 的 stars，尽管它的代码还没有完全公开。

上面提到，视频生成有诸多难点，比如生成内容的可控性和时间连贯性，现在并没有一套成熟的解决方案，各家也都是采用不同的技术来尽量把生成视频的效果做到最好。根据官方论文，Animate Anyone 提出了多个创新技术。比如，引入 ReferenceNet 以融合细节特征，最大程度捕捉和保留原图像信息，准确还原人像、表情、服装等细节。对于可控性问题，采用了轻量、高效的姿势指导器（Pose Guider）保证人物动作的精准；对于时间连贯性问题，通过时序生成模块，有效保证视频帧间的人物动作的流畅性。

通义千问上的“一张照片生成拜年舞蹈视频”新玩法是 Animate Anyone 技术的一个应用，上传一张照片就能生成一段拜年视频，有多种模板可以选择，以根据喜好制作不同风格的视频——这是不可以称作“赛博拜年”了。
实际上它是前段时间火出圈的“全民舞王”（就是让兵马俑跳“科目三”的那个）的再次推新，早些时候我也尝试了一下，上手很简单，没什么门槛，基本上传一张照片就可以生成一段视频。

需要等待大概10多分钟，就能制作好一段10秒钟左右的视频。我看了一下，针对新年推出的视频模板种类还挺多的，比如各类新春拜年舞，作揖的、要红包的、贴春联的等等。
眼看着要过年了，到时候用这种方式制作一个专属视频发给别人拜年，应该还挺新鲜的，这不比群发短信好多了，怎么说也是定制化的视频，不至于像往年那样一遍一遍发重复的文字信息给人拜年。除了真人照片，如果家里有宠物，也可以使用宠物照片制作视频。
你甚至可以先用通义千问的 AI 绘画功能画一张图，然后再用这张图生成视频，间接实现“文生视频”的效果。

除此之外，针对这次过年，通义千问还推出通义照相馆和万物生龙两个应用，比如可以生成 AI 全家福，这个全家福不是以往应用那种先抠图、再直接把头像P上去的方式。它是先使用 AI 算法制作人物的“数字形象”——可以理解为虚拟照相馆里你的“数字分身”，这个分身在系统内是通用的，可以用它匹配任意模板，生成不同风格的照片。如果给家庭里的每个成员都制作一个数字形象，那么就可以生成全家福照片了。感兴趣的可以亲自去上手玩一下。

通义千问推出「一张照片生成拜年舞蹈视频」功能，背后涉及哪些技术，难度如何？-8.jpg

发表于 3 天前

通义千问推出的「一张照片生成拜年舞蹈视频」功能非常出色，它涉及了深度学习、计算机视觉和自然语言处理等多项技术。该功能基于阿里通义实验室自研的Animate Anyone算法，能够生成高质量的视频，还原人物、表情及服装细节，并且动作精准控制。此外，生成连贯流畅的视频也需要涉及视频编辑和渲染技术。<br><br>该功能的实现难度较高，需要强大的计算能力和算法优化。不过，随着技术的不断发展，类似功能的实现将会越来越普及。总的来说，这一功能非常令人印象深刻，展现了数字技术在创意领域的应用潜力。

发表于 3 天前

针对您所提到的通义千问推出的「一张照片生成拜年舞蹈视频」功能，其背后涉及的技术主要包括计算机视觉、人工智能算法和机器学习等。该功能的实现需要对人体姿态进行准确识别和建模，并借助先进的深度学习算法生成逼真的动画效果。此外，该技术还需要对视频生成过程中的细节处理进行精细控制，以确保生成视频的连贯性和流畅性。因此，该功能的实现难度较高，需要强大的技术实力和丰富的实践经验。总体来说，这是一项非常出色的技术成果，能够为用户提供更加便捷、高效、个性化的服务体验。

发表于 3 天前

回复：<br><br>通义千问推出的“一张照片生成拜年舞蹈视频”功能非常引人注目。该功能背后涉及了深度学习、计算机视觉、动作捕捉等技术。其中，基于阿里通义实验室自研的Animate Anyone算法，能够实现人物、表情及服装细节的还原，并且动作控制精准，视频连贯流畅。这一功能的实现难度较高，需要对技术进行深入研究和精细调整。此外，该功能还涉及到了视频编辑、图像处理等多个领域的技术。总体来说，这一功能的推出展现了技术的不断发展和创新，为用户提供了更加便捷、高效、有趣的拜年方式。

通义千问推出「一张照片生成拜年舞蹈视频」功能，背后涉及哪些技术，难度如何？

本周热门