不知道大家试过了没有,反正我试过了,这是我在通义千问APP上做的视频,舞蹈用的鸡你太美。
使用方法非常的简单,你只需要下载好APP,然后准备一张「人」全身照,背景干净点,没有遮挡,至于为什么人要打引号,因为也可以不是人,类人有胳膊有腿就行。我用的素材就是「东汉击鼓说唱陶俑」,古人大哥原本是半蹲坐的,合成的视频直接让古人大哥站起来跳科目三了。
准备好照片之后选择任意一个舞蹈,就可以生成了,大概需要十几16分钟左右,你可以退出去玩其他的功能。
因为这个视频生成的计算是在云端,并且是完全免费的,生成后会自动提醒你。
其实这个技术在人工智能领域,特别是AIGC方向,属于非常火热的ImagetoVideo,也可以简写成I2V,它做的很简单,就是让一张静态的图片动起来。
而说到底,视频是由一帧帧的图片按照时间先后顺序组合成的,所谓的图生视频,其实基础就是图像生成,然后再组合起来。
而图像生成技术其实在我看来有三个标志性的技术,就是生成对抗网络(GANs)、变分自编码器(VAEs)和Diffusion Models(扩散模型)。
这三个技术的核心原理不同,最开始是GAN,大概是2014年出现的,它的核心原理【上图第一个模型】是由一个裁判Discriminator来判断生成的图像是真的还是生成的,最后想要达到的效果就是生成的图片裁判分辨不出来真假,但是它的缺点非常突出,就是非常难以训练。
接下来是VAE,它的训练难度就要比GAN简单太多了,非常的平滑,但是问题也就来了,它缺乏细节,相比起GAN会显得非常的模糊,在需要生成精细图片的时候就派不上用场了。
最后一个,diffusion扩散模型,也是现在绝大多数生成模型的背后核心算法,它的原理非常的巧妙,基本思想来源于统计物理中的扩散过程,这些模型通过模拟扩散过程来生成数据。
它是一种概率生成模型,它通过逐步引入噪声到数据中,然后学习如何逆转这一过程以生成数据。在图像生成的应用中,模型首先将真实图像转化为噪声,然后学习一个逐步去噪的过程来恢复出原始图像。这一过程涉及大量的迭代,模型在每一步都微调像素值,最终生成高质量的图像。
因为它需要大量的迭代,所以它的缺点就是训练需要消耗的资源以及时间都很大,但是跟它生成的图片的质量相比,这点儿缺点也就不值一提了。你可以看看我生成的图片,非常的精美且几乎很难区分是真实的还是生成的。
说回到图生视频,原理上很简单,比如一个人物的抬手动作,分解成很多张照片,然后组合起来就行了。
但实际上这个简单的步骤中有很多的坑,比如这三个:
- 图像理解:分析如何从单一照片中提取足够信息以重建动态人物模型的难点。
- 动作生成:讨论如何准确地将拜年舞蹈动作映射到生成的人物模型上。
- 视频连贯性:解释在视频帧之间保持动作自然流畅的技术难题。
阿里的这个图生视频的工作,已经发表在arXiv上了,名字叫《Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation》,主要就是解决了这三个问题。
他们这个工作的核心原理就在这个图里,其核心依旧是stablediffusion,不过他们提出了一个新的模型结构,referenceNet来保证生成的视频中外观特征是可以保持一致的,其次为了保证动作的一致性和连贯性,还有一个pose guider,也就是动作指引器。
效果非常的好,你看阿里他们上传到油管的视频,收获了1800+的赞同,并且生成的视频效果非常的流畅。
特别是跟DisCo,也是一个图生视频框架相比,Animate Anyone基本上很好的保持了参考图片细节特征,比如衣服颜色、款式,甚至人物的脸部和发型都保留的非常棒。
这么好的效果主要工程就在于Denoising UNet,它负责将带有噪声的初始编码迭代地去噪,以生成视频帧。去噪过程涉及空间注意力(Spatial-Attention)、跨注意力(Cross-Attention)和时间注意力(Temporal-Attention)三种机制,分别处理不同类型的信息。
- 空间注意力: 处理单个帧内部的像素关系。
- 跨注意力: 结合CLIP提取的语义特征和参考图像的特征。
- 时间注意力: 负责处理连续帧之间的时间关系,确保视频的连贯性。
这个方法跟同类的方法比较,效果要高出一大截,你看这个在时尚视频数据集上的比较,黑色的结果是阿里的,远远高于其他模型,从肉眼也能看得出。
红色的部分,要么生成的图片跟原本的衣服颜色都不一样,或者是第二行的,看起来很像,但你细看花纹,也会发现很大的差异,只有最后阿里的结果,基本上各个角度来比较,都很好的还原了原有的颜色和纹理。
这个也很明显,别的模型都很容易在迭代中乱生成,颜色,衣服特征都不能保持一致。
这也是为什么AnimateAnyone这个工作在Github上已经有1.2万+的收藏了,太多了等着开源。
油管的评论也能看出大家的期待。
、
最后,过去半年里,视频生成虽然取得了巨大的发展,但依旧这个工作其实还有一些不少的难题问题需要去解决。,比如你细看的话,生成的视频中手部会有模糊的情况,当然了这是目前行业的也是很多stable通病模型,为基本的算法的通病,其次它的生成时间还有点长的生成效率是比较慢的,我之前生成一个视频需要花费16分钟,生成了16秒,意味着一秒钟需要花费一分钟的时间来生成,当然这只是一款免费的应用,还要啥自行车呢效率还是比较低的!。
不过我觉得这两个问题是会被解决了,因为手部问题已经可以通过controlnet来大大的改善,其次生成效率这个问题,以后显卡多了,计算资源冗余的情况下,计算量消耗大就不再是问题了。
对了,大家可以尝试用非真人的图片多试试,我觉得用一些神话人物,甚至立体雕塑之类的做动画非常的有意思。 |
|