GPTToonMaker v0.0.1演示视频
https://www.zhihu.com/video/1676695860535218176
前言
最近火爆的Runaway Gen-2 ,能把Midjourney的文生图变成一段视频,然而这段视频还有瑕疵不说,基本也就是实现了动起来,无法让角色根据台词开口说话,更别说根据剧情做出反应了。个人推测这个热度会很快消退,因为不实用。
退一步来说,如果有足够多的模板,让AI来辅助想剧情,编排对白,是不是就可以实现AI制作带剧情和对话的动画/视频呢?本着这个思路,我用一个周末快速落地了GPTToonMaker v0.0.1。
实践
写一段场景对话,角色为A和B,内容是A给B提了一个问题(其实是个脑筋急转弯问),输出格式为csv,每行为『角色,表情,谈话内容』,表情只能从『cry/peace/pround/shy/stupid/wronged/cheap/contemptuous』选择一个,举例:
A,peace,"你吃了吗"
B,pround,"吃了,你呢"
A,cry,"没有,好饿"
B,peace,"那赶紧去吧"
这其中的角色、表情必须按照预先做好的模板来。把GPT输出的结果粘贴到项目中的script.csv文件,按运行就可以了。程序会自动把脚本通过Azure的TTS语音合成API转换成MP3格式,并设置好帧数,然后再用PYgame引擎播放出来。
这个项目最终的愿景是成为一个不需要调节时间轴的动画编辑器。Runaway的Gen-2有着宏大的模板,这就导致了连一个简单的对话场景都很难做出来,而我的想法是退一步,准备好多种模板,让AI生成脚本并套模板生成动画。
总结
最近AI方面的热度下降不少,大部分开发者也还是在做非常的同质化的chatbot文生图/音/视频,而我认为这恰好是有创意的开发者和产品设计师的机会。
第一版很粗糙,还有帧数的bug,不过我还是很开心又落地了一个idea |
|