EchoMimic:逼真的音频驱动人像动画
EchoMimic简介
近日蚂蚁开源了一款名为:EchoMimic 数字人的框架。EchoMimic能够通过单独的音频文件和一张静态面部标志点的图像生成数字人像视频,也可以通过音频和选定的面部标志点的组合来生成。
由音频输入推动的人像图像动画领域,在生成逼真和动态的人像方面取得了显著进展。传统方法仅限于使用音频或面部关键点来驱动图像转视频,虽然可以获得满意的结果,但存在一些问题。例如,仅由音频驱动的方法有时会因为音频信号相对较弱而不稳定;而完全由面部关键点驱动的方法,尽管在驱动上更稳定,但可能会因为关键点信息的过度控制而导致结果不自然。为了应对前述挑战,研究团队介绍了一种名为EchoMimic的新方法。EchoMimic同时使用音频和面部标志点进行训练。通过实施一种新颖的训练策略,EchoMimic不仅能够单独通过音频和面部标志点生成人像视频,还能够通过音频和选定的面部标志点的组合来生成。EchoMimic已经在多个公共数据集和收集的数据集上与替代算法进行了全面比较,在定量和定性评估中展现出更优越的性能。
• Github地址:https://github.com/BadToBest/EchoMimic
• 项目主页:https://badtobest.github.io/echomimic.html
官方视觉演示案例
更多演示案例,请参见官方主页:https://badtobest.github.io/echomimic.html 。
EchoMimic使用指南
当前官方给出的代码库中,只包含CLI命令行运行方式。考虑到方便大家的使用,笔者已创建了WebUI版本,欢迎大家提供更多建议。
• 代码地址:https://github.com/greengerong/EchoMimic/tree/main同时笔者也提供了国内网盘包,文末已放置网盘下载口令。
运行命令:安装依赖并启动服务
# window 双击运行该批处理文件,或在命令提示符中导航到文件所在目录并运行 run.bat
./run.bat
# Linux 在终端中运行如下命令
chmod +x run.sh && ./run.sh。
仅运行:也可使用仅启动服务,使用已有环境依赖,不独立安装依赖
# 服务启动
python -u app.py
如果遇见touch问题,确保正在上网重新安装:
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 -U
WebUI界面
EchoMimic体验
本文中使用的是可图(Kolors) 生成输入图像,避免肖像隐私。
• Kolors模型地址(国内哩布镜像):https://www.liblib.art/modelinfo/c10a365bbdff40edb3f18b9fdfb694f8
• Kolors模型地址(huggingface):https://huggingface.co/Kwai-Kolors/Kolors/tree/main
• 在线绘图地址:https://klingai.kuaishou.com/
Kolors示例
这位身着天蓝色和银色服装的美丽女子,她的黑色虹膜看起来就像中国神话中的年兽。这张照片是用手机相机在TikTok上拍摄的,可以看到她美丽的眼睛。她有金色的刘海,似乎化了妆,脸上有美丽的金色图案。她皮肤上的纹路也清晰可见。逼真的风格,全身外观,丰富的背景,4k超高清
EchoMimic体验
在WebUI界面中,仅需按照界面指引操作上传一张人物图片和一段音频文件,点击生成,耐心等待任务执行完成,即可看见输出视频效果。默认保存在本地文件目录**/EchoMimic/output/tmp** 下。每次会生成两个视频,一个为无声视频和一个配音视频。
注:在测试体验经验,输入图像需要保持1:1,同时保证高清质量和人物脸部可识别,脸部不要有复杂遮挡物,否则会无法识别报错。
写在最后
感兴趣的小伙伴,赠送全套AIGC学习资料,包含AI绘画、AI人工智能等前沿科技教程和软件工具,具体看这里。
AIGC技术的未来发展前景广阔,随着人工智能技术的不断发展,AIGC技术也将不断提高。未来,AIGC技术将在游戏和计算领域得到更广泛的应用,使游戏和计算系统具有更高效、更智能、更灵活的特性。同时,AIGC技术也将与人工智能技术紧密结合,在更多的领域得到广泛应用,对程序员来说影响至关重要。未来,AIGC技术将继续得到提高,同时也将与人工智能技术紧密结合,在更多的领域得到广泛应用。
一、AIGC所有方向的学习路线
AIGC所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。
二、AIGC必备工具
工具都帮大家整理好了,安装就可直接上手!
三、最新AIGC学习笔记
当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
四、AIGC视频教程合集
观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
五、实战案例
纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
总结
### EchoMimic:音频驱动人像动画的创新框架**简介**:
蚂蚁开源了一款名为EchoMimic的数字人框架,它能够通过单独音频文件及静态面部标志点图像,或音频与选定面部标志点组合的方式,生成逼真的数字人像视频。EchoMimic在音频输入推动人像动画领域取得了新进展,解决了传统方法中的局限性,如音频驱动的不稳定性及面部关键点过度控制导致的不自然问题。
**特点与优势**:
- **融合音频与面部标志点**:创新地结合音频和面部标志点进行训练,能够单独或组合使用这两种输入生成视频,提高了动态人像的逼真度和稳定性。
- **卓越性能**:在多个数据集上与替代算法对比,展现了更优越的生成效果。
**资源与应用**:
- **Github地址**:[https://github.com/BadToBest/EchoMimic](https://github.com/BadToBest/EchoMimic)
- **项目主页**:[https://badtobest.github.io/echomimic.html](https://badtobest.github.io/echomimic.html)
- **WebUI界面**:增强了用户界面交互性,方便用户上传图像和音频文件,快速生成视频。
**使用指南**:
- **安装与启动**:提供了Windows和Linux环境下的详细运行指南,包括安装依赖和启动服务的步骤。
- **WebUI版本**:用户可通过Web界面轻松上传和处理数据,无需复杂操作,提高了使用便捷性。
**体验与注意事项**:
- **输入要求**:输入图像需保持1:1比例且为高清质量,人物脸部需清晰无遮挡,以保证最佳识别效果。
- **输出效果**:生成的视频效果逼真,包含无声和配音两个版本,默认保存在指定目录。
**AIGC技术与未来发展:**
AIGC技术作为人工智能的重要分支,未来的发展前景广阔。蚂蚁开源的EchoMimic框架不仅在技术层面实现了创新,更为数字人、游戏、影视等多个领域的应用提供了有力支持。随着技术的不断进步,AIGC将在更多领域发挥重要作用,推动人工智能技术的深度应用和发展。
**附赠学习资料:**
本文还附带了全套AIGC学习资料,包括AI绘画、AI人工智能等前沿科技教程和软件工具,帮助感兴趣的读者更全面深入地了解和学习AI技术。
**总结**:
EchoMimic框架通过创新的方式解决了音频驱动人像动画的难题,凭借其卓越的性能和便捷的使用方式,为数字人技术的发展注入了新的活力。随着AIGC技术的不断发展,我们有理由相信它将在更多领域发挥其重要作用,推动人工智能时代的全面发展。