2025-03-19更新了V1.5版本
更新的v1.6版本在2025-06-13上
LatentSync官方说明
Latentsync:唇同步的潜在扩散模型。我们提出了Latentync,这是一种基于音频条件潜在扩散模型的端到端唇同步框架,而没有任何中间运动表示,这与先前基于基于扩散的唇部同步方法基于像素空间扩散或两阶段不同。我们的框架可以利用稳定扩散的力量直接模拟复杂的视听相关性。此外,我们发现,由于不同框架之间的扩散过程不一致,基于扩散的唇同步方法的时间一致性很差。我们建议时间可重复性比对(TREPA),以提高时间一致性,同时保持唇部同步的准确性。 TREPA使用大规模自我监视的视频模型提取的时间表示,将生成的框架与地面真实框架对齐。
Latentsync使用耳语将融合频谱图转换为音频嵌入,然后通过跨注意层集成到U-NET中。参考框架和掩模框架通过通道连接到噪声延迟,作为输入U-NET。在训练过程中,我们使用一步方法从预测的噪声中获取估计的干净延迟,然后将其解码以获得估计的干净框架。将TREPA,LPIP和Syncnet损失添加到像素空间中。
V1.5版本更新说明:
(1)通过添加时间层,(2)改善中国视频的性能以及(3)通过一系列优化将VRAM对20 GB的VRAM要求提高了时间的一致性。
v1.6版本更新说明:
它经过了512512分辨率的视频培训,以减轻模糊问题。
LatentSync整合包使用说明
首先将软件压缩软件包下载到本地计算机并进行解压缩,双击[Start Software.exe],等待一段时间以加载模型,并且在完成后将自动打开WebUI接口。
操作接口相对简单。将视频材料上传到左上部分,在左下部分上传驱动程序音频,然后单击按钮过程视频开始合成视频。所需的时间由计算机配置确定,建议使用具有4G图形内存或上面的NVIDIA图形卡用户。
合成完成后,您可以在右侧播放或下载视频。您还可以在软件项目文件夹中的temp文件夹中找到合成视频。
视频描述:
注意事项
如果视频材料和音频材料不一致,则最终的综合视频时间由最短的视频时间确定。
最好在音频材料的末端增加0.5到1秒的静音夹,以防止最终视频结束不完整。
集成软件包仅支持Windows 10或11系统
在软件运行路径中没有非英语字符和空间
支持NVIDIA 50系列图形卡
1.0版NVIDIA视频记忆不少于6G
版本1.5计算机NVIDIA视频记忆不少于8G
用户评论
别留遗憾
太牛了!终于实现了真正的实时声同步了?之前一直困扰这个,看视频都是各种跳节奏的感觉,现在这样能做真人V的效果了吧。
有12位网友表示赞同!
风中摇曳着长发
用的是AI数字人嘛?我好奇一下,AI数字人的表情跟动作是不是都自带的动画特效?能不能自己自定义?
有12位网友表示赞同!
如你所愿
希望价格不要太高,这个软件能让我做一些教学视频,效果比以前好多了!不过不知道能不能兼容其他平台啊…
有11位网友表示赞同!
凉凉凉”凉但是人心
终于不用再靠手动标注的声音来驱动口型了,这个LatentSync也太厉害了吧!效率翻了好几倍。
有5位网友表示赞同!
颓废i
这个音频驱动口型讲话的功能是不是只适合说中文的?其他的语言可以实现同步吗?
有18位网友表示赞同!
凝残月
抖音AI数字人听起来很科幻啊!我觉得在企业广告宣传方面会有很好的应用前景吧。可以用来制作更生动有趣的营销视频。
有19位网友表示赞同!
鹿先森,教魔方
这个LatentSync功能能帮很多短视频创作者提高创作效率,但是我担心它会不会影响真实演员的演出空间呢?
有16位网友表示赞同!
你tm的滚
我一直以为AI数字人就只能说话,没想到还可以做动画特效了!这个技术未来发展前景大大的,不知道什么时候人工智能就能取代真人了…
有18位网友表示赞同!
浮殇年华
之前看抖音上的几个AI数字人的视频总是感觉怪怪的,口型跟声音不怎么匹配。希望这次整合包能解决这些问题,让AI数字人看起来更逼真。
有5位网友表示赞同!
幸好是你
如果这个软件能够支持更多种类的角色和表情定制,那一定会非常酷炫!可以制作出各种各样的虚拟人物来满足不同需求。
有5位网友表示赞同!
一点一点把你清空
我觉得这个LatentSync整合包确实是个好消息,能让很多人都更容易在抖音上创作高质量的短视频。但也希望大家能理性使用,不要过度依赖AI技术。
有20位网友表示赞同!
冷青裳
有没有人试过这个软件的结果?能不能分享一下效果图或者视频吗?我很感兴趣看一看!
有16位网友表示赞同!
还未走i
我比较担心的是,如果抖音AI数字人越来越逼真,人们会不会分不清真人和虚拟人的区别?这会对社会产生什么影响呢?
有6位网友表示赞同!
终究会走-
这个软件的功能听起来很棒啊!但是不知道能不能自定义语音风格,我希望它可以支持不同方言或者语速的设置。
有18位网友表示赞同!
醉婉笙歌
感觉抖音越来越智能化了,未来会不会出现全由AI程序生成内容的情况?这样的话,传统媒体和演员就面临巨大的挑战吧…
有14位网友表示赞同!
心亡则人忘
还是觉得真人表演更具有感染力,AI数字人虽然可以精细控制每个动作,但依然缺乏真实的情感表达。
有13位网友表示赞同!
窒息
这个软件的应用场景还真是很多啊!除了抖音短视频之外,还可以用来制作游戏角色、动画片配音等等。未来AI技术的发展真是令人兴奋!
有7位网友表示赞同!