Pika放大招：今天起，视频和音效可以“一锅出”了！

作者：admin 更新时间：2024-03-11 点击数：

　　车鸣声、广播声、鹰叫声、刀剑声、欢呼声……可谓是声声不息，并且从效果上来看，也是高度与视频画面匹配。

　　Pika便可以在生成视频的同时配上声音，从效果中不难看出，烟花绽放的瞬间，声音卡点也是相当的精准：

　　大周末的发布这样一个新功能，网友们在高呼Pika“够卷、够Awesome”的同时，也有人认为：

　　至于Sound Effects背后的原理，虽然Pika此次并没有公开，但在此前Sora大火之后，语音初创公司ElevenLabs就出过类似的配音功能。

　　使用“软性”的、通过学习得到的物理规则来组合和调整声音模式的参数，甚至即时创造全新的声音。这有点像游戏引擎中的“程序化音频”。

　　所有这些都不是显式的模块，而是通过大量的（视频，音频）对的梯度下降学习来实现的，这些视频和音频对在大多数互联网视频中自然地时间对齐。注意力层将在它们的权重中实现这些算法，以满足扩散目标。

　　除此之外，Jim Fan当时表示英伟达的相关工作并没有这样高质量的AI音频引擎，不过他推荐了一篇MIT五年前的论文The Sound of Pixels：

　　语言（文本）是低宽带的：小于12字节/秒。现代LLM通常使用1x10^13个双字节标记（即 2x10^13 字节）进行训练。一个人阅读大约需要 100000 年（每天 12 小时）。

　　视觉的带宽要高得多：约20MB/s。两条视神经中的每一条都有 100 万根神经纤维，每根神经纤维每秒携带约10个字节。一个4岁的孩子在清醒状态下大约是16000小时，换算成字节大约是1x10^15。

加入收藏

Tag：年轻人创业

返回列表

随便看看