创业者不必惧怕Sora
2月16日凌晨,他刷到了Sora提供的长达1分钟的视频,发现视频的细节、光影处理非常逼真,给他留下了非常深刻的印象。
事实上,文生视频大模型或应用并不新奇,去年就已经有不少相关产品或模型出现。Meta、Runway、Pika、Adobe等公司都发布过视频生成工具,国内大厂及部分创业公司也在该领域进行研究,且部分公司也取得了一定突破。
不过,此前AI生成的短视频大多数还停留在10秒以内,视频的“真实性”也大打折扣,远远达不到Sora呈现的长达1分钟的稳定效果。
因此,Sora的出现,意味着生成式AI迎来了新的机会。行者AI创始人、CEO尹学渊透露,整个团队都非常兴奋,干劲十足。“我们每天都在研究折腾。”在他的印象里,上一次这么兴奋,还是ChatGP发布的时候。
Sora很大程度上推动了生成视频应用加速发展的趋势。王啸也认为,OpenAI再次明确了视频模型的技术发展路径,最快6个月后,可能就有开源的“Sora”出现了。
Sora的到来究竟会如何影响行业发展?投资人从中又发现了哪些新机会和新趋势?围绕相关话题,《中国企业家》近期采访了九合创投创始人王啸、行者AI创始人、CEO尹学渊、井英科技创始人、CEO朱江,以下为采访整理。
Sora是通过Transformer加上过去大模型带来的知识库,再加Diffusion做出来的。我们在以前就有预判,Transformer加上部分原有算法有可能突破多模态生成的瓶颈,但(它的到来)确实是比我们想象中要快。
另一方面,Transformer+专业场景数据,可能会在其他场景出现类似突破,比如说机器人领域的具身智能、生物领域中的DNA和蛋白生成相关领域,都可能通过这种算法模型将隐藏的规律和信息计算模拟出来。
通过这个理解再进行推演,我们认为其他领域也存在大模型重新改写其中底层技术的可能性。一旦能成功改写,在应用层就会取得巨大突破。
基于此,我觉得OpenAI是新时代结构性能力的提供者,它提供了一种大模型通用智能架构和能力的输出。但这个能力要想运用在我们日常工作或生产中,就需要针对场景进行各种各样的整体解决方案的打造。就相当于一辆车,如果只有发动机也没法跑,还需要轮子、座舱。
OpenAI提供了新时代人工智能的“发动机”,这一点非常有价值。就好像有了苹果这样的硬件公司,基于移动网络,产生了抖音、快手、微信等应用,这是一层一层互相依存发展的。但做移动网络或者5G的公司,不一定能够把手机做出来,做手机的公司还能把APP也做好,它们需要的能力不是完全一样的。
GPT解决了基座问题,而且也给到了行业范例,很多开源模型如Llama 2,以及国内的一些开源软件,我觉得也可以用。现在Sora出来了,最快再过6个月我觉得开源的“Sora”可能也做得出来。因为技术路线基本确定之后,有一些团队是可以做出来相当能力的产品,所以我觉得Sora不太容易形成技术上的独占性。
因此,我觉得未来是分工合作的机会,OpenAI确实是一个很好的领先者,但它不可能垄断整个市场。
Sora相关的视频模型的能力,我觉得未来在to C和to B都有机会,因为它是一种结构性的能力。无论对于家庭、个人,还是企业、机器人等,它都能延伸到各个方面,只不过载体不同。比如进入工厂制造领域,它需要跟机器人、加工机床的软件结合;如果延伸到to C就一定要跟手机、笔记本电脑、Vision Pro等新型终端结合起来。
目前大模型生成内容并不完全可控,它有时有幻想、有时会瞎说,生成的视频里面偶尔还存在问题,这都需要应用层的创业者去把它按照场景进行规划、生成和使用。
不过,在部分大模型通用能力领域中,(创业公司)如果想跟大厂竞争,这对资源的要求非常高。但在垂直领域或行业领域里解决一些具体问题,我觉得大厂能够覆盖的不一定多,也不一定有垂直领域的创业公司专业。
对于大家谈到的算力紧缺问题,从整体上讲,大模型的确是利用大量的数据和算力形成的模型能力,进而去解决某些特定问题,比如视频生成、语言生成等。简单来说,我觉得它是一个用“大力出奇迹”的拆解模式去模拟世界或视频生成中的一部分。当模型的数据量越大,它的效果就越好。
但我也认为,到一定程度后,它可能就不需要更多算力、模型和数据了,在某个程度上它可能存在收敛的部分。尽管算力在里面起到了关键性作用,但我不认为它是决定性部分。
此外,我觉得未来可能会产出针对性的算力芯片。新架构算力硬件或芯片出现后,算力的瓶颈可能会取得突破性的进展。我觉得可能需要一年时间验证我们面向未来的推测。
我觉得Sora出来之后,对我们最有启发的还是技术角度。我们觉得基于Diffusion Transformer的技术路线,接下来还会成为行业研发的热点;此外,Scaling Law在整个视频生成领域也存在很大作用。
尽管从业内来看,我们认为(Sora的技术路线)不是一个新的东西,但OpenAI在整个实践过程中令人非常敬佩,而且比我们预想的快了3~6个月的时间。
这对整个视频生成相关行业都是一件好事,我们可以向投资人或者一些圈外的朋友回答一个问题,就是AI生成的视频,用户是否愿意看,或者未来能否成为用户视频消费的主流内容。
我们认为AI加上内容后,可能会给整个内容的生产关系和创作者带来变革,进而会出现新一代的内容平台。比如抖音或TikTok的出现,这就是基于手机的普及以及手机摄像头作为生产力工具的载体变化;其次是短视频这种形态的出现,用户在手机上可以全屏沉浸式地观看视频;配合30~60秒快节奏,手指滑动就可以去阅读视频的体验;以及围绕着短视频出现的表演型的创作者。得益于这几个条件,市场上出现了新一代短视频超级内容平台。
总结超级内容平台出现的条件:首先是生产力工具的变革;其次是围绕着生产力工具出现了新的创作者;第三是有一种非常适合创作的内容形式;最后形成了一个新的内容平台,内容平台是个结果。
那么,AIGC时代为什么一定会出现新的超级内容平台?第一是生产力工具发生了变革,我觉得以Diffusion Transformer为基础的视频生成模型,在今天让所有人看到了AI生成的视频。从质量角度来说,一定能达到用户可接受的程度。
第二,我觉得更重要的一点是出现了一群新的创作者,这群创作者既不是像YouTube平台的知识型创作者,也不是像抖音上的表演型创作者,而是出现了一群以创意为最核心竞争力的创作者。换句话说,就是只要创作者的脑海里有一个很好的故事,或者是有一个非常优美打动人心的情节,就可以用AIGC的工具把它生成出来。
第三,我们理解的短剧不单单是现在大家看到的一个个剧情很爽、节奏很快的内容,我们认为短剧其实是一种新的内容形式。它是一种长短视频结合的方式,单看每一集,其实它是一个短视频,有30~60秒,但把它连在一起100集时,它又表达了一个很长很有深度的故事,就像原来的电影,但换了新的方式去表达。
因此,我认为围绕新工具的创作者以及新内容形式的出现,最终会催生出一个新的内容平台,这也是我们一直非常看好的机会。去年年底,我们也面向美国地区发布了第一款短剧的APP Reel.AI,我们现在生成的内容其实在海外也取得了不错的成绩:单集内容已经有了上百万的播放量;生成的内容也在美国地区获得了一定的用户付费。
因此,我们认为AIGC时代有很多机会,OpenAI这样的模型基座公司可能是新一代的“水电煤”,在此之上一定也会有AIGC时代的超级应用型公司。
我也更相信中国公司能做出世界级的AIGC的超级内容平台。因为过去这几年,我觉得中国人对整个内容的理解,包括技术的结合其实更加深入,我们也一直在这条道路上。我们希望能够随着视频技术的进步快速达到临界点,加速去实现我们自己的愿景。
去年,部分公司已经发布了一些(视频)模型,但目前的效果都不尽如人意。而Sora的出现,在速度和质量上大大超出了我们的预期。且Sora采用的Transformer和Diffusion模型融合的技术路线,是非常别出心裁的,也给我们团队包括创业者带来了很多启发和思路。
同时,文生视频模型出现的时间点提前了,各行各业可能都会衍生出更多新机会,也能刺激更多人来拥抱整个AI行业,包括更多研究者投入AI领域共同推进技术进步。
与此同时,底层工具的更新迭代让AI工具唾手可得后,未来行业竞争主要会面向应用场景的理解、产品的交付上,像游戏、文旅、教育、营销等场景,要将AI真正落地应用,这也对创业者提出了更高要求。过去,创业者可能靠一个模型、算法,再做一个BP(融资商业计划书),就可以融资;但现在底层技术已经卷到这个高度了,必然就要求创业者能够通过对场景的理解,以及产品的交付,真正实现在市场上挣到钱,再进一步去融资,实现正循环。
至于OpenAI是否会取代其他创业公司,我觉得不太可能。ChatGPT和GPT-4已经出现一年多了,但在细分领域大家运用的也不完全是GPT的能力,更多的还是在使用创业公司的自研模型以及微调后的模型解决具体问题。
找准赛道、真正持续为用户产生价值才是最重要的。除极少数的底层研究以外,通用大模型的落地同样要考虑“最后一公里”的问题。创业团队需要通过数据、算法、模型、应用,在场景落地获得经济收益,实现正循环,进一步获取数据调用模型,挣到钱后把人才留住,再调优算法,吸引更多用户使用产生更多的数据,整个项目就跑起来了,创业公司或产品也很难会被替代掉。
因此,AI时代的创业公司被OpenAI替代并不是一件非常简单的事情,并不是说OpenAI搞定了一件事,其他人就都要失业了。