Sora终于来了,但多模态AI呼唤实用主义
随着ChatGPT等大语言模型的问世,人工智能进入了一个全新的时代。在这股浪潮中,多模态AI技术成为业界竞相追逐的目标,OpenAI的Sora更是将这股热情推向高潮。
等待了299天之后,屡次跳票的Sora终于来了,OpenAI在北京时间12月10日凌晨正式发布了全新视频生成模型Sora Turbo。
然而,从实测的效果来看,Sora的效果并没有带来太多惊喜,无论是在视频时长、生成效果一致性、还是指令遵循方面,都没有明显强于市面上的已有视频模型。
事实上,Sam Altman将Sora比作视频版GPT-1的说法其实暴露了这个项目的尴尬处境。因为GPT-1更像是一种实验性模型,不太适合作为直接可用的生产工具,它主要被用作科研领域的参考。
在投入大量资源和时间后,Sora如果呈现的只是一个概念验证级别的产品,如果线一般需要经过多次迭代以及技术突破才能达到实用水平,那么考虑到视频生成所需的巨大算力投入和数据需求,这种战略选择的成本效益比恐怕令人担忧。
一边用夸张的宣传和神秘感制造期待,一边交出的却是一个并没有多少突破性进展的产品。特别是在2024年末这个时间点,当国内外竞争对手已经通过快速迭代实现了类似水平的效果,这种“落差”的表现略显尴尬。
不可否认,Sora的发布代表了多模态AI技术的重要里程碑。它展现了一个“会预测未来”的AI系统的雏形,让人们对通用人工智能(AGI)的到来充满期待。只不过,这次OpenAI已经不再将Sora称为“世界模拟器”了。
关于Sora的技术局限性的争论由来已久,例如,Sora在生成视频时常出现逻辑错误,如物体运动不符合物理规律、因果关系混乱等问题,现在的Sora Turbo显然也没有解决这一问题。早在年初,Meta首席科学家杨立昆就直言,Sora的生成式技术路线“注定失败”,因为其依赖于大规模数据训练的概率模型,无法真正理解物理世界的因果关系。此外,Sora的生成过程更多是对已有数据的拟合,而非创造新知识,这使其在模拟真实世界方面仍有很长的路要走。
首先,Sora的训练和应用成本极其高昂。据Factorial Funds估算,如果Sora要大规模应用,还需要约72万片英伟达H100 GPU的支持,这意味着216亿美元的硬件投入。如此天价的算力消耗,让Sora很难在短期内实现商业闭环。
其次,Sora在落地场景方面尚不成熟。尽管Sora已经正式发布,但在效果上离真正的“世界模拟器”差距甚远,现阶段更像是一个玩具而无法成为一个真正实用的创意工具。可以说,Sora离真正的“iPhone时刻”还有相当长的路要走。
就像上世纪60年代的核聚变发电:展示出令人震撼的潜力,吸引了大量投资和顶尖人才,但随着研究深入,技术难度和资源投入却呈指数级增长。虽然每隔几年就有突破性进展的报告,但要实现真正可控、稳定的商业应用,始终像隔着“永远差30年”的距离。
所以,如今的Sora面临这样一个困境:在完美的演示视频背后,是否存在不可逾越的技术瓶颈?这种追求完美视频生成的路径,会不会最终被证明是一个代价高昂的技术死胡同?要将实验室的演示转化为真正有价值的应用,可能比我们想象的要困难得多。
对此,百度创始人李彦宏在最近接受采访时曾表示:“如果真的能够做到任意场景下视频生成,那可能要很长很长时间,而且成本很高。”由此可见,百度并非不重视Sora所代表的技术方向。只是基于务实的判断,选择了另一条路线“应用驱动”成为第一性原理
与许多厂商专注于打造Sora这样的通用文生视频模型不同,百度智能云的着眼点在于帮助客户实现多模态应用的落地。正如李彦宏所言,“我们更关心怎么帮用户把应用跑起来”。事实上,在众多行业客户的实际场景里,他们真正需要的是在自己的应用中拥有可靠的多模态能力,而不仅仅是一个裸的通用模型。百度智能云深谙此道,通过多年来在多模态领域的深厚积累和大量工程化实践,以更简单快捷、低门槛的方式赋能客户,让多模态应用能够开花。这也是百度暂不直接做Sora,而是聚焦应用落地的重要原因。
不做Sora,并不意味着百度在多模态AI领域缺席。恰恰相反,百度一直在多模态领域有着长期而深厚的积累,只是选择了一条应用驱动的路线。
那么,什么是“应用驱动”?简而言之,就是从真实应用场景出发,梳理AI落地的关键问题,并聚焦资源予以解决,最终让技术产生实际价值。这有别于动辄“颠覆性创新”、追求酷炫Demo的做法。在李彦宏看来,“我更多希望尽早接触场景及接触应用,看在这个过程当中,到底遇到了什么问题,把这些问题带回来,我们综合一下,看大家遇到的最多的问题,就是我们优先解决的问题。”
站在这个思路上审视多模态AI,就不难理解百度智能云的战略选择。在多模态AI落地的过程中,有两大关键挑战亟待攻克:一是实现更自然的人机交互,二是提高模型的可控性、尽可能消除幻觉。单纯的视频生成模型虽然看上去很酷,但还难以很好地解决这两大问题。反而是在一些垂直领域,用更简单实在的多模态技术,就能让AI先跑起来。
多模态AI的门槛高、难度大,这是业界公认的痛点。各类模态数据的处理、模型训练的调优、推理服务的部署,每一个环节都需要大量的专业知识和工程经验。这无疑阻碍了多模态AI在更广泛行业中的应用。百度智能云是如何支撑多模态技术大规模落地的?
在模型训练层面,百度智能云的百舸计算平台实现了主流多模态大模型的全覆盖,除了支持MLLM、CogvIm2、Qwen2-VL等业界领先的多模态模型,还针对多模态训练的特点提供了一系列优化方案。其中,“多芯混训”可以兼容英伟达、昆仑等多种芯片,充分发挥芯片的异构性能,并能在万卡规模下将两种芯片混合训练下的效率折损控制在5%以内;“长上下文训练”则突破了序列长度的瓶颈,为多模态模型拓展了更广阔的应用空间;“大集群高效训练”的并行策略,进一步提高了多模态训练的效率,使万卡任务上的模型有效训练时长占比达到99.5%、端到端的性能提升30%。
在模型推理方面,百度智能云同样展现了全栈式的优势,百舸适配了各类客户场景,既支持用户自定义镜像部署,满足个性化需求;又能在英伟达、昆仑等异构芯片上实现推理服务,兼顾成本与性能;针对主流的文生图、文生视频、多模态模型,还提供了一系列加速优化方案,通过架构分离、KV Cache、负载分配等一系列加速工作,让长文本推理效率提升了1倍多。
作为一个全栈式开发平台,千帆平台提供了不同层级的开发路径。对于普通AI应用开发者新手,千帆ModelBuilder提供开箱即用的多模态能力,涵盖图像生成、理解、视频生成等热门领域。用户只需调用API接口,即可实现多模态交互,无需理会背后复杂的模型结构和训练过程。除此之外,千帆AppBuilder作为企业级应用开发平台,可以帮助客户和开发者不断降低应用开发门槛,提供丰富的多模态能力,包括文生图、图像内容理解等图片处理组件,短语音识别、短文本在线合成等语音处理组件以及数字人功能等,同时可实现多渠道对外集成分发,满足更丰富的应用需求场景。
具体来看,千帆平台提供了非常全面、灵活的多模态服务方案。如果客户需要直接使用多模态大模型,可以在千帆上一键调用包括百度文心一格、Stable Difusion、Vidu等在内的主流模型,覆盖从文生图、文生视频到图像理解等多个应用领域。如果客户希望定制化训练和微调专属多模态大模型,搭建个性化应用,千帆平台同样提供强有力的算力和工具支持。
在百度智能云支撑下,越来越多的创新企业与开发者已经汇聚于此,借“他山之石”,砌筑自己的“高楼”。
生数科技就是其中的典型代表。这家致力于多模态大模型研发的明星企业,在百度百舸平台的加持下,推出了国内首个纯自研的视频大模型Vidu。通过百舸平台超强的容错能力和训练加速能力,生数科技将Vidu训练素材渲染加速效率提升了3倍,数据拉取效率更是提升了51倍,可以说,百度为这个“国产Sora”的诞生提供了坚实的算力保障。
类似的案例还有哇嘶嗒(VAST),这家3D-AIGC领域的佼佼者同样将百度智能云视为AI创新的“压舱石”。其面世的3D内容创作工具“Tripo”备受全球瞩目,被称为3D领域的“GPT-4”。而这一切的背后,正是百舸平台在算力、成本、工程化等方面的全方位赋能,帮助VAST快速构建起强大AI基础设施,获得成熟的AI工程化能力。
当然,多模态AI生态的触角远不止于内容创作领域。以光魔科技为例,这家企业就瞄准了AIGC平台的普惠化。在百度智能云视频解决方案以及百舸平台的加持下,光魔科技推出的“白日梦AI”实现了一键式的文生视频能力,让每个普通用户都能“编出”专属影片,已经拥有大量忠实拥趸。
除了聚焦前沿技术的创业公司,百度智能云还在为百胜中国这样的“传统巨头”提供服务。依托百度智能云的大模型能力和智能客服解决方案,这家餐饮巨头打造了特色AI客服系统。该系统能够关联上下文、精准识别客户真实意图,提供更好的售后服务支持,同时还能辅助人工客服快速总结诉求、优化服务流程。这为百胜中国节省了大量客服成本,同时又提升了用户满意度。
对比云计算对互联网产业的变革,以AWS为例,它不仅改变了企业的IT基础设施,更重要的是催生了新的商业模式和创新企业生态。进入AI时代,多模态AI代表了人工智能从专项能力到综合认知的重要跃升,这种突破不仅体现在技术维度的拓展,更反映在应用范式的转变上。
AWS的AI时代的实践同样提供了一个很好的观察样本:在传统AI开发中,需要针对特定问题进行精心设计和训练。但在生成式AI时代,AWS认为成功的产品化之路不应局限于单一模型的性能竞争,而是要着眼于更广阔的技术组合与应用场景,更多强调“降本增效”、“实用”的AI。
特别值得关注的是,不同于过往依赖单一技术平台的垂直整合,新一代AI基础设施更强调开放协作。这种模式使得不同规模、不同行业的企业都能找到适合自身的数字化转型路径,从而让AI成为真正能够解决问题的AI。从这个角度来看,百度智能云和AWS显然站在同一战线上:通过构建开放、灵活的AI基础设施,降低技术使用门槛,让AI真正服务于产业创新。
在全球AI竞争日益激烈的背景下,不同企业呈现出截然不同的技术路线和发展策略。这是无可厚非的,在这个仍处于摸索阶段的赛道上,技术和商业路线的多样化不仅有利于推动整个领域的创新突破,也能为不同场景和需求提供更丰富的解决方案。
市场研究和咨询公司Omdia在最新发布的报告中指出,将技术转化为可落地的解决方案同样关键。百度智能云在多模态生成式AI技术和商业成功方面展现了领导力。Omdia预计,百度智能云将继续在中国引领多模态生成式AI应用的部署和实施。