Sora终于来了，但多模态AI呼唤实用主义

作者：admin 更新时间：2024-12-12 点击数：

　　随着ChatGPT等大语言模型的问世，人工智能进入了一个全新的时代。在这股浪潮中，多模态AI技术成为业界竞相追逐的目标，OpenAI的Sora更是将这股热情推向高潮。

　　等待了299天之后，屡次跳票的Sora终于来了，OpenAI在北京时间12月10日凌晨正式发布了全新视频生成模型Sora Turbo。

　　然而，从实测的效果来看，Sora的效果并没有带来太多惊喜，无论是在视频时长、生成效果一致性、还是指令遵循方面，都没有明显强于市面上的已有视频模型。

　　事实上，Sam Altman将Sora比作视频版GPT-1的说法其实暴露了这个项目的尴尬处境。因为GPT-1更像是一种实验性模型，不太适合作为直接可用的生产工具，它主要被用作科研领域的参考。

　　在投入大量资源和时间后，Sora如果呈现的只是一个概念验证级别的产品，如果线一般需要经过多次迭代以及技术突破才能达到实用水平，那么考虑到视频生成所需的巨大算力投入和数据需求，这种战略选择的成本效益比恐怕令人担忧。

　　一边用夸张的宣传和神秘感制造期待，一边交出的却是一个并没有多少突破性进展的产品。特别是在2024年末这个时间点，当国内外竞争对手已经通过快速迭代实现了类似水平的效果，这种“落差”的表现略显尴尬。

　　不可否认，Sora的发布代表了多模态AI技术的重要里程碑。它展现了一个“会预测未来”的AI系统的雏形，让人们对通用人工智能(AGI)的到来充满期待。只不过，这次OpenAI已经不再将Sora称为“世界模拟器”了。

　　关于Sora的技术局限性的争论由来已久，例如，Sora在生成视频时常出现逻辑错误，如物体运动不符合物理规律、因果关系混乱等问题，现在的Sora Turbo显然也没有解决这一问题。早在年初，Meta首席科学家杨立昆就直言，Sora的生成式技术路线“注定失败”，因为其依赖于大规模数据训练的概率模型，无法真正理解物理世界的因果关系。此外，Sora的生成过程更多是对已有数据的拟合，而非创造新知识，这使其在模拟真实世界方面仍有很长的路要走。

　　首先，Sora的训练和应用成本极其高昂。据Factorial Funds估算，如果Sora要大规模应用，还需要约72万片英伟达H100 GPU的支持，这意味着216亿美元的硬件投入。如此天价的算力消耗，让Sora很难在短期内实现商业闭环。

　　其次，Sora在落地场景方面尚不成熟。尽管Sora已经正式发布，但在效果上离真正的“世界模拟器”差距甚远，现阶段更像是一个玩具而无法成为一个真正实用的创意工具。可以说，Sora离真正的“iPhone时刻”还有相当长的路要走。

　　就像上世纪60年代的核聚变发电：展示出令人震撼的潜力，吸引了大量投资和顶尖人才，但随着研究深入，技术难度和资源投入却呈指数级增长。虽然每隔几年就有突破性进展的报告，但要实现真正可控、稳定的商业应用，始终像隔着“永远差30年”的距离。

　　所以，如今的Sora面临这样一个困境：在完美的演示视频背后，是否存在不可逾越的技术瓶颈？这种追求完美视频生成的路径，会不会最终被证明是一个代价高昂的技术死胡同？要将实验室的演示转化为真正有价值的应用，可能比我们想象的要困难得多。

　　对此，百度创始人李彦宏在最近接受采访时曾表示：“如果真的能够做到任意场景下视频生成，那可能要很长很长时间，而且成本很高。”由此可见，百度并非不重视Sora所代表的技术方向。只是基于务实的判断，选择了另一条路线“应用驱动”成为第一性原理

　　与许多厂商专注于打造Sora这样的通用文生视频模型不同，百度智能云的着眼点在于帮助客户实现多模态应用的落地。正如李彦宏所言，“我们更关心怎么帮用户把应用跑起来”。事实上，在众多行业客户的实际场景里，他们真正需要的是在自己的应用中拥有可靠的多模态能力，而不仅仅是一个裸的通用模型。百度智能云深谙此道，通过多年来在多模态领域的深厚积累和大量工程化实践，以更简单快捷、低门槛的方式赋能客户，让多模态应用能够开花。这也是百度暂不直接做Sora，而是聚焦应用落地的重要原因。

　　不做Sora，并不意味着百度在多模态AI领域缺席。恰恰相反，百度一直在多模态领域有着长期而深厚的积累，只是选择了一条应用驱动的路线。

　　那么，什么是“应用驱动”？简而言之，就是从真实应用场景出发，梳理AI落地的关键问题，并聚焦资源予以解决，最终让技术产生实际价值。这有别于动辄“颠覆性创新”、追求酷炫Demo的做法。在李彦宏看来，“我更多希望尽早接触场景及接触应用，看在这个过程当中，到底遇到了什么问题，把这些问题带回来，我们综合一下，看大家遇到的最多的问题，就是我们优先解决的问题。”

　　站在这个思路上审视多模态AI，就不难理解百度智能云的战略选择。在多模态AI落地的过程中，有两大关键挑战亟待攻克：一是实现更自然的人机交互，二是提高模型的可控性、尽可能消除幻觉。单纯的视频生成模型虽然看上去很酷，但还难以很好地解决这两大问题。反而是在一些垂直领域，用更简单实在的多模态技术，就能让AI先跑起来。

　　多模态AI的门槛高、难度大，这是业界公认的痛点。各类模态数据的处理、模型训练的调优、推理服务的部署，每一个环节都需要大量的专业知识和工程经验。这无疑阻碍了多模态AI在更广泛行业中的应用。百度智能云是如何支撑多模态技术大规模落地的？

　　在模型训练层面，百度智能云的百舸计算平台实现了主流多模态大模型的全覆盖，除了支持MLLM、CogvIm2、Qwen2-VL等业界领先的多模态模型，还针对多模态训练的特点提供了一系列优化方案。其中，“多芯混训”可以兼容英伟达、昆仑等多种芯片，充分发挥芯片的异构性能，并能在万卡规模下将两种芯片混合训练下的效率折损控制在5%以内；“长上下文训练”则突破了序列长度的瓶颈，为多模态模型拓展了更广阔的应用空间；“大集群高效训练”的并行策略，进一步提高了多模态训练的效率，使万卡任务上的模型有效训练时长占比达到99.5%、端到端的性能提升30%。

　　在模型推理方面，百度智能云同样展现了全栈式的优势，百舸适配了各类客户场景，既支持用户自定义镜像部署，满足个性化需求；又能在英伟达、昆仑等异构芯片上实现推理服务，兼顾成本与性能；针对主流的文生图、文生视频、多模态模型，还提供了一系列加速优化方案，通过架构分离、KV Cache、负载分配等一系列加速工作，让长文本推理效率提升了1倍多。

　　作为一个全栈式开发平台，千帆平台提供了不同层级的开发路径。对于普通AI应用开发者新手，千帆ModelBuilder提供开箱即用的多模态能力，涵盖图像生成、理解、视频生成等热门领域。用户只需调用API接口，即可实现多模态交互，无需理会背后复杂的模型结构和训练过程。除此之外，千帆AppBuilder作为企业级应用开发平台，可以帮助客户和开发者不断降低应用开发门槛，提供丰富的多模态能力，包括文生图、图像内容理解等图片处理组件，短语音识别、短文本在线合成等语音处理组件以及数字人功能等，同时可实现多渠道对外集成分发，满足更丰富的应用需求场景。

　　具体来看，千帆平台提供了非常全面、灵活的多模态服务方案。如果客户需要直接使用多模态大模型，可以在千帆上一键调用包括百度文心一格、Stable Difusion、Vidu等在内的主流模型，覆盖从文生图、文生视频到图像理解等多个应用领域。如果客户希望定制化训练和微调专属多模态大模型，搭建个性化应用，千帆平台同样提供强有力的算力和工具支持。

　　在百度智能云支撑下，越来越多的创新企业与开发者已经汇聚于此，借“他山之石”，砌筑自己的“高楼”。

　　生数科技就是其中的典型代表。这家致力于多模态大模型研发的明星企业，在百度百舸平台的加持下，推出了国内首个纯自研的视频大模型Vidu。通过百舸平台超强的容错能力和训练加速能力，生数科技将Vidu训练素材渲染加速效率提升了3倍，数据拉取效率更是提升了51倍，可以说，百度为这个“国产Sora”的诞生提供了坚实的算力保障。

　　类似的案例还有哇嘶嗒(VAST)，这家3D-AIGC领域的佼佼者同样将百度智能云视为AI创新的“压舱石”。其面世的3D内容创作工具“Tripo”备受全球瞩目，被称为3D领域的“GPT-4”。而这一切的背后，正是百舸平台在算力、成本、工程化等方面的全方位赋能，帮助VAST快速构建起强大AI基础设施，获得成熟的AI工程化能力。

　　当然，多模态AI生态的触角远不止于内容创作领域。以光魔科技为例，这家企业就瞄准了AIGC平台的普惠化。在百度智能云视频解决方案以及百舸平台的加持下，光魔科技推出的“白日梦AI”实现了一键式的文生视频能力，让每个普通用户都能“编出”专属影片，已经拥有大量忠实拥趸。

　　除了聚焦前沿技术的创业公司，百度智能云还在为百胜中国这样的“传统巨头”提供服务。依托百度智能云的大模型能力和智能客服解决方案，这家餐饮巨头打造了特色AI客服系统。该系统能够关联上下文、精准识别客户真实意图，提供更好的售后服务支持，同时还能辅助人工客服快速总结诉求、优化服务流程。这为百胜中国节省了大量客服成本，同时又提升了用户满意度。

　　对比云计算对互联网产业的变革，以AWS为例，它不仅改变了企业的IT基础设施，更重要的是催生了新的商业模式和创新企业生态。进入AI时代，多模态AI代表了人工智能从专项能力到综合认知的重要跃升，这种突破不仅体现在技术维度的拓展，更反映在应用范式的转变上。

　　AWS的AI时代的实践同样提供了一个很好的观察样本：在传统AI开发中，需要针对特定问题进行精心设计和训练。但在生成式AI时代，AWS认为成功的产品化之路不应局限于单一模型的性能竞争，而是要着眼于更广阔的技术组合与应用场景，更多强调“降本增效”、“实用”的AI。

　　特别值得关注的是，不同于过往依赖单一技术平台的垂直整合，新一代AI基础设施更强调开放协作。这种模式使得不同规模、不同行业的企业都能找到适合自身的数字化转型路径，从而让AI成为真正能够解决问题的AI。从这个角度来看，百度智能云和AWS显然站在同一战线上：通过构建开放、灵活的AI基础设施，降低技术使用门槛，让AI真正服务于产业创新。

　　在全球AI竞争日益激烈的背景下，不同企业呈现出截然不同的技术路线和发展策略。这是无可厚非的，在这个仍处于摸索阶段的赛道上，技术和商业路线的多样化不仅有利于推动整个领域的创新突破，也能为不同场景和需求提供更丰富的解决方案。

　　市场研究和咨询公司Omdia在最新发布的报告中指出，将技术转化为可落地的解决方案同样关键。百度智能云在多模态生成式AI技术和商业成功方面展现了领导力。Omdia预计，百度智能云将继续在中国引领多模态生成式AI应用的部署和实施。

加入收藏

Tag：年轻人创业

上一篇：通用梦碎自动驾驶

下一篇：这边断货，那边降价，年货还能让经销商赚钱吗？

返回列表

Sora终于来了，但多模态AI呼唤实用主义

随便看看

产品推荐

很多人由于是初次创业对创业存在很多误区

也不是提供另外一个概要

启迪创新研究院副院长杨红梅在课籍中分享了她主笔创业行的感悟

否则一味的低价毫无意义

也成为国内外连锁品牌快速抢占中西部市场**有效的招商平台