继续对着OpenAI来，Google发布Veo 2、Imagen 3，Sora和

作者：admin 更新时间：2024-12-17 点击数：

　　新的一周，OpenAI技术直播迎来了第8天。今日重点是ChatGPT Search，从领衔登场的熟面孔、公司首席产品官 Kevin Weil 来看，这次发布仍以优化和完善产品功能为主。

　　与此同时，Google却在发布 Gemini 2.0 Flash 后继续在模型上发力，一口气推出新一代视频生成模型 Veo 2 和图片生成模型 Imagen 3，还上线了一个可玩性很高的“图生图”实验项目 Whisk。

　　即便已近年尾，OpenAI和Google这对老冤家依然打得火热。而从社区反响来看，今天似乎又成了一个“Google主场日”。

　　ChatGPT 根据用户反馈全面提升了搜索体验，包括提升搜索速度、移动端增强和引入新的地图功能等。

　　搜索结果现在支持更丰富的视觉元素和结构化信息展示。例如搜索"旧金山周末有趣的活动"时，系统会同时展示活动图片、来源链接及详细信息，让结果更加直观。用户还能直接在搜索结果中观看视频内容，不过这些并不稀奇，在Perplexity中早已实现过了。

　　新增「地图」查看模式，支持用户通过 ChatGPT应用直接与地图交互，也是此次更新的最大亮点。以搜索 Mission 区墨西哥餐厅为例，点击地图上的图标即可查看餐厅图片、营业时间、露台信息及导航路径等详情。

　　• 默认搜索引擎的快速导航：将ChatGPT设为浏览器默认搜索引擎后，无需打开网站，通过在地址栏直接输入查询内容，即可快速调用ChatGPT并获取推荐链接。

　　最后团队宣布，GPT搜索功能现已向所有登录的免费用户开放。用户只需登录账户即可在全球范围内的各种平台上无需付费，享受这一增强搜索体验。

　　全新视频生成模型Veo 2、升级版图像生成模型Imagen 3，以及创意实验项目Whisk。

　　Google最新发布的Veo 2在AI视频生成领域取得突破性进展。无论真实感、运动表现能力，还是镜头控制都达到当之无愧的SOTA水平。不少人在看过惊艳的官方示例后表示，SORA瞬间就不香了。

　　1. 高质量与线在细节呈现、视觉风格和减少瑕疵方面表现出色，能够生成高达4K分辨率的视频，且时长可达数分钟，适用于广泛的场景和风格。

　　Veo 2对真实世界物理原理以及人类动作与表情的细微之处有着深刻理解，显著提升了视频的真实感与自然度。

　　例如示例中这位穿着暗黄色防护服的科学家。冷白色实验室灯光下，她神情焦虑地调试显微镜，担忧的神情清晰可见，渲染出沉重压力的氛围。

　　以及下方，枫糖浆缓缓淋在松软的煎饼上，培根油脂细腻，咖啡倒入玻璃杯中冲出层次丰富的泡沫，都展示出媲美物理世界，真实诱人的画面细节。

　　相较于其他视频生成模型，Veo 2在生成过程中更少出现多余的细节或“额外的手指”这类意外物体，确保输出结果更加真实可靠。

　　所有Veo 2生成的视频均包含SynthID不可见水印，用于标识其为AI生成，减少误导和误用风险。

　　目前，Veo 2的新功能已在Google Labs视频生成工具VideoFX开放，用户可前往Google Labs申请加入候补名单。未来，Veo 2计划进一步集成到YouTube Shorts等产品中，持续推动AI视频生成技术的发展。

　　Imagen 3 生成的图像具备丰富的细节、更明亮自然的光影效果和更专业的构图水平，有效捕捉如皮肤质感、手部细微皱纹、编织玩偶针线等复杂纹理与微小细节，同时减少视觉瑕疵，呈现更加自然精致的高保真体验。

　　Imagen 3对自然语言提示的理解能力大幅提升，无需复杂的提示词工程即可准确执行用户意图。模型通过更丰富的训练数据标注，能准确理解长提示词中的复杂细节，并准确呈现指定的镜头角度、构图等元素。

　　AI作图此前的一大难点就是乱码和错字。如今Imagen 3 显著增强了文本渲染的准确性，也为风格化卡片、海报等应用场景提供了更多可能。

　　可以说，Imagen 3 以其卓越的细节呈现、风格多样性和强大的提示词理解能力，为创作者提供了前所未有的高质量图像生成工具，重新定义了AI在艺术、设计与创意领域的应用潜力。

　　这款工具巧妙结合了 Gemini 和 Imagen 3 技术，为创作者提供通过图像提示生成创意内容的新奇体验。

　　不同于传统需要输入冗长文字提示的方式，用户只需拖拽上传图片，即可分别指定主题、场景和风格，系统会自动完成元素的创意重组。还能依据兴趣选择样式，包括个性化的数字艺术品、徽章、贴纸、玩具等。

　　在技术实现上，Gemini 模型会先对输入的图像进行智能分析，生成详细的描述信息，并将这些描述输入 Google 最新的图像生成模型 Imagen 3，从而创作出全新的作品。

　　值得注意的是，Whisk 并非简单复制原图，而是着重捕捉图像的核心特征进行创意重塑。虽然生成结果可能与原图有所不同（如人物的身高、发型或细节特征），但用户可以随时查看并编辑生成的提示词，灵活调整创意方向。

　　由于看起来实在好玩，我们也迫不及待试了试，让水獭做主角，宫崎骏风格的海边壁纸做背景，并且输入“角色抱着皮球玩具”的补充提示，选择徽章样式。

　　Google 将 Whisk 定位为一款面向快速视觉探索的创意工具，而非传统的图像编辑器。在早期测试中，艺术家与创意工作者们普遍认为这种全新的创作方式充满趣味性与创新力。

　　目前，Whisk已在美国市场开放测试，手痒的朋友可以马上去labs.google/whisk体验了。这也标志着Google在生成式AI创意工具探索上迈出的重要一步。

　　相比之下，Google凭借Veo 2、Imagen 3 以及创意工具 Whisk 的强势推出，占尽主角光环。也再次彰显了其在生成式AI领域的强大技术实力。

　　从高质量的视频和图像生成到图像提示驱动的创意混合，Google通过技术创新为创作者提供了更高效、更灵活的工具，让人不得不服。

　　连续发布的OpenAI有些后劲不足，不过，官方预告明天OpenAI将迎来一场mini Dev Day，期待会带来真正的惊喜。

加入收藏

Tag：年轻人创业

返回列表

随便看看