AI要进步,居然得先学打游戏?
宁猜怎么着,本来以为 AI 还停留在输入文字,然后出图出视频的这些程度上,结果这两天突然有几个 AI 公司,都开始宣布人家可以生成世界了。
我勒乖乖,这不就是 AI 界做梦都想搞出来的 “世界模型” 嘛:能像人一样理解这个真实世界的超级 AI !
先是前几天的 World Labs ,虽然大家可能没听说过,但人家创始人可是著名 AI 科学家、斯坦福大学教授、美国科学院院士、机器学习奠基人之一、有 AI 教母之称的著名美籍华人科学家李飞飞。
在 World Labs 官网上说到,这是世界上第一个能直接渲染出完整 3D 场景的AI ,超越了传统生成模型的单纯像素预测,而且这场景还能有交互性和自由度。
说人话就是,这玩意跟以前的生图生视频模型不一样了,只需要塞给它一张图,人家就能给出一套空间建模,而且还能在里面动。
谷歌 DeepMind 也出了一个 “ 世界模型 ” ,而且还是第二代,号称能理解真实世界的运作规律。世超也跑去他们官网看了一圈,瞅瞅这个 Genie 2 ,到底怎么个真实法。
不过要是跟上面 World Labs 的 AI 对比的话,估计大家一眼就会发现,这个好像更加流畅,自由度也更高些。
实际上人家官网也说了,这是一个类似游戏的基础世界模型,在这里面,你也一样可以用 WASD ,空格和鼠标来操控画面里的角色
虽然视觉效果着实挺牛逼的,不过,跟李飞飞那个一样, DeepMind 的新模型也没有给出来让大家上手试,只在官网发布的他们测试的版本。
但根据世超平时测试这些 AI 的经验嘛,甭管是大厂还是新势力,官方给出来的演示那肯定都是精挑细选的好看的案例,真正要用的话,那估计还得降低一个级别的期待值。
不过这次比较好玩的是, DeepMind 也很实诚的说,他们这个还是一个早期的版本,自己测试的时候也会出现一些翻车案例。
虽然还有瑕疵,但是就从他们给的这些演示上,世超觉得这确实是在 AI 理解世界这方面,取得了比较成功的进步。
有聪明的差友可能这时候就要问了,这种跟随一个主体运动的画面,以前的 Sora 类视频模型不也能做到嘛,凭啥这个就更接近世界模型?
Sora 虽然刚出来的时候号称世界模型,但是实际这些视频模型穿模的情况还是很多的,幻觉也不太好解决。
本质上他们学习的资料都是视频,靠前面视频的画面去推后面的,并不真的理解视频里的东西是怎么交互,怎么作用的。
而要让 AI 意识到这些真实世界里的参数,它首先就得知道环境是一回事,环境里的人和物是另一回事,所以大家才从文生图模型,一步步走向了生成地理环境,而后在环境内去呈现人的动作。
这也就是李飞飞 World Labs 的模型的效果,相当于先让 AI 学会建模,再展示看到的场景。
但相比上面 World Labs , DeepMind 显得更厉害一点,这其实跟他们的技术路线不一样有点关系。如果说前一个是打算用图片来还原更真实的场景,后一个则是用 AI 给你生成了一个游戏世界。
相比视频素材,游戏的好处就在于 ai 不仅能学到角色和画面的动态变化,也能观察到角色动作的键盘操作,是如何影响画面和动作变化的,这样它就对物体与环境的交互理解的更全面。
实际上,早在今年三月, Genie 团队就已经出来一个版本,不过那时候他们做的还是 2d 画面的横屏 AI 游戏。
结果到了 2.0 版本,人家给 3d 的整出来了,实际效果看起来也非常接近大家平时玩的这些 3d 游戏,甚至比一些游戏的画面质量还要好一点。
不过呢,咱也不是说 DeepMind 就发现了 AGI 的通用解,演示中表现的还行也不等同于 AI 就真的理解现实。
最明显的原因就是,这 AI 是靠游戏学的,而游戏是人类根据现实来做的。靠人类的二手资料学的再好,也绝不等同于对真实世界的理解无误。