“谷歌版Sora”被嘲画质好糊,但在世界模拟器上又前进了一步
“谷歌版Sora”被嘲画质好糊,但在世界模拟器上又前进了一步
谷歌 110 亿参数 Genie,用来打造交互虚拟世界,它来了!
划重点:不受视频监督训练;只用给它单张图像,就能提示生成可玩的 2D 虚拟世界;这个交互式的虚拟世界还自主可控。
但令人撇嘴的点,就是 Genie 最后出的效果,画质太糊了。
像这样:
或者这样:
团队也站出来承认,Genie 目前确实还有限制,现在只能以 1FPS 制作游戏。
看得网友忍不住吐槽,不说和 Sora 的效果比了,就算和别的文生视频或者文生图相比,都是 "2K" 和 "480p" 的差距。
看起来挺令人兴奋的,但 emmm 怎么说呢,画质和风格都像个上世纪 80 年代的游戏。
但也有人站出来为 Genie 说话。
比如英伟达科学家 Jim Fan,就明确表达:
与 Sora 不同,Genie 实际上是个能推断动作、用正确动作驱动世界模型。
Genie 团队负责人 Tim Rockt ä schel 激情开麦,称认为这(Genie)是迈向 AGI 通用世界模型的充满希望的一步。
他援引了世界模型第一推崇者 Yann LeCun 的推特,称:
" 诚然, OpenAI 的 Sora 惊艳世界,但正如杨立昆所说,世界模型一定需要动作。"
画质就一个字,糊
书归正传。
咱们从视觉上来感受一下 Genie 的神奇魔法,直接上效果图。
这是官方给出的例子——
现实世界的照片,喂给 Genie,就能动起来,变成无限的虚拟世界。
Like this,小黄狗逛公园:
还有古堡武士向前冲:
Genie 团队用 Imagen2 生成图像,然后把图像喂给 Genie。Genie 把图像作为起始帧,生成以下效果。
团队表示,Genie 不仅仅能用 AI 绘画来作为驱动的起始帧,随便拿张人类大作,也可以达到同样的效果。
比如这是个小朋友的画作:
丢给 Genie 后,能得到老鹰起飞的效果:
这也是一张小朋友涂鸦,经由 Genie 处理后得到的:
可以明显看到,上面给出的这些官方效果,明显画质参差不齐。
难怪有的网友称,这些 demo 看上去有一种 700 度近视眼摘掉眼镜看世界的美
不少人提问为什么不用超高清分辨率输出,目前还没得到回应。
除了画质太糊,Genie 的另一个点,就是网友们觉得 demo 都太短太短了。
平均每个时长不到 2s。
好多人都急了:
能不能放出来 1 分钟时长的 demo 啊???或者至少让咱看看,超过 3 秒钟,会是啥样子吧。
然而,虽然肉眼可见的画质糊、时长短,Genie 仍然是令人惊呼的新研究。
毕竟,任何人,包括幼儿园阶段的小朋友,都可以绘出一个世界,然后加入其中,开始探索。
有小伙伴已经在畅想,日后能用 Genie 制造 " 一个让每个人都感到满足和满足、永无止境的生成世界 "。
眨眼间,AI 就从生成下一个 word 发展到了生成下一个 world。
Genie,一种通用方法
令人欣慰,谷歌 DeepMind 放出了关于 Genie 的论文,《Genie: Generative Interactive Environments》。
论文显示,Genie 是一个11B 参数的交互式环境生成模型,能够从互联网视频中无监督地学习并生成可交互的虚拟世界。
并且,Genie 可以通过文本、图像、照片甚至手绘草图生成最终的交互式虚拟世界。
整个 Genie 包含三个关键组件:
潜在动作模型(Latent Action Model ,LAM);
视频分词器(Tokenizer);
潜在动态模型(Dynamics Model)。
其中,潜在动作模型用于推理每对帧之间的潜在动作。
为了让视频生成可控,谷歌 DeepMind 用前一帧所采取的动作来预测未来帧。
由于此类动作标签在互联网视频中可用的很少,同时获取动作注释的成本超级高,因此,团队以完全无监督的方式学习潜在动作。
也就是说,Genie 的训练使用了大量公开的互联网视频数据集,而没有使用任何动作标签数据。
视频分词器的作用则是把原始视频帧转换为离散 token。
三组件之中的第三样,潜在动态模型,作用是给定潜在动作和过去帧的 token,用来预测视频的下一帧。
论文介绍,在训练过程中,使用超 200000 小时的互联网游戏视频,作为其训练数据。
这些数据集经过筛选,且包含了 2D 平台游戏的视频片段。
最终,其推理过程如下:
值得引起注意的是,Genie 允许用户通过潜在动作在生成的环境中进行交互。
这些动作是通过一个因果动作模型学习得到的,这个模型允许用户通过指定潜在动作来控制视频的生成过程。
用户通过潜在动作与生成的环境进行交互,从而创造出新的、动态的视频内容。
这也是谷歌认为 Genie 是实现通用 Agent 的基石之作的原因之一。
此前研究表明,游戏环境可以成为开发 AI Agent 的有效测试平台,但实际情况中常常受到可用游戏数量的限制。
借助 Genie,未来的 AI Agent 可以在新生成的世界中,进行永无休止的训练。
多说一句,论文中进行了一个概念证明,即 "Genie 学到的潜在动作可以转移到真实的人类环境中 ",不过,这都是未来可能发生的事情了。
谷歌还明确表达了自己的态度:Genie 是一种通用方法。
也就是说,虽然 Genie 的训练数据多是 2D 的游戏视频 or 机器人视频,但不需要任何额外的领域知识,Genie 就可以在多个领域中应用。
为了验证这个观点,谷歌在 RT1 的无动作视频上训练了一个较小的模型,只有 2.5B。
结果发现,具有相同潜在动作序列的轨迹通常会表现出相似的行为,也就是说,Genie 能够学习一致的动作空间。
这对训练机器人甚至具身智能来说,都是大大的利好消息。
最后来看一眼 Genie 的研究团队~
团队人员不老少,共同一作就有六位,分别是 Jake Bruce,Michael Dennis,Ashley Edwards,Jack Parker-Holder,Yuge( Jimmy) Shi,以及 Tim Rockt ä schel。
Yuge(Jimmy)Shi是华人,本科毕业于澳大利亚国立大学,2023 年在牛津大学拿下机器学习博士学位。
她在 2023 年 3 月加入谷歌 DeepMind,此前还在 Meta AI 实习过。
此外,研究团队不少人都是谷歌 DeepMind 的开放性团队(Open-Endedness Team)成员。
研究团队中,有位不列颠哥伦比亚大学的计算机科学副教授,他同时是谷歌 DeeoMind 的高级研究顾问。
他在推特上敲了敲小黑板,称:
咳咳,注意了,现在看到的 Genie 是最糟糕的情况!
相信用不了多久它就会变完美。
-
- 互联网大厂,花名不能停
-
2024-02-29 21:04:23
-
- 淘宝直播下场做MCN,要和B站、小红书抢主播?
-
2024-02-29 21:02:07
-
- 因为Gemini,Google被“围攻”了……
-
2024-02-29 20:59:51
-
- 阿里新动作,就位
-
2024-02-29 20:57:35
-
- 真AI PC实现“降维打击”!荣耀MagicBook Pro 16开辟全新AI PC时代
-
2024-02-29 20:55:19
-
- MWC 2024首日观察:三星智能戒指爆了,AI穿戴迎第二春?
-
2024-02-29 20:53:02
-
- 院士创业做室内定位,「沧穹科技」获深创投两轮融资
-
2024-02-29 20:50:47
-
- 宾语是什么词充当 宾语是什么意思英语
-
2024-02-29 00:46:08
-
- 8484爱情意思 849爱情是什么意思
-
2024-02-29 00:43:52
-
- 15年候鸟结局什么意思
-
2024-02-29 00:41:36
-
- exp是什么意思
-
2024-02-29 00:39:20
-
- 5122是什么意思爱情 5121爱情是什么意思
-
2024-02-29 00:37:04
-
- 夙愿是什么意思? 夙愿的意思是什么
-
2024-02-29 00:34:49
-
- 快递的派送是什么意思 快递派送什么意思?
-
2024-02-29 00:32:32
-
- 995工作制和807工作制 817工作制是什么意思
-
2024-02-29 00:30:16
-
- 送三朵玫瑰花是什么意思呀 送三朵红玫瑰花是什么意思
-
2024-02-29 00:28:00
-
- 男人可以多情但是不能滥情是什么意思 我不滥情是什么意思
-
2024-02-29 00:25:43
-
- 车企越降价,雷军越尴尬?
-
2024-02-28 04:14:38
-
- 中央部委定调!楼市,一个新表态来了!
-
2024-02-28 04:12:23
-
- 全场瞩目!华为惊艳亮相巴展 引领全球智能穿戴行业风向标
-
2024-02-28 04:10:07