谷歌DeepMind研究和深度学习负责人谈视频真实制作过程
谷歌高调发布新AI模型Gemini后,因其宣传视频夸大其性能、误导观众而引发争议。 公司发言人后来承认,它是“使用镜头中的静态图像帧并通过文本提示”制作的,而不是视频中显示的人工智能实时响应口头提示。 谷歌还承认,出于促销目的,它会加快响应时间。
谷歌 DeepMind 研究和深度学习副总裁 Oriol Vinyals 表示:“视频中的所有用户提示和输出都是真实的,只是为了简洁而进行了缩短。” “该视频展示了使用 Gemini 构建的多模式用户体验。我们这样做是为了激励开发人员。”
那么,谷歌DeepMind这个人工智能实验室是如何制作出这段视频的呢? 在创意总监 Alexander Chen 撰写的与宣传视频一起发布的博客文章中,谷歌透露了该视频的实际制作过程。
文章中的例子和视频中显示的例子并不完全重叠,但从重叠的例子中可以发现,工作人员实际输入的提示词可能并不是视频中显示的语音问题,而是一系列的问题。双子座需要非常仔细地理解的问题。 文本。 同时,谷歌使用了拟人化的语音,包括一些情态助词,并重新编辑了语音实时问答,使双子座变得非常明显拟人化。 这些严重误导了观众。
但这篇文章也表明,尽管谷歌的“过度营销力度”招致了来自全球用户、媒体甚至其自身员工的批评,但 Gemini 确实展现出了一定程度的先进多模态表现。 在“视频造假”争议的喧嚣声中,业界应该认真对待Gemini能为人工智能技术带来什么。
谷歌官方展示Gemini的视频令人震惊,但后来被揭露夸大了其性能并误导了观众。
以下是介绍宣传视频制作过程的文章主要内容,并附上宣传视频中的语音内容(灰色文字)进行对比:
我们来做一个实验。 我们将向我们的多模态模型 Gemini 展示这张图像,并要求它描述它所看到的内容:
提示:告诉我你看到了什么
双子座:我看到一个男人的右手。 张开双手,分开手指。
提示:好的,让我们试试这个:
双子座:一个男人敲木门。
提示:这个怎么办?
双子座:我看到一只手伸出两个手指,这是数字 2 的常见符号。
但是等等...如果我们让双子座一起推理所有这些图像会怎么样?
提示:你认为我在做什么? 提醒:这是一个游戏。
双子座:你在玩石头、剪刀、布。
好的,我们还能尝试什么? 让我们看看双子座是否能注意到这种模式:
提示:我正在玩石头剪刀布。 您注意到我的游戏玩法中有一个模式吗?
双子座:你在石头和剪刀之间交替。
太好了,它找到了一个模式! 但双子座真的知道这个游戏是怎么玩的吗? 我们试着问一下:
提示:嗯...您认为这是一个好的策略吗?
双子座:不,这不是一个好的策略。 你的对手会很快了解你的模式并每次获胜。 你应该尝试更多地随机化你的选择。
很好的建议,双子座! 好的,对于最后一项,我们来测试一下您的多模态推理能力。 以下是您的建议:
这是一条秘密消息。 它说什么?
你能弄清楚吗? 我们已要求 Gemini 解决这个问题,但我们不会将答案放在本文中,以免破坏乐趣。
什么是多模式提示?
我们刚才所做的一切都是“多模式提示”的一个例子。 我们基本上为双子座提供了不同模式的组合(在本例中为图像和文本),并让双子座通过预测接下来会发生什么来做出反应。 双子座能够无缝地结合这些模式,为您的工作带来新的可能性。
在本文中,我们将了解 Gemini 入门宣传视频中使用的一些技巧。 我们很快就会让人们在 Google AI Studio 中试用 Gemini,这是我们基于网络的免费开发者工具,您可以在其中使用 Gemini 尝试自己的多模式提示。 我们希望这份入门技巧和想法指南能够帮助激励您开始探索自己的想法。
空间推理和逻辑
逻辑和谜题是测试双子座的有趣方式。 让我们尝试一种既需要从左到右的空间推理又需要有关太阳系的知识的方法:
提示:这是正确的顺序吗? 考虑与太阳的距离并解释你的推理。
双子座:不,正确的顺序是太阳、地球、土星。 太阳距离太阳系中心最近,其次是地球,然后是土星。
(宣传视频中,声音问道:“这是正确的顺序吗?”双子座声音回答:“不,正确的顺序是太阳、地球、土星。”)
好的! 这是另一则受 Pinewood Derby 挑战赛启发的作品:
提示:这些汽车中哪一辆更具空气动力学性能? 左边那个还是右边那个? 使用具体的视觉细节来解释原因。
双子座:右边的车更符合空气动力学。 它具有更低的轮廓和更流线型的形状。 左边的汽车具有更高的轮廓和更方正的形状,这使得它的空气动力学性能较差。
(宣传视频中,声音问道:“从设计角度来看,哪辆车跑得更快?”双子座的声音回答:“右边的车更快,而且更符合空气动力学。”)
图像序列
接下来,如果我们向 Gemini 展示一系列图像会发生什么? 让我们看看是否可以显示单词益智游戏中的一些静态帧并要求 Gemini 猜电影:
提示:猜猜我在哪部电影中
双子座:黑客帝国
提示:好的! 但具体是哪一部分呢? 看我的肢体动作。
双子座:尼奥躲避子弹的部分。
(宣传视频中,工作人员根据上图用手机播放一段视频,双子座推断出这是哪部电影,还给出了涉及的具体剧情。)
宣传视频显示,Gemini 可以直接识别视频。
魔法
探索图像序列确实可以让你深入了解双子座随着时间的推移如何推理。 让我们来尝试一下经典的魔术吧。
提示:解释一下我在做什么。
双子座:你右手拿着一枚硬币。
提示:你认为硬币在哪里?
双子座:硬币在你的右手。
当然,考虑到所看到的情况,这是一个合乎逻辑的答案。 但是当我们向双子座展示我们的下一张图片时,让我们变得有点棘手......
提示:看看这里,发生了什么?
双子座:硬币不见了。
双子座发现它不见了。 但它是否概括了可能发生的情况?
提示:从第一张图片开始,逐步总结可能发生的情况。
双子座:
1. 首先,你右手拿着一枚硬币。
2. 然后用手一动,硬币就会消失。
3.然后你指出硬币丢失了。
双子座正在使用这次对话的整个上下文(包括文本和图像)来总结其答案。 最后,我们再问一次:
提示:你能解释一下它是如何消失的吗?
双子座:手里拿着硬币。
双子座的猜测很靠谱! 但我们不会泄露我们的秘密。
(宣传视频中,工作人员先展示了右手握着的硬币,然后将双手翻过来,掌心向下。还没等工作人员说话,双子座就迫不及待地说:“硬币应该是”然后工作官没有说话,只是拿起右手,却发现下面没有硬币。双子座连忙回应道:“硬币在左手下面,你用了一些伎俩,让硬币看起来像是消失了。”)
洗杯子
让我们尝试一个需要记忆和逻辑的技巧:经典的球杯洗牌游戏。 为此,我们将把它分解为双子座的步骤。 首先,让我们根据这些说明建立基础知识:
使用说明:共有三个杯子,位置1(左)、位置2(中)、位置3(右)。
接下来,我们需要告诉 Gemini 我们希望将球放在哪里:
起始位置:球位于位置 3。
当前状态:空,空,球
请注意我们如何想出一个简单的格式来记住球在哪里,即“空,空,球”。 接下来给Gemini展示两个例子:
图片:
交换:2 和 3
当前状态:空,球,空
图片:
交换:1 和 2
当前状态:球,空,空
在这两个示例回合中,我们展示了交换的样子以及如何更新球的位置。 现在,让我们看看 Gemini 是否可以概括出从未见过的交换:
图片:
交换:
以下是双子座的回应:
1 和 3
当前状态:空,空,球
双子座明白了! 它查看这些图像并正确推断出杯子 1 和 3 正在交换。 它正确地解释了如何更新球的位置。 我们去问问吧:
提示:告诉我球在哪里,并以段落形式总结它是如何到达那里的。
双子座:球在 3 号杯中。
从杯子 3 中的球开始,第一次交换是在杯子 2 和 3 之间。这会将球放入杯子 2。第二次交换是杯子 1 和 2。这会将球放入杯子 1。第三次交换是杯子1 和 3。这会将球放入 3 号杯子中。
Gemini不仅给出了正确的答案,而且准确地总结了游戏的历史。 当然,它并不总是能正确应对这一挑战。 有时假动作(交换两个空杯子)似乎是错误的,但有时却是正确的。 但像这样的简单技巧可以让快速测试 Gemini 变得非常有趣。 您可以更改提示中的变量,包括交换顺序,然后看看效果如何。
(宣传视频中,工作人员交换了三个杯子的位置,双子座立刻找到了下面有纸团的杯子。)
工具使用
如果您想在自己的应用程序中使用 Gemini,您会希望它能够连接到其他工具。 让我们尝试一个简单的想法,Gemini 需要将多模态与工具使用结合起来:画图来搜索音乐。
提示:第 1 步。查看图片,描述其中的所有内容,并针对良好的音乐流派、情绪或配乐提出有趣且具体的想法。
步骤 2. 以以下形式提供搜索查询:“搜索 [插入查询]”
双子座:这张照片显示了吉他、鼓和扩音器。 还有一棵棕榈树。 气氛充满乐趣、乐观和热带风情。 流派是雷鬼音乐。 该配乐可用于以热带地区为背景的电影或电视节目。
搜索“适合热带度假的雷鬼音乐”。
好的! Gemini 对其所看到的内容进行推理,然后生成一个搜索查询,您可以解析该查询以进行搜索。 就好像双子座是你的翻译 - 但它不是在语言之间翻译,而是翻译模式 - 在这种情况下,从绘画到音乐。 通过多模式提示,您可以使用 Gemini 在不同输入和输出之间发明自己的全新翻译。
(宣传视频中,工作人员在纸上逐渐添加了乐器,双子座根据乐器的风格给出了配乐。最后工作人员添加了棕榈树的图片,双子座说:“我看到你添加了一个棕榈树,改为海滩风格的音乐。”然后给出配乐。)
游戏创作
如果我们尝试使用 Gemini 快速构建多模式游戏原型会怎样? 这个想法是这样的:一个地理猜测游戏,你必须指向地图来猜测。 我们首先提示 Gemini 的核心思想:
说明:我们来玩一个游戏。 想想一个国家并给我一个线索。 线索必须足够具体,只有一个正确的国家/地区。 我会尝试在地图上指出该国家/地区。
接下来,让我们给 Gemini 一个游戏示例,展示我们希望它如何处理错误和正确答案:
国家:这个国家是一个巨大的岛屿,大部分被冰覆盖。
(答案:格陵兰岛)
猜测:
我的意思是加拿大*错误*
猜测:
我指的是格陵兰岛*正确*
我们来尝试一下,并提示 Gemini 生成线索:
线索:
该国以其独特的野生动物而闻名,包括袋鼠和考拉。 (答案:澳大利亚)
嗯,这是一个很好的线索。 让我们测试一下指向是否有效。 只是为了好玩,让我们先尝试指出问题所在:
猜测:
我的意思是巴西*不正确*
非常好! 双子座看了我的照片,发现我指的是巴西,并正确地推断出这是错误的。 现在让我们指向地图上的正确位置:
我指的是澳大利亚*正确*
好的! 我们基本上只是通过举例来教 Gemini 我们的游戏逻辑。 您还会注意到,它是从示例中的插图中概括出来的。
(宣传视频中,双子座首先介绍了澳大利亚,当工作人员指着澳大利亚时,双子座说是正确的。然后,双子座给出了关于巴西的线索,当工作人员指着巴西时,双子座说是正确的。)
抢先看
在这篇文章中,我们一直在向双子座提供输入,并让双子座对接下来可能发生的事情进行预测。 这基本上就是提示。 我们的输入是多模式的——图像和文本的组合。
但到目前为止,我们只显示了 Gemini 的文字回复。 也许你想知道,双子座也能用图文结合的方式回应吗? 它可以! 这是 Gemini 的一个功能,称为“交错文本和图像生成”。 虽然此功能尚未准备好供人们在 Gemini 的第一个版本中试用,但我们希望尽快推出。 以下是一些可能性的一瞥。
让我们看看是否可以利用双子座来提供日常的创作灵感。 让我们在需要一点多模态推理的领域尝试一下……编织! 与上面的地图游戏类似,我们提供一个交互示例:
给我三个我可以使用这两种颜色制作的钩针项目的想法:
颜色:我看到蓝色和黄色的纱线。
想法 1:一只长着一只黄耳朵的可爱狗怎么样?
图片1:
想法 2:或者有一些黄色触手的水母怎么样?
图2:
想法 3:或者一只黄鼻子的蓝猫怎么样?
图3:
我们本质上是在教双子座我们希望每次互动如何进行:“我要拍一张两个毛线球的照片,我希望你(双子座)都想出一个我可以制作的东西的想法,并且生成它。” 图像。”
现在,让我们向它展示一对它尚未见过的新纱线颜色,看看它是否具有普遍性:
提示:给我三个我可以用这两种颜色制作的钩针项目的想法:
双子座:
颜色:我看到蓝色和粉色的纱线。
想法 1:一只蓝耳朵的猪怎么样?
图片1:
想法 2:或者是一只长着粉色和蓝色触角的章鱼?
图2:
想法 3:还是一只粉红鼻子的兔子?
图3:
好的! 双子座正确地推理了新颜色(“我看到蓝色和粉色纱线”),并在文本和图像的单个交错输出中生成了这些想法和图像。
Gemini 在这里所做的与当今的文本到图像模型有着根本的不同。 它的作用不仅仅是将指令传递给单独的文本到图像模型。 它可以看到我的木桌上实际纱线的图像,并对我的文本和图像进行多模式推理。
(宣传视频中,工作人员并没有提到之前给Gemini展示过例子来帮助它学习,只是展示了Gemini快速给出答案的过程。)
股市回暖,先开户抄底买股票! 智能定投、条件委托、个股雷达……给你>>
海量信息、精准解读,尽在新浪财经APP