P11-Towards-AI-for-3D-Content-Creation---爱可可-爱生活---BV1jo4y1d7R6

P11：Towards AI for 3D Content Creation - 爱可可-爱生活 - BV1jo4y1d7R6

伟大，是啊，是啊，谢谢你的介绍，我要和你谈谈三D内容创作，尤其是深度学习技术，以促进三维内容的创建，我要谈的大部分工作是工作，嗯，我和我在英伟达的团队以及合作者，但这也将是我在UT的一点工作。

所有的权利，所以你知道，你们这些家伙，我想这是一堂深度学习课，对呀，你听说了艾是怎么做的，你知道在过去的一年里取得了如此大的进步，也许十年，几乎，但计算机图形学实际上也发生了革命性的变化，你知道。

许多新的渲染技术或更快的渲染技术，也是通过和AI一起工作，嗯。

这是约翰逊介绍的最新视频，所以这一切都完成了，你看到的所有投降都是实时完成的，它基本上是在你眼前呈现的，和，你知道的，与传统的，你可能习惯了实时游戏，但这里没有大灯，没有大灯，一切都是在线计算的。

照明一切都在网上，你在这里看到的是在一种叫做全宇宙的东西中呈现的，这种可视化和协作，在英伟达最近刚刚发布，你们应该去看看，真的很棒，所有的权利，哎呀。

这盏灯总是卡住，是啊，是啊，所以当我加入英伟达的时候，这是两年半前的事了，我所在的其实是兽人，呃正在开发一个叫做杂食者的软件，我刚才展示的那个，我对此非常兴奋，你知道我想在这个领域做出贡献。

所以以某种方式将人工智能引入内容创作和图形管道，三维内容在图形中无处不在在很多领域，所以在建筑学中，你知道的，设计师会创造办公空间，公寓，不管一切都会做什么，你知道的，你知道的。

在一些计算机图形学建模软件中，对呀，这样你就可以判断你是否喜欢一些空间，然后再出去建造它，现代游戏都像沉重的，胶片中的三个D um，有很多计算机图形学，事实上，因为导演只是想从角色或人类身上得到太多。

所以你只需要把它们都吃完，用计算机图形学完成，以逼真的方式动画，既然我们都回家了，你知道VR超级流行吧，每个人都想在房间里有只老虎，或者有一个三D字符版本。

你自己的三个D头像等等，嗯，还有机器人技术，所以医疗保健和机器人技术，实际上也有很多计算机图形学，在这些领域，这些是我特别兴奋的领域，为什么嗯，它实际上是为了模拟。

所以在你在现实世界中部署任何类型的机器人系统之前，你需要在模拟环境中测试它，所有的权利，你需要在医疗保健的各种挑战性场景中测试它，因为你知道，机器人手术或机器人学，自动驾驶汽车，你知道仓库机器人之类的。

我将向你们展示这个叫做Drive SIM卡的模拟器，英伟达一直在开发的，嗯，这是，呃，这个视频是几年前的，现在不是，比这好多了，嗯，但基本上模拟有点像一个游戏。

它真的是机器人的游戏引擎。

现在你从游戏引擎中暴露了更多，你想让造物主。

机器人学家对环境有一定的控制，对呀，你想决定你要放多少辆车在里面，天气会怎么样？黑夜或白天等等。

因此，这使您能够对将要测试的场景进行一些控制，但好处是。

你知道的，有了这个计算机图形管道，一切都被标记在三个D中，你已经创造了一辆三维模型的车，你知道这是一辆车。

你知道汽车的部件，你知道某物是土地等等，而不仅仅是渲染图片，你也可以渲染，你知道人工智能训练和测试的基本事实，你可以得到地面真相车道，地面真理天气地面真理分割，所有这些东西，在奖励中收集是超级难的。

我的目标是，你知道的，如果我们想考虑所有这些应用和特定的机器人技术，你知道的，我们能以某种方式模拟世界吗，我们能不能把这样的模型，从远处看可能不错，但我们想在街头创造真正好的内容，你知道资产和行为。

让这些虚拟的城市活起来，这样我们就可以，你知道吗，在里面测试我们的机器人好的，所以实际上让我玩，这需要大量的人力，在这里我们看到一个人创造了一个与给定的现实世界图像对齐的场景，艺术家把场景元素。

编辑他们的姿势，纹理以及场景或全局属性，比如天气，照明，摄像机位置，这个过程最终花了四个小时来拍摄这个特殊的场景，所以在这里艺术家已经有了资产，你知道的，网上买的什么的，唯一的目标是重现上面的场景。

已经花了四个小时了对吧，所以这真的真的很慢，我不知道你们是否熟悉，你知道像侠盗猎车手这样的游戏，那是一千个工程师的努力，一千人工作三年，嗯，基本上创造了一个洛杉矶，在城市里转来转去，拍了大量的照片。

你知道25万张照片，数小时的镜头，任何能给他们，你知道他们需要在世界上复制什么的想法，所有的权利，所以这就是AI可以帮助的地方，你知道的，我们知道计算机视觉，我们知道深度学习，我们能不能拍一些镜头。

重现这些城市，在重建方面，资产和行为，这样我们就可以模拟所有这些内容，或者这个直播内容，所有的权利，所以这是我对我们需要创造的东西的想法，我真的希望有些人，你们中的一些人会对这些话题同样兴奋。

我要努力解决这个问题，所以我相信我们需要，在这个特定地区的AI，所以我们需要能够合成世界，这意味着，你知道场景布局，你知道，我把这些不同的物体放在哪里，也许是世界地图，所以我们需要一些创造资产的方法。

就像你知道的，汽车，人等等以某种可伸缩的方式，所以我们不需要艺术家来创作这些内容，非常缓慢，你也知道，世界动态动态部分，所以你知道的场景，这意味着我需要能够，呃，对每个人都有很好的行为，对吧。

我该怎么尝试，你也知道，动画，这意味着人或任何表达的物体，你的动画需要看起来逼真，好的，很多这种东西，你知道那里已经做了，对于任何游戏，艺术家和工程师需要这样做，我想说的是，我们能让AI做这么多吗。

好多了，快得多，所有的权利，所以你知道，我今天要讲的是我们卑微的开始，所以这是我的主要话题，你知道多伦多英伟达实验室和，我要告诉你一点关于，所有这些不同的话题，我们一直在慢慢解决，但还有很多事情要做。

好的，所以我们要解决的第一件事，我们能通过，也许看看我们可以收集的真实镜头，比如说从一个自动驾驶平台，那么我们可以把那些视频，和，你知道，训练某种生成模型，将生成看起来像真实城市的场景，你知道我们想开。

所以如果我在多伦多，我可能需要砖墙，如果我在一个，我只需要更多的街道，就像我需要以某种方式个性化这个内容，基于我将要去的世界的一部分，好的，如果你们有什么问题，把它们写下来，我喜欢讲座是互动的。

所有的权利，那么我们如何构图场景，我们的想法是研究游戏是如何在游戏中构建的，你知道人们需要创造非常多样化的水平，所以他们需要以一种非常可扩展的方式创建，非常大的世界，一种方法是使用一些过程模型。

右语法或概率语法，它基本上告诉你，你知道如何创建场景的规则，使其看起来像一个有效的场景，所以在这个特殊的情况下，我会尝试一次有一些车道的公路旅行，然后在每条车道上，你知道，取样一些汽车。

也许在一条小巷旁边有一条人行道，也许人们走在那里，那里有树或类似的东西，对吧，所以这个这个，这个概率模型可能相当复杂，很快想象一下这是如何变得复杂的，但与此同时，实际上写这个并不难。

任何能够写一堆关于如何创建这些内容的规则的人，好的，所以它不是它不是太强硬，但最难的是真正难的是难的部分，你知道的，在这里设置所有这些分布，你知道，这样渲染场景就会看起来像你的目标内容对吧。

意思是如果我在多伦多，也许我想要更多的车，如果我在一个小村庄，在某个地方我想有更少的车，所以尽管我需要去，然后你知道，把这些模型个性化。

正确设置分布，所以这只是一个例子。

你知道的，从这里的概率模型中取样，上，卡片方向的概率将成为随机集，但仍然没有场景看起来已经有点好了，对呀，因为它已经包含了我们所知道的关于世界的所有规则，模特不需要学习训练好的。

所以你可以把它看作是某种图表，对呀，其中每个节点定义我们要放置的资产类型，然后我们也有属性，这意味着我们需要有位置高度，摆出任何必要的姿势来把这辆车放在场景中并渲染，好的，这些东西通常是由艺术家设置的。

对呀，他们需要，他们看真实的数据，然后他们决定，你知道我在城里会有多少皮卡，等等，所有的权利，所以基本上他们手工设置这个分布，我们要说的是，我们能真正了解这个分布吗，我们只是在看数据。

好的，几年前我们有一篇名为Meta的论文，这个想法是在哪里，让我们假设我所取样的场景的结构，所以在这个特殊的情况下。

你知道我有多少车道，我有多少辆车，这来自艺术家已经设计的一些发行版。

所以图表是正确的，但是属性嗯应该修改，所以如果我从这个原始场景图中取样，我可以渲染，就像你看到的那个例子，在汽车随机旋转之前，等等这个想法是，神经网络现在能修改这些节点的属性吗，修改旋转，这个颜色。

也许是一种类型的物体，这样当我渲染那些场景图时，我得到的图像看起来像真实的图像，我已经记录在分发中，所以我们不想追求每个场景的精确复制品，我们希望能够训练，生成模型，将合成看起来像我们记录的图像的图像。

那是目标，好的，所以基本上我们有一个图表，在场景图上工作的神经网络，它试图预测每个节点的属性，我不知道你们有没有谈到图神经网络，然后损失是通过这里的渲染器出来的，我们用了一个叫做最大均值差异的东西。

所以我不打算详述，但基本上你可以，您需要比较两个不同的发行版，你可以通过比较，你知道的，比较两种分布的均值，或者是高阶矩，MD的设计是为了比较高阶矩，现在最后一个可以通过这个不可微渲染器返回道具。

回到我们的图形神经，好的，我们只是使用数字梯度来做到这一点，很酷的地方是，我们真的不需要在图像上做任何记号，我们直接比较图像，因为我们假设图像，合成的图像已经很不错了，所有的权利。

所以我们实际上不需要数据，我们只需要开车四处走走，记录下这些事情，好的，你可以做一些更酷的事情，您实际上可以尝试个性化这些数据，你以后要解决的任务，这意味着您可以训练这个网络来生成数据。

如果你在这些数据的基础上训练其他神经网络，这是一个物体探测器，它真的会做得很好，你知道的，不管你最后有什么任务，在现实世界中收集的，好的，这可能并不意味着物体需要在场景中看起来很好，你可能会。

这只是意味着你需要生成对一些网络有用的场景，你想对这些数据进行训练，好的，而你，你，你再背这个，你可以用强化来做到这一点，学习。

所以这现在是在训练属性的分布，这是比较容易的部分，我们回避了，嗯，这些图的结构怎么样，意思是如果我一直生成，你知道一个场景中有五八辆或十辆车，但现在我在一个村庄里，对呀，所以这个想法是，车道数。

汽车的数量等等。

事实证明，实际上你也可以做到这一点，在这里，我们有一个概率上下文无关语法，这基本上意味着你有一个，你有根，现在你有一些符号，可以是非终端符号和规则，他们基本上把非终端符号扩展成新的符号。

所以这里有一个例子，所以你有一条路，你知道它生成车道，车道可以进入车道或更多车道，对等等，所以这些是规则，基本上我们想做的，我们想训练一个网络，学会取样，这个问题是上下文无关语法，好的。

所以我们会有某种潜在的载体，在这里我们知道我们在树上的位置，我们之前已经生成的图，所以想象一下我们在，我们有一些车道什么的样品，所以我们现在知道了相应的符号我们可以从这里取样。

我们可以用它来掩盖其他一切的可能性，我们的网络基本上将学习如何产生正确的概率，下一个符号，我们应该取样，好的，所以基本上每一步，我要测试一个新规则，直到我击中所有的终端符号，好的。

这基本上给了我这样的东西，这些是样品，这种情况下的规则，可以转换成图形，然后用前面的方法，我们就可以，你知道，用属性增强此图，然后我们可以渲染场景，好的，所以基本上现在我们也在学习如何生成。

嗯实际场景图，场景图的实际结构和属性，这是超级难训练的，所以有很多铃铛和哨子让这一切发挥作用，但本质上是因为这都是不可微的步骤，你需要强化学习之类的东西，有很多技巧可以让它发挥作用。

但我很惊讶能有这么好的结果，所以在右边你可以看到来自真实数据集的样本，或者凯蒂就像一个真正的驾驶数据集，左边是概率语法的样本，我们手动设置了这些第一个概率，我们故意把它弄得很糟糕。

这意味着这个概率语法当你取样时你得到的车真的很少。

几乎没有建筑物，你可以看到这几乎是没有人口的场景，训练生成模型后，学习如何对这类场景进行采样，因为它们更接近真实的目标数据，所以这就是最后的趋势歌唱的地方，现在你怎么能真正评价我们做了一些合理的事情。

在这里你可以看到，比如说，真实数据集中的汽车分布，这是小猫在这里，所以在这里你会有一个直方图，每个场景中有多少辆车，嗯，你这里有一个橙色的家伙，这是在先的意思，这个初始化得很糟糕的斯托语法。

我们大部分时间都在取样，很少有车，然后学习的模型，就是绿色，这里的线，所以你可以看到发电机，似乎真的真的紧紧地跟着，真实数据的这种分布，手头没有任何一个注释，现在你们可以好好争论，写起来超级容易。

你手工知道这些分布，我们已经完成了，我想只有这个，只是说明这是可以工作的，下一步我们要做一个非常大的规模，把这些你知道的做得很大，概率模型，在那里很难手动调整所有这些参数，最酷的是。

因为现在一切都可以训练，自动，从真实数据，没有任何最终用户可以拿走这个，它将在他们这边训练，他们知道他们不需要用手去设置所有这些东西，好了下一个问题是，你知道我怎么评价我的模型实际上做了一些合理的事情。

一种方法是从这个模型中取样，合成这些图像，伴随着地面的真相，然后训练一些，你知道N个模型，就像数据上的探测器，并在真实数据上进行测试，看看性能是否有所改善，嗯，与你知道的相比，假设初始化得很糟糕，嗯。

概率语法，事实证明就是这样，好的，这是开车时展示的例子。

但是对不起，所以这个模型就在这里。

我只是在展示训练中发生的事情，让我只是好吧，因此，第一个快照是模型中的第一个示例。

然后你看到的是这个模型实际上是如何训练的，那么如何在训练中修改场景呢，我再给你看一次。

所以你可以看到第一个框架是放置得很糟糕的车，然后它慢慢地试图找出把它们放在哪里，是正确的，当然，这是生成模型，对吧，所以你可以在大量的场景中取样，所有的东西都有标签，很酷好吧。

这个模型是在开车的时候展示的，但你也可以在其他地方应用它。

就像在其他领域一样，在这里你知道，现在的医疗保健非常，你知道重要的，尤其是现在大家都被困在家里，所以你知道，你能用这样的东西来合成医学数据吗，我说的权利是什么意思，所以医生需要采取，你知道的。

城市或MMR um，核磁共振和体积，去给每一片都贴上标签，你知道的，假设一个分割掩码，这样他们就可以训练，就像一个，你知道的，癌症分割，或者汽车分割，或者肺分割，神户探测，任何权利，所以首先。

数据很难获得，对吧，因为在某些疾病中，你没有很多这样的数据，第二部分是它实际上是超级耗时的，你需要专家来标记这些数据，所以在医学领域真的很重要，如果我们真的能学会如何综合这些数据，标签数据。

这样我们就可以用它来增加真实的数据集，好的，这里的模型将再次非常简单，你知道我们有一些生成模型，让我们从一个潜在的代码到，关于网格A的某些参数，在这种情况下，这是我们在材料地图中的资产，然后呃。

我们用一个基于物理的UM CT模拟器合成了这个，你知道看起来有点模糊，然后我们用类似的东西训练一个当汉曼模型，然后你得到模拟数据，显然又是，有很多铃铛和哨子。

但你知道你可以得到非常好看的合成卷，所以在这里用户可以玩心脏的形状，然后他们可以点击合成数据，你拿一些有标签的卷出来，标签基本上是左边的东西，这是模拟传感器，在这种情况下，所有的权利。

所以现在我们讨论了使用过程模型来生成世界，当然，问题是，我们需要写所有这些规则吗，我们能学会如何恢复所有这些规则吗，这是我们第一次对此的看法，嗯，在这里，我们想生成或学习如何生成城市道路布局，好的。

这意味着我们希望能够生成类似的东西，在你知道的地方，这里代表道路的线，好的，这是任何城市的基地，我们想再次控制这个世界，你会有互动一代这样的东西，我想让这个派对看起来像剑桥，是看起来像纽约的一部分。

是看起来像多伦多什么的一部分，我们希望能够生成或合成其他一切。

你知道根据这些风格，好的，你可以把道路布局解释为一个图形，好的，那么这意味着什么呢，我有一些控制点和两个控制点正在连接，意味着我在他们之间有一段公路线，所以真的，我们在这里试图解决的问题是。

我们能让神经网络生成图形吗，带属性的图，其中每个属性可能是x，控制点的y位置，好吧，再来一次，巨型抓斗，因为这是我们想要生成的整个城市，嗯，所以我们实际上有一个非常简单的模型，在那里你迭代地生成这个图。

想象我们已经，你知道的，生成了图的某些部分，我们要做的是从，就像未完成的布景，我们所说的，我们已经合成并导致这个节点，这基本上意味着我们想，我们想对这个节点的外观进行编码，它连接的是什么路。

我们想生成剩余的节点，基本上这些道路是如何继续的，在这种情况下，好的，这是超级简单的，你只需要像RNN一样对这些路径进行编码，一个RNN正在解码这些邻居，好吧，你停在哪里。

基本上你击中了城市的一些预定大小。

我给你看一些。

一些结果。

所以在这里你可以根据城市的风格来调整，所以你可以生成巴塞罗那或伯克利。

你可以有这个控制权，或者你可以把城市的一部分设定为特定的风格。

你可以用同样的型号，生成模型。

也解析真实地图或真实航空图像，并创建和创建这些地图的变体，以进行模拟，因为对于模拟，我们需要对实际布局保持稳健，所以现在你可以把这个图表变成一个真正的小城市。

在那里你可以，也许像我们之前讨论的那样，程序地生成其余的内容。

房子在哪里，交通标志在哪里，等等。

现在我们可以生成，你知道城市的地图，嗯，我们可以在城市的某个地方放置一些物体，所以我们有点接近合成世界的目标，但我们仍然缺少物体。

物体仍然是艺术家需要创造的痛苦，所以所有这些内容都需要手工设计，这需要很多时间才能做好，也许已经有了，你们会争辩说，你知道的，对于汽车来说，你可以上网支付这些东西。

首先它很贵，其次，它在某些课程中并不广泛可用，就像，如果我想要一只浣熊，因为我在多伦多，他们只是成吨的。

只有几个，它们看起来不像真正的浣熊。

对呀，所以问题是，我们真的能做到吗，通过只拍摄图片并从图片中合成其内容来解决这些任务，对呀，所以理想情况下我们会，嗯，像图像一样的东西，我们想生产出，你知道一个三维模型三维纹理模型。

为什么我可以插入我真实的东西，理想情况下我们希望只在网络上广泛可用的图像上这样做，是的，我想新的iPhone都有激光雷达，所以也许这个世界会改变，因为每个人都会用三维传感器拍三维照片。

但现在Flickr上的大多数对象图片，假设都是单一的图像，人们只是对一个场景或特定对象进行快照，所以问题是，你知道的，我们如何从所有的数据中学习，从左边的图像变成三维模型，在我们的例子中。

我们希望从图像中产生输出，一个基本上有，你知道顶点的位置，x y是，你知道每个顶点上的一些颜色材料属性，右和三个D顶点以及面，这意味着哪些顶点是连接的，这基本上是定义一个三维对象。

现在我们要转向图形，帮助我们实现我们的目标从你知道的，从网上学习的那种没有监督的，好的，在图形中，我们知道图像是由几何学与光相互作用形成的，对呀，那只是渲染的原理，好的，所以我们知道你可以，你。

如果你有一个网格，如果你有一些光源，你就有了一个质地，还有材料等等，我不在这里写，和一些图形渲染器，你知道有很多问题可以选择，你得到一个渲染的图像，如果我们让这部分可微，如果我们把图形和可微。

那么也许有希望走另一条路，对呀，你可以把计算机视觉想象成反向图形图形是三维图像，计算机视觉想从图像进入三维，如果这个模型是可微的，也许有希望做到这一点。

所以最近有很多工作要做，基本上这种经过不同修改的管道，嗯，但基本上这总结了正在进行的工作，你有一个图像，你有某种神经网络，你想训练，你在做这种纽扣，就像这里的预测，就是粉碎性的轻质感，也许现在是材料。

而不是在这里失去，因为你没有，因为你，否则您需要对其进行注释，我们要做什么，相反，我们将把这些预测发送到这个渲染器，它将渲染一个图像，我们将在渲染图像和输入图像上定义定律，我们基本上要试着让这些图像与。

好的，当然还有很多其他的损失人们在这里使用，喜欢多视频，因为你假设在训练中，您有相同对象的多个视图，你有口罩什么的，所以有很多铃铛和哨子，如何真正让这个管道工作，但原则上，这是一个非常干净的想法。

我们想预测这些性质，我有这个图形渲染器，我只是在比较输入和输出，因为这是这个渲染是可微的，我可以把这个损失传播回我想要的一切，你知道神经轻量级，所以我可以预测这一点，这些属性。

特别是有一个非常简单的，像OpenGL类型渲染器，我们使其可微，也有一些版本可以进行追溯，可微的等等，但基本上我们使用它的想法非常简单，对了，网格基本上是投射到图像上的，你得到三角形，每个像素都是。

基本上只是这个投影三角形顶点的Bucentric插值，现在如果你在这些顶点上定义了任何属性，比如颜色，或者你知道，质感等，然后您可以在这里通过您的，你知道渲染器，它以可微的方式假设一些照明，用这个坐标。

这是一个可微函数，你可以通过任何灯光或其他东西回去。

这是一个非常简单的，你知道，有更丰富的模型可用，更富有，可微的，这些天提供的，但在这里，我们也试图在数据方面变得聪明一点，因为大部分相关的工作都是利用合成数据来训练他们的模型，为什么，因为在训练过程中。

大多数工作都需要多视图数据，这意味着我必须有来自同一物体多个不同视图的多张照片，这很难从网络数据中获得，对呀，很难得到，所以说，人们基本上只是从合成数据集中提取合成汽车，并在不同的视图中呈现。

然后训练模型，这真的只是，也许也许会让一个问题变得不那么有趣，因为现在我们实际上依靠合成数据来解决这个问题，问题是我们如何获得数据，我们试着聪明一点，我们转向图像的生成模型，我不知道你们有没有上课。

你知道图像甘斯，但如果你再拿像风格这样的东西，也就是，你知道吗，生成对抗网络，通过从一些，或者你得到了非常惊人的照片，就像所有这些图像都是合成的，这些都不是真的，这都是合成的，好的，你知道这个甘斯。

基本上他们所做的是你有一些潜在的代码，然后有一个，你知道，一些很好的渐进式架构，慢慢地将潜在的代码转化为实际的图像，会发生的是，如果你开始分析这个，这个潜在的代码，或者我想我要谈谈这个。

如果你拿代码的某些维度，你试着冻结它们，好的，你只需操纵剩下的代码，事实证明，你可以在这个潜在的代码中找到非常有趣的控制器，基本上枪已经了解了一个三维世界，它就藏在那个潜在的密码里，好的。

我这么说是什么意思，所以你可以找到一些潜在的维度，基本上控制视点，剩下的代码是控制内容，意思是，汽车的类型和视点意味着那辆车的视点，好的，所以如果我看这里，我们基本上改变了视点代码。

并保留了这些内容代码，剩下的代码冻结了，这基本上是合成的，最酷的是它看起来就像你知道的，同一对象的多个视图，它并不完美，就像这个家伙，第三个，最上面一行的照片对象看起来不完全匹配。

但大多数从不同的角度看都像同一辆车，另一边也拿着，所以说，如果我在这些列中的每一列中都固定了一个内容，比如视点代码，但他们改变了，内容代码在这里表示不同的行，我实际上可以在每个视点得到不同的车，好的。

所以这基本上又是合成的。

这正是我们需要的数据，所以我们没有对我们的技术做任何特别的事情，我们唯一聪明的是如何获取数据，你知道现在你可以用这些数据来训练我们的，你知道可微渲染管道，你会得到这样的预测。

你有一个输入图像和一堆三个D预测，但现在我们也可以做汽车，所以左边的输入图像，然后在本专栏中的同一视点中呈现的三维预测，这是在多个不同的视点中呈现的预测，只是为了展示预测的三维性质。

现在我们基本上有了这个工具可以拍摄任何图像并产生三个，d资产，所以我们可以通过拍照来拥有大量的汽车，好的，这里有一个小演示在这个全方位的工具，用户现在可以拍一张汽车的照片然后拿出一个三维模型，请注意。

我们也估计材料，因为你可以看到挡风玻璃有点透明，车身看起来很闪亮，所以它是金属的，因为我们也预测了三个D部分，你知道它并不完美，但相当不错，现在你知道，一个月前，我们有了一个新版本，也可以动画这个预测。

所以你可以拍一张照片。

预测这家伙，这家伙，我们可以把。

你知道，轮胎而不是预测的轮胎，你可以估计物理学，你可以开着这些车到处跑，所以它们实际上成为有用的资产，这现在只在车里，但当然这个系统是通用的，所以我们要，我们正在将它应用于许多不同的内容。

酷，我想我不知道我还有多少时间。

所以也许我要跳到最后，我总是有太多，sli，嗯。

所以我有所有这些行为什么的，但我想给你看我们做的最后一个项目。

因为我想你们只给我四十分钟，嗯，所以你知道我，我们也做了一些动画方面的工作，呃，利用强化学习，嗯那个，你知道的，也许我跳过了这里，但我们基本上是在为所有不同的方面构建模块化的深度学习块，问题是。

我们能不能回避一下，我们能不能学会如何模拟数据，用一个神经网络的一切，我们称之为神经模拟，我们能不能有一个人工智能模型来观察我们与世界的互动，然后能够模拟，所以你知道，在电脑游戏中，我们知道你知道他们。

它们接受一些用户操作，左右，键盘控制或其他什么，然后计算机引擎基本上在合成下一帧，它会告诉我们，你知道世界是如何随着你的行动而改变的，所以我们试图尝试的，这里是用神经网络代替游戏引擎。

这意味着我们仍然希望游戏的互动部分，用户将在其中输入，动作就要开始了，但是屏幕将由神经网络合成，这基本上意味着你知道，这个神经网络需要学习世界是如何正确工作的，如果我撞到一辆车，它需要，你知道的。

制作一个看起来像那样的框架，一开始我们的第一个项目是，好吧我们能不能找个吃豆人模仿一下，试着看看神经网络是否能学会如何模仿吃豆人，但当然有趣的部分就要开始了，我们无法访问游戏引擎的地方，就像这个世界。

对，你可以把世界想象成矩阵，我们无法访问矩阵的地方，但我们仍然想学习如何模拟和仿真矩阵，这真的是令人兴奋的未来工作。

但基本上我们有，你知道一个试图模仿什么的数字，游戏引擎的作用，你在那里输入一些，你知道动作，也许上一帧，然后你有一个叫做动态引擎的东西，世界上的动态是如何变化的，我们有一个渲染引擎，它将潜在的代码。

实际上会产生一个好看的图像，我们也有一些记忆，它允许我们推送任何我们想要能够持续产生的信息，你知道一致的游戏性，在这里的一些额外的街区。

好的，他是，他就像我们在吃豆人上的第一个结果，我们在吃豆人40岁生日那天发布了这个。

哈哈哈。

你在这里看到的都是合成的。

对我来说是，即使是这么简单的游戏，其实没那么容易。

因为你知道神经网络需要了解，呃，吃豆人，如果它吃了食物，食物需要消失，如果鬼魂能变成蓝色，然后如果你吃了一个蓝色的。

鬼你活下来，否则你就死定了，所以已经有很多不同的规则需要恢复。

就像合成图像一样。

当然我们的下一步是，我们能把这个放大吗，我们能去看三场比赛吗，我们最终能走向现实世界吗，所以再一次，这里，控制将是转向控制，就像速度和方向盘，这是由用户完成的，被人类，你在右边看到的是，你知道。

玩具枪画的画框，通过这个模型，所以我们开着这辆车到处跑，你可以看到什么，模型所画的是一个相当一致的世界，事实上，没有三个D。

什么都没有，我们基本上只是合成帧，这里有一个更复杂的版本，哪里嗯，我们也尝试合成其他汽车，这是在卡拉模拟器上，这就是我们试图模仿的游戏引擎，它并不完美，就像你可以看到汽车实际上在改变颜色。

但令人惊讶的是，它能够完全做到这一点，现在我们有一个版本实际上是在真实的驾驶视频上训练的，就像一千个小时的真正驾驶，它实际上已经做了一个惊人的工作，你知道。

所以我认为这可能是一个很好的替代管道的其他部分。

所有的权利，当你在做一件如此宽泛的事情时，你知道有一件事要意识到，一个大问题是你永远无法独自解决它，你知道我们会独自解决的，所以我的一个任务也是为社区提供工具，这样你就知道。

你们可以拿着它建立自己的想法，并构建自己的三D内容生成方法。

好的，所以我们最近发布了三维深度学习是CD的一个令人兴奋的新领域，但是使神经网络适应这个领域并不容易。

COWAN是一套用于三维深度学习的工具，包括一个pi torch库和一个全方位的应用程序。

考恩的图形处理器，优化操作，和交互式功能带来了急需的工具来帮助加速该领域的研究。

比如说，您可以将模型的预测可视化为它的训练。

除了纹理网格。

您只需两行代码就可以查看预测的点云和体素网格。

您还可以对您喜欢的数据集进行采样和检查。

容易在网格之间转换，点云和体素网格。

渲染三个带有地面真相标签的D数据集来训练您的模型。

并构建强大的新应用程序，弥合图像和三个D之间的差距，使用灵活的模块化可微渲染器。

还会有更多，包括在Web浏览器中可视化远程培训检查点的能力，不要错过三维深度学习研究中这些令人兴奋的进展，以及COWAN将如何很快扩展到更多的应用程序。

是啊，是啊，所以我说的很多事情，所有的基本工具都可用，所以你知道，请拿着它，用它做一些惊人的事情。

我对此真的很兴奋，只是总结一下，我希望我妈妈能创造出非常好的三维模型，她不知道如何使用微软，字什么的，所以它需要超级简单，有人工智能工具可以帮助更高级的用户，像艺术家一样，游戏开发者，但只是，你知道的。

减轻镗削材料的负荷，让他们的创造力发挥得比现在快得多，所有这些都与学习机器人模拟有关，只是一个花哨的游戏引擎，需要真实而不是来自幻想，但它对机器人应用非常非常有用，我们在这里的实验室花了两年半的时间。

但是还有很多事情要做，我真的希望你们能这么做，我只想用一张幻灯片结束，因为你们是学生，我对研究的建议，嗯，你知道，只是学习学习学习这门深度学习课程是一门，不要停在这里，继续，嗯。

一个非常重要的方面就是对你的工作充满热情，永远不要失去激情，因为那才是你真正富有成效的地方，你真的会做好事，如果你对你正在做的研究不兴奋，虽然，你知道的，选择别的，选择别的，不要急着拿文件。

专注于获得真正好的论文，而不是论文的数量，这不是一个好的指标，对呀，狩猎引文，也许也是最好的指标，对呀，有些不是很好的论文，有很多引文，一些好论文，这里没有很多引文，你将以你所做的出色工作而闻名。

查找协作者，这是我的研究风格，我想解决真正的问题，我想解决问题，这意味着如何解决还不清楚，有时我们需要去物理，我们需要去图形，有时我们需要去NLP，随便啦，我对其中一些领域一无所知，你只想向专家学习。

所以找到合作者真的很好，最后一点，你知道，我一直作为指导，很容易受挫，因为百分之九十九的时候事情都行不通，但只要记得玩得开心，嗯，因为研究真的很有趣。

这就是我的全部。

posted @ 2024-09-25 07:57 绝不原创的飞龙阅读(60) 评论(0) 收藏举报

刷新页面返回顶部

龙哥盟

掠夺·扩张·投机·博弈

P11-Towards-AI-for-3D-Content-Creation---爱可可-爱生活---BV1jo4y1d7R6

P11：Towards AI for 3D Content Creation - 爱可可-爱生活 - BV1jo4y1d7R6

公告