乘风破浪，遇见未来元宇宙(Metaverse)之微软亚洲研究院新AI产品女娲，无限视觉生成模型NUWA-Infinity让视觉艺术创作自由延伸，支持静态的图像转化成超高清视频

关于NUWA INFINITY

https://www.microsoft.com/en-us/research/project/nuwa-infinity/

NUWA-Infinity是一个多模态生成基础模型，旨在从给定的文本、图像或视频输入生成高质量的图像和视频。

NUWA-Infinity是一个用于无限视觉合成的生成模型，它被定义为生成任意大小的高分辨率图像或长时间视频的任务。提出了一种自回归的生成机制来处理这个可变大小的生成任务，其中一个全局补丁级的自回归模型考虑了补丁之间的依赖关系，一个局部标记级的自回归模型考虑了每个补丁内视觉标记之间的依赖关系。在不牺牲补丁级依赖性模型的前提下，引入了一个邻近上下文库（NCP）来缓存已经生成的相关补丁，作为当前正在生成的补丁的上下文，这可以大大节省计算成本。任意方向控制器（ADC）用于决定不同视觉合成任务的合适生成顺序，并学习顺序感知的位置嵌入。与同样涵盖图像和视频的NUWA相比，NUWA-Infinity在分辨率和可变尺寸生成方面具有更出色的视觉合成能力。

无限视觉生成模型NUWA-Infinity让视觉艺术创作自由延伸

此前，微软亚洲研究院提出了多模态模型NUWA，它可以基于给定的文本、视觉或多模态输入生成图像或视频，并支持多种视觉艺术作品创建任务，包括文本到图像或视频的生成、图像补全、视频预测等。近日，微软亚洲研究院公开发表了新的研究成果：NUWA的升级版——无限视觉生成模型NUWA-Infinity，让视觉艺术创作趋于“无限流”，可生成任意大小的高分辨率图像或长时间视频。一起来感受一下AI的无限创作力吧！

或许你也曾有过这样的想法——那些“世界名画”画框外的景色是怎样的？

让NUWA-Infinity带我们去“一探究竟”！

发现梵高《星空》画框外更广阔的风景：

“窥探”《清明上河图》5.287米画卷外百姓们的千姿百态：

《清明上河图》

NUWA-Infinity基于《清明上河图》学习后，重新创作生成画作（分辨率：38912x2048）的一部分

NUWA-Infinity还可以将静态的图像转化成超高清视频，为其带来“活力”。

原始静态图像

NUWA-Infinity基于静态图像生成的视频

除此之外，NUWA-Infinity也可以依据文本生成超高清图片，为艺术创作带来更加丰富的想象力。

是不是意犹未尽，还想探索更多？欢迎大家前往NUWA-Infinity演示页面，直观感受NUWA-Infinity的无限创作能力。

https://nuwa-infinity.microsoft.com

为什么微软亚洲研究院会开发NUWA-Infinity，背后又用到了哪些新技术？

随着以消费为基础的注意力经济逐渐转为以生产为基础的创意经济，越来越多的人已经成为日常创作者，通过利用各种图片、视频编辑工具，实现艺术作品的创新或再创作。然而，高质量的视觉艺术创作从来都不是一件容易的事，往往需要专业的技能和设备，并花费大量的时间。与此同时，日常的视觉艺术创作对更高分辨率的图像或持续时间更长的视频也有着越来越高的需求。

为此，微软亚洲亚洲研究院NUWA团队研发出了无限视觉生成模型NUWA-Infinity。与同样覆盖图像和视频创作的NUWA相比，NUWA-Infinity在分辨率和可变大小视觉艺术作品生成方面具有更优的性能，并支持五个高分辨率视觉任务的生成，包括无条件图像生成高分辨率图、文本生成高分辨率图像、文本生成高分辨率视频、图像生成高分辨率动画和图像生成高分辨率图像。

在NUWA-Infinity模型中，研究员们提出了一种全局自回归嵌套局部自回归的生成机制，通过全局自回归建模视觉块之间的依赖关系和局部自回归建模视觉词之间的依赖关系，让NUWA-Infinity能够生成全局一致且局部细节丰富的高质量图像和视频，并提出任意方向控制器（Arbitrary Direction Controller, ADC）来决定合适的生成顺序并学习顺序感知的位置嵌入。相比其他多模态生成模型，NUWA-Infinity可以从给定的文本、图像或视频生成与之相关的任意形状、任意大小的超高分别率图像，以适配不同设备、平台和场景；更重要的是，NUWA-Infinity还支持长时间视频的生成，比如图像动画的制作。

此外，NUWA-Infinity模型还引入了附近上下文池（Nearby Context Pool, NCP）来缓存已经生成的局部图像，作为正在生成的当前图像的上下文，这可以在不牺牲视觉块间依赖性的前提下，显著节省计算成本。NUWA-Infinity极大地弥补了市场上现有技术仅支持生成大小有限的视觉内容以及视觉内容创作计算成本高昂的不足。

下一步，NUWA团队将持续推动NUWA的演进，并希望研发出能从三个方面为专业和日常艺术创作者赋能的技术：

构思：通过自动快速和多样化的设计生成能力，降低构思门槛，在构思阶段为艺术创作者提供更多信息和灵感。
美学：降低创意门槛，支持普通用户以适当的美学/设计质量来创作创意作品（NUWA模型学习了大量高质量/高美学标准的图片）。
效率：通过将NUWA的能力集合到一套智能工具中，来提高创作效率，降低创作工作量。

未来，由AI生成的高分辨率视觉内容将会更加符合图像设计、广告、动画、游戏等行业的视觉内容创作需求，为创作者提供源源不断的创造灵感。欢迎更多的科研人员、开发者与微软亚洲研究院共同探索AI视觉创作领域的广阔未来。

NUWA是在科研层面开展的，对视觉艺术作品自动生成技术的前沿探索，旨在探索为视觉艺术创作者提供更智能的工具，支持他们更好地发挥自己的创意。微软始终致力于打击虚假信息，并尽其所能提供最新技术来检测被人为操纵的内容，帮助人们识别“深度伪造”（deepfake）的信息（欲了解微软为打击虚假信息所做的努力，请访问：https://blogs.microsoft.com/on-the-issues/2020/09/01/disinformation-deepfakes-newsguard-video-authenticator/）。同时，微软的技术进步都接受微软负责任的AI流程的指导，并遵循公平、包容、可靠性与安全性、透明、隐私与保障、负责的原则。

参考

posted @ 2022-07-22 15:21 TaylorShi 阅读(965) 评论(0) 收藏举报

刷新页面返回顶部

TaylorShi

乘风破浪，遇见未来元宇宙(Metaverse)之微软亚洲研究院新AI产品女娲，无限视觉生成模型NUWA-Infinity让视觉艺术创作自由延伸，支持静态的图像转化成超高清视频

关于NUWA INFINITY

无限视觉生成模型NUWA-Infinity让视觉艺术创作自由延伸

为什么微软亚洲研究院会开发NUWA-Infinity，背后又用到了哪些新技术？

参考

公告