英特尔居然也来搞GTA5美化MOD了……?
最近有玩家做了这么一张梗图:PS2平台有三款《侠盗猎车手》(GTA),而 GTA5居然硬是扛起了三代 PlayStation 平台……
其实准确来说,PS2平台上一共有五部 GTA 游戏,包括三部正传和两部外传,图来源于网络
恶搞没恶意,搞搞别生气。这张梗图能够传播,也是因为 GTA5 实在是电子游戏领域的常青树:自从2013年在 PS3/Xbox360 平台发布,包括单机和在线模式 DLC 的总销量已经突破1.4亿份……
这边开发公司R星迟迟不发新作,那边电脑游戏平台的CPU/显卡硬件和显示技术已经更新了好几代。因此,GTA5 美化 MOD 也成为了玩家热衷的修改方向。从真实汽车模型,到更大范围的地图和视觉效果修改,多种多样的 MOD 显著增强了 GTA5 的生命力,让这款已经快要10岁的游戏仍能令玩家感到新意。
开发 MOD 的大多是国外大神,因为涉及到违反用户协议的灰色地带,MOD 开发工作通常是个人非营利性质的。不过最近,我们非常诧异地发现:竟然英特尔也在“官方”开发 GTA5 美化 MOD!
↑ 可能略微有点标题党……实际情况是:英特尔实验室耗时多年研发了 EPE (Enhancing Photorealisim Enhancement),一项基于深度学习卷积神经网络的合成图像逼真性算法。它能够逐帧优化 GTA5 输出的原始画面,配合多种第三方街景数据库,生成不同风格的拟真游戏画面。
GTA5游戏内画面,图来源于网络
最近英特尔实验室 (Intel Labs) 发布了一篇论文,介绍了他们在深度学习图像逼真度提升方面的最新进展。而他们的实验过程,采用的就是 GTA5 的图像。英特尔的研究员设计了一套多模块的卷积神经网络架构,对 GTA5 和第三方城市街景图像库的数据进行学习。
英特尔实验室 (Intel Labs) 发布的论文,图来源于网络
玩家大神制作的 MOD,主要依靠事先调换图形素材、更新渲染引擎、增加光追支持等;而英特尔的思路是:直接用未修改的游戏的原始视频和数据输出,输入到深度学习系统里,实时演算出优化后的图像。
论文作者弗拉德伦·科尔通(Vladlen Koltun)介绍这套系统的工作方式:它可以接入到游戏上,你可以把它理解为 GTA5 的图像后处理系统。
(左边为 GTA5 原始图像,右边为美化后)
动图:
论文作者之一的科尔通,是英特尔智慧系统部门的首席科学家。他在欧洲图形学大会 Eurographics 2021 上透露,EPE 算法在英特尔实验室费时两年时间研发,效果此前从未在外部公开过。
“(EPE)属于那种需要长时间投入,几个月内都不会产出结果,研究时长以年为单位的那种研究,”Koltun 表示,“在(图像合成逼真性)的问题上,想要做出一点能拿得出手的结果并不难,找几张效果好的照片,放到论文里就完了;但要发明一种真的能用的方案 (something that really, really works),是非常艰难的。”
科尔通在 Eurographics 大会上讲述 EPE 算法工作原理,图来源于网络
接下来让我们深入了解一下,英特尔实验室的这套 “GTA5 美化 MOD”的具体工作方式。
老“游戏”,新“玩法”
GTA5 已经是一款快10年的老游戏了,但无论是在单机还是在线模式中,玩家总能发明出各种有趣或稀奇古怪的新玩法……
同样,画面美化 MOD 也是一个伴随 GTA5 存在了很多年的领域了,“民间”的技术方向也就那么几种。而这次,英特尔实验室用了新“玩法”,在画面逼真性上实现了前所未有的突破。
EPE 算法的训练原理如下图:
简单来说,EPE 整合了三个独立的神经网络,处理三种不同的数据源:GTA5 自带渲染引擎输出的 buffer 缓冲数据,游戏直出画面,以及第三方街景数据库的图像。
1)GTA5 游戏自带的渲染引擎,能够输出一组名为 G-buffer 的数据,其中包括画面中物体的种类、和玩家视角摄像头之间的距离、表面材质、光滑程度、反照率、光照数据等等。
这些数据,输入到一套卷积神经网络数据流当中,提取出各类数据的遮罩图,用于训练神经网络;然后经过一系列专门设计的残差模块,输出不同规模的张量特征数据。
2)借助前一步的训练结果,训练一个图像增强神经网络,然后把游戏直出画面,输入这个神经网络里,得到增强后的图像:
3)真正的图像翻译工作发生在这一步:游戏直出画面、增强图像,和第三方街景数据库的相似图像,一起输入到一个感知辨别器(神经网络),经过一系列计算,生成感知特征图、标签图,以及相关的插值等数据,最终“翻译”合成为一张图。
这一部分也采用了对抗模型的设计,经过持续的训练,最终输出的图片能够准确还原游戏直出画面当中的物体构成,并且完美转移外部数据库图像的风格。
比如,下图为英特尔实验室用 GTA5 和 Cityscapes 数据库结合生成的画面风格。由于 Cityscapes 的图像数据大多来自于德国,具有独特的画面风格,所以你可以看出来,“美化”出来的结果似乎偏绿,有些阴冷;
并且,由于德国植被更加茂盛,你可以看到 GTA5 里圣安地列斯(原型为洛杉矶)光秃、干燥、偏黄的山丘,渲染出了浓密的绿色植被。
技术创新
根据小编的理解,这篇论文提出的图像翻译方法有几个创新之处。
正如前述,传统的 GTA5 美化 MOD 的实现思路,都需要对游戏文件进行重度修改,有可能造成文件损坏,而且很难在多人在线模式下使用,以及也涉及违反游戏使用协议的灰色地带。
而 EPE 的思路不同之处,在于它直接在游戏输出画面的基础上进行美化,不涉及游戏文件修改,也就不违反使用协议。(当然前面也提到,在训练过程中它确实也需要”监听“游戏系统运行时渲染引擎输出的数据。)
当然,EPE 也不是第一个采用深度学习思路进行 GTA5 画面优化的技术。
在此之前,UC Berkeley 和 Adobe 研究院共同开发的 CUT (Contrastive Unpaired Translation) ,以及南洋理工大学、UCB、商汤共同开发的 TSIT (Two-Stream Image-to-image Translation) ——这两个算法都是此前世界领先的图像翻译算法。
但至少在 GTA5 上,这两个算法都存在严重的图像失真情况。比如,CUT 在渲染尺寸较小、和周遭环境相对独立的物体(比如树木、告示牌、行人等)时会出现重影,而且时序稳定性不佳;
而 TSIT 算法渲染的结果,会在画面上部的天空区域中出现严重失真,增加一些不存在的植被。
英特尔实验室的科学家认为,这些算法失真的情况,可能是由训练时采用的第三方数据库所导致的。比如摄像头的角度太低导致远景中的树木占满屏幕上部。如下图所示,在 Cityscapes 数据库的很多照片里,植被的区域很大,而通常 GTA5 画面中的植被很小。
甚至在 Cityscapes 数据库中,由于数据采集车上有一个奔驰车标,其它算法在渲染的时候也会误以为这个车标也是道路特征的一部分:
在训练 EPE 的时候,英特尔的团队故意缩小了神经网络的视野范围,让它可以聚焦于画面中特定的物体。EPE 在 GTA5 图像逐帧美化的真实度、时序稳定性等方面达到了目前最先进的水平,显著优于 CUT、TSIT 等基于深度学习的图像到图像翻译算法:
因为算法的设计,它还有一点“即插即用”的感觉,可以接入各种各样的外部数据库,实现不同风格的美化结果。
比如 Mapillary Vistas,是一个来自全世界各地的街景图像数据库,风格更加多样,色彩更鲜明。这种风格也可以通过 EPE 算法翻译到 GTA5 的画面里,效果更加接印象中圣安地列斯的样子:
下图左边为游戏直出画面,右边为采用 Mapillary Vistas 作为目标风格的美化结果,可以看出画面色彩饱和度有很大提升;为了降低游戏渲染压力而在远景加入的迷雾,也得到了优化。
网友评价:什么?这居然不是真的?
5月11日,英特尔实验室把 EPE 的介绍视频发到了 YouTube上。只用了半个月,这个视频的观看量已经超过了270万……
大部分网友评价都是从非专业角度出发的,但都对团队演示的渲染结果表示震惊……
网友 Fat Tabby 留言:如果你给我看这个视频并且跟我说是行车记录仪拍出来的,我应该会相信你。
网友 G Luong 表示:这才是真正的图像拟真。其它所有的画面美化 MOD 其实只是增加反射,并且让每一条路都变得很潮湿而已。
也有好几位眼尖的玩家发现,如果按照 Cityscapes 的风格进行美化,出来的画面风格其实倒是跟 GTA4(设定在 Liberty City,以纽约为原型,风格较为阴暗)。
网友 OK DOK 表示,怪不得当初 GTA4 出来的时候,人们都惊讶于一款游戏居然能如此”真实“。
网友 Cosine 说的很对:没有那么炫酷的反射,没有过饱和的颜色和超高的亮度,才是最”真实“的游戏。
说来有趣,英特尔跟 GTA5 已经是老朋友了——当然,指的不是游戏,而是研究层面。
早在2016年,英特尔实验室和德国达姆施塔特工业大学就在尝试用 GTA5 做自动驾驶方面的研究。当时自动驾驶已经成为新的技术趋势,但出于现实成本等因素,不是所有人都能获得大量真实道路的视觉数据用于研究。
所以英特尔和该大学组建了团队,试图从 GTA5 等游戏中提取接近于真实道路情况的数据,帮助自动驾驶技术训练。他们当时还发布了一篇论文 Playing for Data: Ground Truth from Computer Games——
当年的那个团队里,就有今天这篇 EPE 论文里的弗拉德伦·科尔通。
所以今天我们可以说,这位英特尔智能系统部门的首席科学家,也是 GTA5 美化 MOD 领域的大神了!
你们说,Koltun 会不会也跟大家一样,焦急等待着R星发布 GTA6 呢?
当然,如果 GTA6 也能用上类似的深度学习图像拟真技术的话,小编还是愿意再等一等的……
——转念一想,你们觉得 GTA6 还不发布,会不会真的是因为R星用了某种超级前沿的技术,目前的主机性能——即使是 PS5——都还无法实现?
关注硅星人,你就能了解硅谷最新的科技进展和湾区的大事小情,变身最in技术潮人