英特尔居然也来搞GTA5美化MOD了……?

共 4510字,需浏览 10分钟

 ·

2021-06-02 17:03



热点追踪 / 深度探讨 / 实地探访 / 商务合作


最近有玩家做了这么一张梗图:PS2平台有三款《侠盗猎车手》(GTA),而 GTA5居然硬是扛起了三代 PlayStation 平台……


其实准确来说,PS2平台上一共有五部 GTA 游戏,包括三部正传和两部外传,图来源于网络


恶搞没恶意,搞搞别生气。这张梗图能够传播,也是因为 GTA5 实在是电子游戏领域的常青树:自从2013年在 PS3/Xbox360 平台发布,包括单机和在线模式 DLC 的总销量已经突破1.4亿份……


这边开发公司R星迟迟不发新作,那边电脑游戏平台的CPU/显卡硬件和显示技术已经更新了好几代。因此,GTA5 美化 MOD 也成为了玩家热衷的修改方向。从真实汽车模型,到更大范围的地图和视觉效果修改,多种多样的 MOD 显著增强了 GTA5 的生命力,让这款已经快要10岁的游戏仍能令玩家感到新意。


开发 MOD 的大多是国外大神,因为涉及到违反用户协议的灰色地带,MOD 开发工作通常是个人非营利性质的。不过最近,我们非常诧异地发现:竟然英特尔也在“官方”开发 GTA5 美化 MOD!


↑ 可能略微有点标题党……实际情况是:英特尔实验室耗时多年研发了 EPE (Enhancing Photorealisim Enhancement),一项基于深度学习卷积神经网络的合成图像逼真性算法。它能够逐帧优化 GTA5 输出的原始画面,配合多种第三方街景数据库,生成不同风格的拟真游戏画面。


GTA5游戏内画面,图来源于网络


最近英特尔实验室 (Intel Labs) 发布了一篇论文,介绍了他们在深度学习图像逼真度提升方面的最新进展。而他们的实验过程,采用的就是 GTA5 的图像。英特尔的研究员设计了一套多模块的卷积神经网络架构,对 GTA5 和第三方城市街景图像库的数据进行学习。


英特尔实验室 (Intel Labs) 发布的论文,图来源于网络


玩家大神制作的 MOD,主要依靠事先调换图形素材、更新渲染引擎、增加光追支持等;而英特尔的思路是:直接用未修改的游戏的原始视频和数据输出,输入到深度学习系统里,实时演算出优化后的图像。


论文作者弗拉德伦·科尔通(Vladlen Koltun)介绍这套系统的工作方式:它可以接入到游戏上,你可以把它理解为 GTA5 的图像后处理系统。


(左边为 GTA5 原始图像,右边为美化后)


动图:


论文作者之一的科尔通,是英特尔智慧系统部门的首席科学家。他在欧洲图形学大会 Eurographics 2021 上透露,EPE 算法在英特尔实验室费时两年时间研发,效果此前从未在外部公开过。


“(EPE)属于那种需要长时间投入,几个月内都不会产出结果,研究时长以年为单位的那种研究,”Koltun 表示,“在(图像合成逼真性)的问题上,想要做出一点能拿得出手的结果并不难,找几张效果好的照片,放到论文里就完了;但要发明一种真的能用的方案 (something that really, really works),是非常艰难的。”


科尔通在 Eurographics 大会上讲述 EPE 算法工作原理,图来源于网络


接下来让我们深入了解一下,英特尔实验室的这套 “GTA5 美化 MOD”的具体工作方式。



老“游戏”,新“玩法”


GTA5 已经是一款快10年的老游戏了,但无论是在单机还是在线模式中,玩家总能发明出各种有趣或稀奇古怪的新玩法……


同样,画面美化 MOD 也是一个伴随 GTA5 存在了很多年的领域了,“民间”的技术方向也就那么几种。而这次,英特尔实验室用了新“玩法”,在画面逼真性上实现了前所未有的突破。


EPE 算法的训练原理如下图:


简单来说,EPE 整合了三个独立的神经网络,处理三种不同的数据源:GTA5 自带渲染引擎输出的 buffer 缓冲数据,游戏直出画面,以及第三方街景数据库的图像。


1)GTA5 游戏自带的渲染引擎,能够输出一组名为 G-buffer 的数据,其中包括画面中物体的种类、和玩家视角摄像头之间的距离、表面材质、光滑程度、反照率、光照数据等等。



这些数据,输入到一套卷积神经网络数据流当中,提取出各类数据的遮罩图,用于训练神经网络;然后经过一系列专门设计的残差模块,输出不同规模的张量特征数据。



2)借助前一步的训练结果,训练一个图像增强神经网络,然后把游戏直出画面,输入这个神经网络里,得到增强后的图像:



3)真正的图像翻译工作发生在这一步:游戏直出画面、增强图像,和第三方街景数据库的相似图像,一起输入到一个感知辨别器(神经网络),经过一系列计算,生成感知特征图、标签图,以及相关的插值等数据,最终“翻译”合成为一张图。


这一部分也采用了对抗模型的设计,经过持续的训练,最终输出的图片能够准确还原游戏直出画面当中的物体构成,并且完美转移外部数据库图像的风格。


比如,下图为英特尔实验室用 GTA5 和 Cityscapes 数据库结合生成的画面风格。由于 Cityscapes 的图像数据大多来自于德国,具有独特的画面风格,所以你可以看出来,“美化”出来的结果似乎偏绿,有些阴冷;



并且,由于德国植被更加茂盛,你可以看到 GTA5 里圣安地列斯(原型为洛杉矶)光秃、干燥、偏黄的山丘,渲染出了浓密的绿色植被。


技术创新


根据小编的理解,这篇论文提出的图像翻译方法有几个创新之处。


正如前述,传统的 GTA5 美化 MOD 的实现思路,都需要对游戏文件进行重度修改,有可能造成文件损坏,而且很难在多人在线模式下使用,以及也涉及违反游戏使用协议的灰色地带。


而 EPE 的思路不同之处,在于它直接在游戏输出画面的基础上进行美化,不涉及游戏文件修改,也就不违反使用协议。(当然前面也提到,在训练过程中它确实也需要”监听“游戏系统运行时渲染引擎输出的数据。)


当然,EPE 也不是第一个采用深度学习思路进行 GTA5 画面优化的技术。


在此之前,UC Berkeley 和 Adobe 研究院共同开发的 CUT (Contrastive Unpaired Translation) ,以及南洋理工大学、UCB、商汤共同开发的 TSIT (Two-Stream Image-to-image Translation) ——这两个算法都是此前世界领先的图像翻译算法。


但至少在 GTA5 上,这两个算法都存在严重的图像失真情况。比如,CUT 在渲染尺寸较小、和周遭环境相对独立的物体(比如树木、告示牌、行人等)时会出现重影,而且时序稳定性不佳;



而 TSIT 算法渲染的结果,会在画面上部的天空区域中出现严重失真,增加一些不存在的植被。



英特尔实验室的科学家认为,这些算法失真的情况,可能是由训练时采用的第三方数据库所导致的。比如摄像头的角度太低导致远景中的树木占满屏幕上部。如下图所示,在 Cityscapes 数据库的很多照片里,植被的区域很大,而通常 GTA5 画面中的植被很小。 



甚至在 Cityscapes 数据库中,由于数据采集车上有一个奔驰车标,其它算法在渲染的时候也会误以为这个车标也是道路特征的一部分:



在训练 EPE 的时候,英特尔的团队故意缩小了神经网络的视野范围,让它可以聚焦于画面中特定的物体。EPE 在 GTA5 图像逐帧美化的真实度、时序稳定性等方面达到了目前最先进的水平,显著优于 CUT、TSIT 等基于深度学习的图像到图像翻译算法:


因为算法的设计,它还有一点“即插即用”的感觉,可以接入各种各样的外部数据库,实现不同风格的美化结果。


比如 Mapillary Vistas,是一个来自全世界各地的街景图像数据库,风格更加多样,色彩更鲜明。这种风格也可以通过 EPE 算法翻译到 GTA5 的画面里,效果更加接印象中圣安地列斯的样子:



下图左边为游戏直出画面,右边为采用 Mapillary Vistas 作为目标风格的美化结果,可以看出画面色彩饱和度有很大提升;为了降低游戏渲染压力而在远景加入的迷雾,也得到了优化。



网友评价:什么?这居然不是真的?


5月11日,英特尔实验室把 EPE 的介绍视频发到了 YouTube上。只用了半个月,这个视频的观看量已经超过了270万……


大部分网友评价都是从非专业角度出发的,但都对团队演示的渲染结果表示震惊……


网友 Fat Tabby 留言:如果你给我看这个视频并且跟我说是行车记录仪拍出来的,我应该会相信你。



网友 G Luong 表示:这才是真正的图像拟真。其它所有的画面美化 MOD 其实只是增加反射,并且让每一条路都变得很潮湿而已。



也有好几位眼尖的玩家发现,如果按照 Cityscapes 的风格进行美化,出来的画面风格其实倒是跟 GTA4(设定在 Liberty City,以纽约为原型,风格较为阴暗)。



网友 OK DOK 表示,怪不得当初 GTA4 出来的时候,人们都惊讶于一款游戏居然能如此”真实“。



网友 Cosine 说的很对:没有那么炫酷的反射,没有过饱和的颜色和超高的亮度,才是最”真实“的游戏。



说来有趣,英特尔跟 GTA5 已经是老朋友了——当然,指的不是游戏,而是研究层面。


早在2016年,英特尔实验室和德国达姆施塔特工业大学就在尝试用 GTA5 做自动驾驶方面的研究。当时自动驾驶已经成为新的技术趋势,但出于现实成本等因素,不是所有人都能获得大量真实道路的视觉数据用于研究。


所以英特尔和该大学组建了团队,试图从 GTA5 等游戏中提取接近于真实道路情况的数据,帮助自动驾驶技术训练。他们当时还发布了一篇论文 Playing for Data: Ground Truth from Computer Games——


当年的那个团队里,就有今天这篇 EPE 论文里的弗拉德伦·科尔通。



所以今天我们可以说,这位英特尔智能系统部门的首席科学家,也是 GTA5 美化 MOD 领域的大神了!


你们说,Koltun 会不会也跟大家一样,焦急等待着R星发布 GTA6 呢?


当然,如果 GTA6 也能用上类似的深度学习图像拟真技术的话,小编还是愿意再等一等的……


——转念一想,你们觉得 GTA6 还不发布,会不会真的是因为R星用了某种超级前沿的技术,目前的主机性能——即使是 PS5——都还无法实现?


关注硅星人,你就能了解硅谷最新的科技进展和湾区的大事小情,变身最in技术潮人



推荐阅读

逐梦演艺圈?亚马逊85亿收购米高梅,贝佐斯成了007的老板
DeepMind 又跟谷歌「闹独立」,背后其实是 AI 行业的通病
谷歌将开设首家实体零售店;亚马逊延长警方使用其面部识别软件的禁令|前沿科技周报

I/O 亲历:两年不见,谷歌的 AI 又把我们吓了一跳

TikTok 是如何击败特朗普的?

浏览 46
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报