图神经网络在生化医疗方面的相关应用-轻识

图神经网络之所以得到如此广泛的关注，得益于它的应用场景丰富。

本文就来分享一下图神经网络在生化医疗方面的相关应用。

以下内容节选自《图神经网络：基础与前沿》一书！

业务架构·应用架构·数据架构实战.jpg

--正文--

▊ 预测分子的化学性质和化学反应

在生化领域，药物分子化合物、蛋白质等经常被作为研究对象。以分子为例，它是一个天然的图结构，可以将分子中的原子看作节点，将化学键看作边，研究分子的化学性质就可以看成给一个图分类或者回归问题。事实上，在机器学习图分类问题的标准数据集中，生化分子占据了非常大的比例：对于化合物来说，MUTAG 数据集旨在分类它们是否为芳香剂，Tox21 数据集分类不同的毒性，NCI-1 分类对癌症的阻碍作用。对于这类问题，我们一般通过学习整个分子图的表示得到所谓的“分子指纹”，然后用它做各种性质的预测。

分子指纹的学习和化学性质的预测在图神经网络发展的早期起到了非常重要的作用。例如，Duvenaud 等人在传统的分子指纹的基础上做了改进，发展了卷积的方法，也是早期图卷积网络的一种；而Glimer 等人提出的消息传递网络更是在分子化学的背景下对所有信息传递网络做了统一和改进。除此之外，图卷积网络还被用来预测两个分子的化学反应或者寻找有效的抗体。由于前面的章节已经对图分类任务做了介绍，本节就不赘述了。本节简单介绍化学反应预测这个比较新颖的应用。

化学反应预测是指给定一些反应物分子图 $G_{\mathrm{r}}$ （注意这个 $G_{\mathrm{r}}$ 一般包含不止一个分子，但是这些不同的分子可以放在一起，组成一个共同的不连通的图），来预测化学反应后产生的对应的产物 $G_{p}$ 。下图所示为图神经网络用于化学反应预测的过程。 $G_{\mathrm{r}}$ 中每个节点是一个原子，首先，用一个特定的图神经网络学习每个原子节点的嵌入表示，然后预测每两个原子形成的原子对（Atom Pair）可能产生反应的分数。分数最高的 $K$ 个原子对被挑出来，我们根据这些原子对列举可能产生的所有符合规则的候选产物，最后用另一个图卷积网络对这些候选产物进行预测，并按照概率高低重新排序，这样就得到了我们想要的反应产物 $G_{p}$ 。

（图神经网络用于化学反应预测的过程）

▊ 图生成模型与药物发现

药物开发是一个耗时、费力的大工程，从最初的药物设计、分子筛选，到后期的安全测试、临床试验，一般会花超过10 年的时间而且不能保证成功率。因此，面对COVID-19 这种突发的流行病，我们无法立刻研发出有效药物，而只能在已知的药物里寻找可能有效的进行药物重用。为了加快新药开发的进程，人工智能在药物发现领域起到了越来越重要的作用，尤其是在新分子的设计阶段，图神经网络与图生成模型的应用极大地提升了药物发现的效率。虽然分子也可以表征成SMILES 字符串的形式（如下图所示），但是我们很难从这种字符串中直接获得语法和结构信息，因此更常用的分子生成方法是把分子当成图来生成。

（分子的图表示与对应的SMILES 字符串表示）

深度学习在解决生成问题的能力上早已声名远扬，生成对抗网络（Generative Adversarial Networks，GAN）和变分自编码器等深度生成模型被广泛应用于图像和文本生成领域，然而把这些模型扩展到分子图的生成问题上并不容易。

首先，由于分子具有不同类型的节点和不同类型的边，导致一个很小的分子也有着很大的搜索空间；其次，由于图的不规则性，设计一个解码器从一个向量生成一个图结构是非常有挑战的；最后，我们还需要保证生成的图是一个分子，并且具有我们想要的化学性质，这就要求生成过程中有很多的限制条件。一般来说，图生成模型有以下几类：自回归（Auto-regressive）模型，基于生成对抗网络的模型，基于变分自编码器的模型，以及基于标准化流（Normalizing Flow）的模型。

首先，我们对分子图生成问题给出一个形式化的定义：

定义5 给定一些已知的分子图 $\left\{G_{1}, G_{2}, \cdots, G_{n}\right\}$ 和它们对应的化学性质 $y_{1}, y_{2},...,y_{n}$ ，假设它们都服从某种未知的分布p(G)，图生成模型的目标是学到这个分布并从中采样出新的分子图 $\left\{G_{n+1}, G_{n+2}, \cdots\right\}$ 。这些生成的新分子图需要是有效的分子（满足化学价等条件），并且具有我们想要的化学性质。

1. 自回归模型

GraphRNN 是一个早期的经典图生成模型，它把图的生成过程看作一个序列生成过程。虽然图结构中节点的位置是可互换的，但是生成图总要有个先后顺序，所以GraphRNN 中每个图的节点被预先设定了一种排序，按照这种排序，我们可以一个节点一个节点地生成这个图。在下图中，我们每次生成一个节点，然后把这个节点连接到已经生成的其他节点上，也就是生成节点所对应的边，这样依次循环，直到最终生成整个图。

（GraphRNN：图生成的自回归模型）

具体来讲，我们先把图G 用宽度优先搜索表示成一个序列的形式：

$\boldsymbol{S}^{\pi}=f_{S}(G, \operatorname{BFS}(G, \pi))=\left(\boldsymbol{S}_{1}^{\pi}, \cdots, \boldsymbol{S}_{n}^{\pi}\right)$

其中， $\pi$ 为一个某种节点的排序， $\boldsymbol{S}_{i}^{\pi} \in\{0,1\}^{i-1}$ 表示第 $i$ 个节点与之前所有节点的连接向量。那么这个序列可以通过自回归的方式生成：

$p\left(\boldsymbol{S}^{\pi}\right)=\sum_{i=1}^{n+1} p\left(\boldsymbol{S}_{i}^{\pi} \mid \boldsymbol{S}_{1}^{\pi}, \cdots, \boldsymbol{S}_{i-1}^{\pi}\right)$

这里， $p\left(\boldsymbol{S}_{i}^{\pi} \mid \boldsymbol{S}_{1}^{\pi}, \cdots, \boldsymbol{S}_{i-1}^{\pi}\right)$ 采用循环神经网络的形式进行状态更新。我们使用两个神经网络 $f_{\text {trans }}$ 和 $f_{\text {out}}$ 得到 $\boldsymbol{S}_{i}^{\pi}$ 的生成参数 $\boldsymbol{\theta}_{i}$ ： $\boldsymbol{h}_{i}=f_{\text {trans }}\left(\boldsymbol{h}_{i}, \boldsymbol{S}_{i-1}^{\pi}\right)$ ， $\boldsymbol{\theta}_{i}=f_{\text {out }}\left(\boldsymbol{h}_{i}\right)$ ，然后根据 $\boldsymbol{\theta}_{i}$ 采样出 $\boldsymbol{S}_{i}^{\pi}$ 。

GraphRNN 是一个比较通用的图生成模型，它没有考虑分子的性质，所以在分子的生成问题上，可以用强化学习的方法加上对生成分子的化学性质的预测，作为奖励函数进行反馈，从而使生成的分子具有我们想要的化学性质。

2. 基于生成对抗网络的模型

生成对抗网络由两部分组成：生成器 $F_{\boldsymbol{\theta}}$ 和判定器 $D_{\phi}$ 。生成器把一个根据先验概率采样出的潜在语义向量 $z$ 映射到一个具体的样本 $F_{\boldsymbol{\theta}}(\boldsymbol{z})$ ；而判定器则判断一个样本 $x$ 是真实样本还是生成的样本。生成器和判定器通过以下公式中的最小最大博弈策略进行训练：

$\min _{\boldsymbol{\theta}} \max _{\phi} \mathbb{E}_{\boldsymbol{x} \sim p_{\text {data }}(\boldsymbol{x})}\left[\log D_{\boldsymbol{\phi}}(\boldsymbol{x})\right]+\mathbb{E}_{\boldsymbol{z} \sim p_{\boldsymbol{z}}(\boldsymbol{z})}\left[\log \left(1-D_{\boldsymbol{\phi}}\left(F_{\boldsymbol{\theta}}(\boldsymbol{z})\right)\right)\right]$

生成对抗网络的出现，引领了图像生成等任务的热潮，然而在图数据上，同样的难题摆在图神经网络面前：怎么设计解码器。下图给出了一个最简单的例子，这个模型叫作MolGAN。首先，它把分子图表示成两个部分：邻接张量（比邻接矩阵多了一个维度，用来表示边的类型）和节点属性矩阵。它的解码生成过程分为两个分支，从一个采样的图向量 $z$ 开始，它用一个非常简单的基于多层感知机的生成器分别生成一个稠密的邻接张量 $\boldsymbol{A}$ 和节点属性矩阵 $\boldsymbol{X}$ 。

（MolGAN [130]：图生成的图神经网络模型）

注：N 为节点（原子）数量，T 为边（化学键）的模型的数量

$\boldsymbol{A}$ 和 $\boldsymbol{X}$ 并非我们需要的图，只是作为概率进一步采样得到数值为 $\{0,1\}$ 的稀疏张量 $\tilde{\boldsymbol{A}}$ 和稀疏矩阵 $\tilde{\boldsymbol{X}}$ ，这样就得到了一个图样本 $G=(\tilde{\boldsymbol{A}}, \tilde{\boldsymbol{X}})$ 。于是我们可以用一个图神经网络作为判别器，判断这个图 $G$ 是否是一个真实的分子，同时用另一个分类器预测这个生成分子的性质，并利用强化学习进行反馈。这样，我们的损失函数就既考虑了分子图的分布特性（图神经网络的部分），也包含了分子化学性质的预测（强化学习的部分）。但是，这个模型缺少了对分子化学价等的限制，导致生成的分子即使满足分布也并不一定在化学上成立。另外，受图神经网络模型本身的限制，生成的分子很容易重复，就会出现模式崩溃（Mode Collapse）的问题。

3. 基于变分自编码器的模型

变分自编码器由一个编码器把样本 $\boldsymbol{x}$ 编码成向量 $\boldsymbol{z}$ ，然后通过一个解码器进行重构。它的目标是最小化以下公式中的目标函数（推导过程可参考《图神经网络：基础与前沿》一书的5.3.1 节）：

$\min _{\boldsymbol{\theta}, \boldsymbol{\phi}} L_{\mathrm{ELBO}}=\mathbb{E}_{q_{\boldsymbol{\theta}}(\boldsymbol{z} \mid \boldsymbol{x})}[-\log p(\boldsymbol{x} \mid \boldsymbol{z})]+\mathrm{KL}[q(\boldsymbol{z} \mid \boldsymbol{x}) \| p(\boldsymbol{z})]$

其中，后验概率 $q_{\phi}(\boldsymbol{z} \mid \boldsymbol{x})$ 可以当作编码器， $p_{\boldsymbol{\theta}}(\boldsymbol{x} \mid \boldsymbol{z})$ 可以当作解码器， $p(\boldsymbol{z})$ 是编码向量 $\boldsymbol{z}$ 的先验概率，一般为高斯分布。

《图神经网络：基础与前沿》一书的5.3.1 节介绍了图变分自编码器，但这个模型只是用来作为图的无监督表示学习或者链路预测的，因为它的编码器得到的结果是关于节点的表示。如果要生成新的图，在解码时我们不知道有多少节点及这些节点是怎么连接的，所以只能从一个表示整个图的向量 $\boldsymbol{z}$ 出发进行解码（就像图卷积网络的生成器那样）。在基于变分自编码器的图生成模型中，编码器通常可以定义成一个图神经网络，而解码器可以有各种不同的方式。不像在生成对抗网络中我们可以由一个判别器来判断生成的图是否语义正确，在变分自编码器中，我们必须对解码器做一些限制才能保证生成分子的有效性。

一个比较经典的用于分子图生成的变分自编码器模型是联结树VAE（Junction-Tree VAE，JT-VAE）（如下图所示），它的思想是：如果按照自回归模型中一个节点一个节点依序生成，很难保证生成的分子图是符合语法的，那么不如先把图分解成一些子结构，再拼接这些在一定语义中有效的子结构。首先，我们把分子图 $G$ 分解成一个联结树 $\Gamma$ ，即把图中的可能在同一个子结构的原子合并成一个节点，使得这个图最终不存在闭环，也就是变成了一棵树。这样联结树的每个节点就代表了一个子结构。我们对图 $G$ 和树 $\Gamma$ 分别进行编码，得到向量表示 $\boldsymbol{z}_{G}$ 和 $\boldsymbol{z}_{\Gamma}$ 。解码过程分为两步：先根据 $\boldsymbol{z}_{\Gamma}$ 解码出一个树 $p\left(\Gamma \mid z_{\Gamma}\right)$ ，然后根据图向量表示 $\boldsymbol{z}_{G}$ 和这个解码出的树分析图中子结构连接的精细结构。

（JT-VAE：基于联结树的VAE 生成分子图的过程）

除了采用子结构来保证分子图的语义有效性，另一些基于变分自编码器框架的图生成模型则侧重于增加图解码器的限制。例如，Liu 等人在生成图的边时采用遮蔽（mask）技术保证去除违反分子语义结构限制的边。具体来说，在生成边的概率分布上增加一个变量 $M_{u v}^{t}$ ，如果节点 $u$ 和 $v$ 之间可以存在边，则 $M_{u v}^{t}=1$ ，否则为0。Ma 等人则直接把语义限制（化合价的限制和图的连通性）形式化地定义出来，他们在变分自编码器的框架上增加这个限制条件，并通过采样的方式进行求解，如下图所示。

（增加限制的变分自编码器。通过采样近似之后，我们在原来的变分自编码器的基础上增加另一个分支，采用一个新的向量 $\boldsymbol{z}^{(\underline{l})}$ 生成另一个图 $\boldsymbol{G}^{(\underline{l})}$ ，计算它是否满足语义限制条件；而原来的 $z$ 生成的图 $G^{(l)}$ 则只用来重构输入的分子图）

4. 基于标准化流的模型

标准化流是一种比较新的深度学习生成模型，它的主要思想是使生成过程可逆，这样从隐藏向量到生成样本的过程就不会损失信息。我们将其与变分自编码器进行简单的对比，在变分自编码器中，我们需要一个编码器 $f_{\boldsymbol{\theta}}(G)$ 得到隐藏向量 $z$ ，然后通过一个解码器 $g_{\boldsymbol{\theta}^{\prime}}(\boldsymbol{z})$ 重建一个样本 $\hat{G}$ ，这里 $f$ 和 $g$ 是任意的，并没有什么确定的关系。而标准化流的方法则要求 $f_{\boldsymbol{\theta}}(G)$ 是一个可逆的过程，这样我们就能通过一个简单的逆映射得到原来的样本 $G=f_{\boldsymbol{\theta}}^{-1}(\boldsymbol{z})$ 。

实现 $f_{\boldsymbol{\theta}}(G)$ 可逆的方法有很多种，其中一种经典做法叫作Real NVP，具体来说，就是先将输入 $x$ 分割成两部分 $({x}_{1},{x}_{2})$ ，然后定义一个仿射耦合层。

$h_{1}=x_{1}$

$h_{2}=x_{2} \odot \exp \left(s\left(x_{1}\right)\right)+t\left(x_{1}\right)$

其中， $\odot$ 为元素积， $s(·)$ 和 $t(·)$ 分别是两个任意的拉伸和变换函数。可以证明，这个耦合层所代表的变换有着完全可逆的变换：

$x_{1}=h_{1}$

$x_{2}=\left[h_{2}-t\left(h_{1}\right)\right] \odot \exp \left(-s\left(h_{1}\right)\right)$

然后，在下一层对 $x$ 进行重新分割，或者调换对 ${x}_{1}$ 和 ${x}_{2}$ 的操作，就能让信息得到更好的交互和融合。

GraphNVP（如下图所示）就是一个把Real NVP 应用到图生成任务上的例子，它分别对分子图的邻接张量和节点属性矩阵应用仿射耦合层，得到一个代表邻接张量的向量 $z_\boldsymbol{A}$ 和代表节点属性的向量 $z_\boldsymbol{X}$ ；反过来，通过对一个隐藏向量 $z$ 进行分割 $z=\left[z_\boldsymbol{A}, z_\boldsymbol{X}\right]$ ，并对它们分别应用Real NVP 方法，就可以分别生成对应的邻接张量和节点属性。

（GraphNVP：图生成的标准流模型）

▊ 药物/蛋白质交互图的利用

除了分子本身的化学结构可以被认为是图，在生化领域，另一种重要的图是蛋白质交互图。虽然蛋白质本身有时也被认为是图，但是更普遍的情况是将蛋白质作为节点，将蛋白质之间的相互作用当作边，组成一种蛋白质交互图。

蛋白质交互图也是图神经网络常用的一个标准数据集，它主要用来做（归纳式学习的）节点分类预测（如GraphSAGE）。类似的还有DDI 图和DTI （Drug-Target-Interaction）图，DDI 用来研究药物之间的相互作用（可以是正的协同作用，也可以是不良反应），而DTI 主要用在研究药物和目标蛋白质之间的相互作用，它们都在药物研发中起到很重要的作用。由于在药物开发中，我们对药物成分的研究总是不完全的，DDI 图和DTI 图上的研究集中在通过已知的图结构预测那些未知的相互作用，也就是链路预测的问题。通过对DDI 的预测，可以防止推荐药物时可能产生的药物之间的不良反应，而DTI 的预测则能帮助我们理解药物机制及将旧药新用。对于链路预测这个经典问题，我们不再做更多介绍，下面我们来看图神经网络是怎么利用DDI 图的信息做更安全的药物推荐的。

基于电子病历的药物推荐是医疗电子化的一个重要方向，但是仅考虑病人历史记录的推荐有一个问题，那就是很有可能会推荐药物相互之间有不良反应的组合，因此，利用DDI 图的信息就是一个必然。GAMENet采用了图神经网络与记忆网络结合的方式来解决这个问题（如下图所示）。首先，DDI 图被一个图神经网络编码，然后这个编码的信息被放在记忆网络的记忆库中，在每个时间点与记忆网络中的其他动态历史记录共同作用，从而在选择药物推荐时避免药物之间的不良反应。

（图神经网络用于药物推荐。DDI 图被图神经网络编码后放在记忆网络的记忆库中，与由电子病历数据所产生的动态记忆共同作用，得到药物的推荐）

▼

      
       
        
         
          参考文献：

          [1] DUVENAUD D K, MACLAURIN D, IPARRAGUIRRE J, et al. Convolutional networks on graphs for learning molecular fingerprints[C]//Advances in neural information processing systems, 2015: 2224-2232.
[2] GILMER J, SCHOENHOLZ S S, RILEY P F, et al. Neural message passing for quantum chemistry[C]//Proceedings of the 34th International Conference on Machine Learning-Volume 70. JMLR. org, 2017: 1263-1272.
[3] JIN W, COLEY C, BARZILAY R, et al. Predicting organic reaction outcomes with weisfeiler-lehman network[C]//Advances in Neural Information Processing Systems, 2017: 2607-2616.
[4] COLEY C W, JIN W, ROGERS L, et al. A graph-convolutional neural network model for the prediction of chemical reactivity[J]. Chemical science, 2019, 10(2):370-377.
[5] STOKES J M, YANG K, SWANSON K, et al. A deep learning approach to antibiotic discovery[J]. Cell, 2020, 180(4):688-702.
[6] YOU J, YING R, REN X, et al. Graphrnn: Generating realistic graphs with deep auto-regressive models[C]//International Conference on Machine Learning, 2018: 5708-5717.
[7] YOU J, LIU B, YING Z, et al. Graph convolutional policy network for goaldirected molecular graph generation[C]//Advances in Neural Information Pro-cessing Systems, 2018: 6410-6421.
[8] DE CAO N, THOMAS K. Molgan: An implicit generative model for small molecular graphs[J]. arXiv preprint arXiv:1805.11973, 2018.
[9] JIN W, BARZILAY R, JAAKKOLA T. Junction tree variational autoencoder for molecular graph generation[C]//International Conference on Machine Learning, 2018: 2323-2332.
[10] LIU Q, ALLAMANIS M, BROCKSCHMIDT M, et al. Constrained graph variationalautoencoders for molecule design[C]//Advances in neural information processing systems, 2018: 7795-7804.
[11] MA T, CHEN J, XIAO C. Constrained generation of semantically valid graphs via regularizing variational autoencoders[C]//Advances in Neural Information Processing Systems, 2018: 7113-7124.
[12] MADHAWA K, ISHIGURO K, NAKAGO K, et al. Graphnvp: An invertible flow model for generating molecular graphs[J]. arXiv preprint arXiv:1905. 11600, 2019.
[13] SHANG J, MA T, XIAO C, et al. Pre-training of graph augmented transformers for medication recommendation[J]. arXiv preprint arXiv:1906.00346, 2019.
[14] ZITNIK M, AGRAWAL M, LESKOVEC J. Modeling polypharmacy side effects with graph convolutional networks[J]. Bioinformatics, 2018, 34(13):i457-i466.
[15] MA T, XIAO C, ZHOU J, et al. Drug similarity integration through attentive multi-view graph auto-encoders[C]//Proceedings of the 27th International Joint Conference on Artificial Intelligence. AAAI Press, 2018: 3477-3483.
[16] SHANG J, XIAO C, MA T, et al. Gamenet: Graph augmented memory networks for recommending medication combination[J]. AAAI, 2019.