【关于 DSSM】那些你不知道的事-轻识

作者：杨夕
项目地址：https://github.com/km1994/nlp_paper_study
论文：Deep Structured Semantic Model
论文会议：CIKM2013
论文地址：https://posenhuang.github.io/papers/cikm2013_DSSM_fullversion.pdf
代码学习：https://github.com/km1994/TextMatching/tree/master/dssm
个人介绍：大佬们好，我叫杨夕，该项目主要是本人在研读顶会论文和复现经典论文过程中，所见、所思、所想、所闻，可能存在一些理解错误，希望大佬们多多指正。

动机

问题：语义相似度问题

字面匹配体现

召回：在召回时，传统的文本相似性如 BM25，无法有效发现语义类 Query-Doc 结果对，如"从北京到上海的机票"与"携程网"的相似性、"快递软件"与"菜鸟裹裹"的相似性
排序：在排序时，一些细微的语言变化往往带来巨大的语义变化，如"小宝宝生病怎么办"和"狗宝宝生病怎么办"、"深度学习"和"学习深度"；

使用 LSA 类模型进行语义匹配，但是效果不好

DSSM （Deep Structured Semantic Models）深度语义匹配模型介绍

思路

利用表示层将 Query 和 Title 表达为低维语义向量；
通过 cosine 距离来计算两个语义向量的距离，最终训练出语义相似度模型。

优点

该模型既可以用来预测两个句子的语义相似度，又可以获得某句子的低维语义向量表达

模型结构介绍

三层：

embedding 层对应图中的Term Vector，Word Hashing；
特征提取层对应图中的，Multi-layer，Semantic feature；
匹配层 Cosine similarity, Softmax；

输入层

(1) 英文

（2）中文

问题：

中文的输入层处理方式与英文有很大不同，首先中文分词是个让所有 NLP 从业者头疼的事情，即便业界号称能做到 95%左右的分词准确性，但分词结果极为不可控，往往会在分词阶段引入误差。所以这里我们不分词，而是仿照英文的处理方式，对应到中文的最小粒度就是单字了。（曾经有人用偏旁部首切的，感兴趣的朋友可以试试）

由于常用的单字为 1.5 万左右，而常用的双字大约到百万级别了，所以这里出于向量空间的考虑，采用字向量（one-hot）作为输入，向量空间约为 1.5 万维。

特征提取层

三个全连接层，激活函数采用的是tanh，把维度降低到128

用 Wi 表示第 i 层的权值矩阵，bi 表示第 i 层的 bias 项。则第一隐层向量 l1（300 维），第 i 个隐层向量 li（300 维），输出向量 y（128 维）可以分别表示为：

匹配层

Query 和 Doc 的语义相似性可以用这两个语义向量(128 维) 的 cosine 距离(即余弦相似度) 来表示：

通过 softmax 函数可以把 Query 与正样本 Doc 的语义相似性转化为一个后验概率：

其中 r 为 softmax 的平滑因子，D 为 Query 下的正样本，D-为 Query 下的负样本（采取随机负采样），D 为 Query 下的整个样本空间。

在训练阶段，通过极大似然估计，我们最小化损失函数：

残差会在表示层的 DNN 中反向传播，最终通过随机梯度下降（SGD）使模型收敛，得到各网络层的参数{Wi,bi}。

评价

优点

减少切词的依赖：解决了LSA、LDA、Autoencoder等方法存在的一个最大的问题，因为在英文单词中，词的数量可能是没有限制，但是字母 n-gram 的数量通常是有限的
基于词的特征表示比较难处理新词，字母的 n-gram可以有效表示，鲁棒性较强；
传统的输入层是用 Embedding 的方式（如 Word2Vec 的词向量）或者主题模型的方式（如 LDA 的主题向量）来直接做词的映射，再把各个词的向量累加或者拼接起来，由于 Word2Vec 和 LDA 都是无监督的训练，这样会给整个模型引入误差，DSSM 采用统一的有监督训练，不需要在中间过程做无监督模型的映射，因此精准度会比较高；
省去了人工的特征工程；

缺点

word hashing可能造成冲突
DSSM采用了词袋模型，损失了上下文信息
在排序中，搜索引擎的排序由多种因素决定，由于用户点击时doc的排名越靠前，点击的概率就越大，如果仅仅用点击来判断是否为正负样本，噪声比较大，难以收敛

参考

DSSM论文阅读与总结
DSSM：深度语义匹配模型
文本匹配、文本相似度模型之DSSM

【关于 DSSM】 那些你不知道的事

目录

动机

DSSM （Deep Structured Semantic Models） 深度语义匹配模型介绍

思路

优点

模型结构介绍

输入层

(1) 英文

（2）中文

特征提取层

匹配层

评价

参考

【关于 DSSM】那些你不知道的事

DSSM （Deep Structured Semantic Models）深度语义匹配模型介绍