万物心选算法实习面试题7道|含解析-轻识

10本七月在线内部电子书在文末，自取~

公众号福利

👉回复【100题】领取《名企AI面试100题》PDF

👉回复【干货资料】领取NLP、CV、ML等AI方向干货资料

问题1：Adam优化器和SGD的区别：

Adam优化器和随机梯度下降（SGD）是两种常用的优化算法。它们的主要区别在于更新参数的方式和对梯度的处理方式。

Adam优化器使用了自适应学习率的方法，并结合了动量的概念。它维护了每个参数的自适应学习率，并使用动量来加速参数更新。Adam通过计算梯度的一阶矩估计（均值）和二阶矩估计（方差）来调整学习率。这种自适应学习率的调整可以帮助Adam更好地适应不同参数的特性，并且通常能够更快地收敛。

相比之下，SGD仅使用固定的学习率来更新参数。它直接使用当前的梯度来更新参数，而没有考虑其他信息。这种简单的更新方式可能导致收敛速度较慢，特别是在参数空间存在不同尺度的情况下。

总的来说，Adam相对于SGD来说更加智能化和自适应，能够更快地收敛到局部最优解，并且通常能够在训练过程中保持较小的学习率。

问题2：分类问题为什么用交叉熵损失函数不用均方误差（MSE）：

交叉熵损失函数通常在分类问题中使用，而均方误差（MSE）损失函数通常用于回归问题。这是因为分类问题和回归问题具有不同的特点和需求。

分类问题的目标是将输入样本分到不同的类别中，输出为类别的概率分布。交叉熵损失函数可以度量两个概率分布之间的差异，使得模型更好地拟合真实的类别分布。它对概率的细微差异更敏感，可以更好地区分不同的类别。此外，交叉熵损失函数在梯度计算时具有较好的数学性质，有助于更稳定地进行模型优化。

相比之下，均方误差（MSE）损失函数更适用于回归问题，其中目标是预测连续数值而不是类别。MSE损失函数度量预测值与真实值之间的差异的平方，适用于连续数值的回归问题。在分类问题中使用MSE损失函数可能不太合适，因为它对概率的微小差异不够敏感，而且在分类问题中通常需要使用激活函数（如sigmoid或softmax）将输出映射到概率空间，使得MSE的数学性质不再适用。

综上所述，交叉熵损失函数更适合分类问题，而MSE损失函数更适合回归问题。

问题3：决策树的生成过程：

决策树是一种常见的机器学习算法，用于解决分类和回归问题。下面是决策树的生成过程的简要介绍：

选择最佳特征：从训练数据集中选择一个最佳的特征来作为当前节点的分裂标准。通常使用一些评价指标（如信息增益、基尼指数等）来衡量特征的好坏。
分裂节点：根据选择的特征将当前节点分裂成多个子节点，每个子节点对应特征的一个取值或一个值的范围。
递归生成子树：对于每个子节点，重复步骤1和步骤2，递归地生成子树，直到满足终止条件。终止条件可以是节点中的样本数量小于某个阈值，或者节点中的样本属于同一类别，或者达到了树的最大深度等。
构建决策树：通过递归生成子树，最终构建出完整的决策树。
剪枝（可选）：为了避免过拟合，可以进行剪枝操作，去掉一些决策树的分支或节点。

决策树的生成过程基于对特征空间的划分，通过选择最佳特征来使得每个子节点的样本更加纯净，即属于同一类别。这样生成的决策树可以用于预测新样本的类别或回归值。

问题4：什么是信息增益

信息增益是在决策树算法中用于选择最佳特征的一种评价指标。在决策树的生成过程中，选择最佳特征来进行节点的分裂是关键步骤之一，信息增益可以帮助确定最佳特征。

信息增益衡量了在特征已知的情况下，将样本集合划分成不同类别的纯度提升程度。它基于信息论的概念，使用熵来度量样本集合的不确定性。具体而言，信息增益是原始集合的熵与特定特征下的条件熵之间的差异。

在决策树的生成过程中，选择具有最大信息增益的特征作为当前节点的分裂标准，可以将样本划分为更加纯净的子节点。信息增益越大，意味着使用该特征进行划分可以更好地减少样本集合的不确定性，提高分类的准确性。

问题5：动态规划的核心思想

动态规划是一种解决多阶段决策问题的优化方法，其核心思想是将原问题分解为多个重叠子问题，并通过保存子问题的解来避免重复计算，从而提高算法的效率。

动态规划通常适用于具有重叠子问题和最优子结构性质的问题。最优子结构指的是原问题的最优解可以通过子问题的最优解来构造。而重叠子问题指的是在问题的求解过程中，同一个子问题会被多次计算。

问题6：直观地解释一下Transformer注意力机制

Transformer是一种用于序列建模的深度学习模型，广泛应用于自然语言处理等领域。其中的注意力机制是Transformer的核心组成部分。

在Transformer中，注意力机制用于在序列中建立全局的关联性，将每个位置的表示与其他位置的表示进行交互。直观地解释注意力机制如下：

假设有一个输入序列，其中包含多个位置，每个位置都有一个表示向量。注意力机制通过计算每个位置与其他位置的关联权重，从而决定每个位置在表示时的重要性。

通过注意力机制，Transformer能够在序列中捕捉到全局的关联性，可以将每个位置的表示与其他位置的表示进行交互和融合，从而更好地捕捉序列中的重要信息和依赖关系。

问题7：一维卷积的作用

在不改变特征图尺寸的前提下去改变通道数（升维降维）；
增强了网络局部模块的抽象表达能力；
在不增加感受野的情况下，让网络加深，从而引入更多的非线性。

免费送

↓以下10本书电子版免费领，直接送↓

以上8本+《2022年Q4面试题-69道》、《2022年Q3面试题-83道》共10本，免费送

扫码回复【999】免费领10本电子书

（或找七月在线其他老师领取）

点击“阅读原文”抢宠粉福利~