风控ML[7] | 风控模型调优的思路有哪些-轻识

风控模型在金融信贷的很多环节都发挥着自己的作用，但有的时候我们训练出来的模型并不能满足上线需求，那我们就需要对模型进行调优。

一般来说，我个人会从以下几个角度来优化模型。

01 需求定义

简单来说就是对原始需求进行理解与定义，然后重新定义好坏样本。比如可能原先的需求是要提高终审通过率，然后好样本就是通过的客户，坏样本就是被拒绝的客户，但很不幸这样子建出来的模型效果并不是非常地好；在再次沟通后发现其实有很多没通过的并不是被拒绝了，而是客户自己放弃了申请。所以，我们可以从优化审批过程，提升客户体验，或者优先审批高贷款意愿的客户等等的角度来建模。

而好坏样本标签的定义，具体可以进行Vintage Analysis（账龄分析）以及Roll Rate Analysis（滚动率分析），这块后续具体写一篇文章来谈谈。

02 数据层面

数据决定模型的上限，相信很多同学也听说过这句话。所以这一块也是调优的主要环节。

更多的数据源：如果可以的话，再看看能不能找到其他有用的数据加入到模型训练中。

更精致的数据清洗：重新对特征的缺失值、异常值做合理的填充或修复，从而提升数据整体的质量。

更多的特征组合：通过概率模型、统计模型生成新的变量，更多不同维度的特征交叉衍生等。

更多的特征工程：比如数据降维、对数转换、指数转换、标准化、归一化等等。

重新选择特征训练：根据特征重要性选择其他变量进入模型训练。

训练测试样本的重新选取划分：重新选择不同时间窗的数据来作为训练集，又或是变更训练-测试集的划分阈值。

03 模型调优

如果时间和算力允许，风控模型的参数直接使用暴力点的网络搜索来选择全局最优的超参也是很好的。否则的话，就使用以下的超参数优化方法：

基于贝叶斯优化的超参数优化 Bayesian Optimization
基于进化算法的超参数优化 Evolutionary Algorithms
基于随机搜索的超参数优化 Random Search
基于元学习的超参数优化 Meta Learning
基于迁移学习的超参数优化 Transfer Learning

04 模型集成

模型集成在竞赛中还是十分常见的，虽然在生产中我们没办法说像在kaggle上面一样用几十个模型来完成一个需求，但是几个模型来共同完成一个需求的做法还是十分常见的。

比如说划分不同的客户、不同的产品单独建模；又比如说对一个样本集建立不同的模型，最后对模型的结果取平均值；又比如说对不同的样本集（但目标都一样）建模不同的模型，然后取得票最多的结果等等。