王茂霖:数据挖掘提分三板斧!
Datawhale
共 868字,需浏览 2分钟
·
2021-04-07 11:13
内容概括
数据挖掘提分三板斧:
1.金斧-数据清洗和特征工程
2.银斧-模型参数调节
3.铜斧-模型集成
PPT下载:后台回复“210406”可获取
视频地址:https://www.bilibili.com/video/BV1MU4y1h75G
数据清洗和特征工程
1.缺失值处理:
2.异常值处理:
数据清洗-数据分桶
3.数据分桶:
4.数据标准化:在不同的问题中,标准化的意义不同
(1)在回归预测中,标准化是为了让特征值有均等的权重;
(2)在训练神经网络的过程中,通过将数据标准化,能够加速权重参数的收敛;
(3)主成分分析中,需要对数据进行标准化处理;默认指标间权重相等,不考虑指标间差异和相互影响。
数据清洗的示例:
1.特征构造:
2.特征选择:
特征工程的示例:
模型参数调节
一、关于建模调参
1.理解模型
2.性能验证
3.模型调参
模型集成
一、关于模型集成
1.加权融合
2.Boosting/Bagging
3.Stacking/Blending
模型集成示例:
本文作者
王茂霖,Datawhale重要贡献成员,Datawhale&天池数据挖掘学习赛开源内容发起人,全网阅读超10w。
参赛30余次,获得BCIC-数字中国创新创业大赛亚军,全球城市计算AI挑战赛,Alibaba Cloud German AI Challenge等多项Top10。
分享地址
复制链接打开(或阅读原文) https://www.bilibili.com/video/BV1MU4y1h75G
评论