【数据竞赛】CCF乘用车细分市场销量预测竞赛总结
题目:乘用车细分市场销量预测 类型:时序回归
https://datafountain.cn/competitions/352/
赛题背景
近几年来,国内汽车市场由增量市场逐步进入存量市场阶段,2018年整体市场销量首次同比下降。在市场整体趋势逐步改变的环境下,消费者购车决策的过程也正在从线下向线上转移,我们希望能在销量数据自身趋势规律的基础上,找到消费者在互联网上的行为数据与销量之间的相关性,为汽车行业带来更准确有效的销量趋势预测。
赛题任务
本赛题需要参赛队伍根据给出的60款车型在22个细分市场(省份)的销量连续24个月(从2016年1月至2018年12月)的销量数据,建立销量预测模型;基于该模型预测同一款车型和相同细分市场在接下来一个季度连续4个月份的销量;
除销量数据外,还提供同时期的用户互联网行为统计数据,包括:各细分市场每个车型名称的互联网搜索量数据;主流汽车垂直媒体用户活跃数据等。参赛队伍可同时使用这些非销量数据用于建模。
赛题数据
历史销量数据包含60个车型在22个省份,从2016年1月至2017年12月的销量。参赛队伍需要预测接下来4个月(2018年1月至2018年4月),这60个车型在22个省份的销量;参赛参赛队伍需自行划分训练集数据进行建模。
评分标准
采用NRMSE(归一化均方根误差)的均值作为评估指标。首先单独计算每个车型在每个细分市场(省份)的NRMSE,再计算所有NRMSE的均值。
宝可梦训练团队
本方案先对数据进行了探索性分析,去除掉与销售量变化趋势关系不大的"搜索量"、"对车型相关新闻文章的评论数量"、"对车型的评价数量"等用处不大的特征。
在其中的一个模型,对销售量进行log1p变换,这样可以使销量数据在转换后基本服从一个正态分布,能够提升一定的效果;考虑到春节、农历月份的影响,本方案做了相关标示。
在做特征工程方面,构造了滑窗。平移,趋势,统计等方面的特征。在总体策略上,因为要预测连续四个月的销量,我本方案的策略是一个月一个月的预测,首先预测1月份的结果。然后将1月份的预测结果合并到训练集,再预测2 月份结果,依次类准。
在模型融合方面,我一共使用了3个模型,每个模型的特征组合不同,进行融合后有一定提升效果。
数据分析
不同车型、不同省份在不同月份的点,销量差距还是很大的,但也不排除是脏数的可能。
销量与车型搜索量、相关新闻回复量、评价数量分析的变化趋势并没有太大的规律性,所以我在训练时,没有要这些特征。
销量数据分析 销量销量趋势分析 销量与车型的关系
特征工程
模型1
是否春节特征 车型(model)、车身类型(bodyIype)、省份分别与年份进行分组提作,求得销量均值 距离2015年12月的月数间隔特征 车型和省份的组合特征 车型、省份和间隔月份 mt 的组合特征 设置不同月份数据的权重值特征 同车型同省份上一个月的销量
模型2
是否春节特征。 农历月份 2017年同车型同省份销量之和同比 2016年的倍数 距离 2015年12月的月数间隔特征mt 车型和省份的组合特征 车型、省份和间隔月份 mt 的组合特征 同车型同省份前面第1到第 13个月的销量 同车型同省份前面第1个月与第 13个月的比值 同车型同省份前面第1个月与第13个月的差值再验以第13个月的值 同车型同省份前面第1个月与第2个月的比值和差值。 同车型同省份前面第 2个月与第3个月的比值和差事 滑窗特征。分别计算同车型同省份前面3个月和6 个月的均值、标准差 滑窗特征。分别计算同 bodyType 同省份前面3个月和6个月的均值、标准差 滑窗特征。分别计算同省份前面3个月和6个月的均值、标准差 滑商特征。分别计算同bodyType 前面3个月和6 个月的均值、标准差
模型3
距离2015年 12月的月数间隔特征 mt 车型和省份的组合特征 车型、省份和间隔月份 mt 的组合特征 相同车型、省份前16个月每个月的销量 比前一年的增长率 每个省份、每个月的车型上一年同月份销量均值和最小值。 前面的第3、4、15、16个月同车型的销量均值。并求;前面第15月均值与前面第3个月均值之差与前面第15 个月均值的商;前面第 16月均值与前面第4个月均值之差与前面第16个月均值的商 同车型同省份前面第1、2、11、12个月销量之和 同车型同省份前面第1、2、3个月销量之和。(11)同车型同省份前面第1、12个月销量之和
秋名山车神团队
特征工程
不同省份 & 不同车型构建不同销量 基于特征重要性、均值和相关系数筛选特征
模型选择
对比XGBoost、LightGBM、CatBoost、LSTM、CNN和Prophet模型,最后选择LightGBM。
诗人藏夜里团队
整体方案
从实际业务场景出发挖掘有效特征,采用机器学习模型逐月预测 结合前沿神经网络研究成果采用神经网络模型分车型建模预测,最终对不同预测结果分月按不同比例加权验合
特征工程
将所提取的特征归为以下几类:同比、环比、历史信息、编码、差分差比、趋势、节假日、其它。
挣钱买地球团队
本赛题的最为难解决的难点在于验证集的线上线下不一致的问题,我们放弃了验证集。
我们会拿预测出来的每个月的总销量去跟我们猜测的数据去比较,如果预测出来的数据不是特别高,并且跟猜测的数据接近的话,我们会尝试提交,往往效果都很不错。
核平精英团队
特征工程
要仔细考虑教据的周期性与趋势性,可分为环比趋势及同比趋势:
环比方面,主要体现的为该类车在近几个月内销量的情况 同比方面,主要体现的为该类车当年与去年相比的情况,在这之间也体现了乘用车销量的年周期性, 对于周期性,将其作为结果评估的依据,对本题所要预测的1-4月,可以明显的看出其每年的销量都呈现1月高峰、2月低谷、3和4月有所改善目两月近平持平的趋势,若模型预测出的教据分布不是如此即需调整。
后处理
随比赛进行,多次提交过结果后可以猜测,所要预测的18年 1-4月的销量是偏低的,这时就可以对预测结果乘一个小于1的因子进行调整。
往期精彩回顾
适合初学者入门人工智能的路线及资料下载 中国大学慕课《机器学习》(黄海广主讲) 机器学习及深度学习笔记等资料打印 机器学习在线手册 深度学习笔记专辑 《统计学习方法》的代码复现专辑 AI基础下载 本站qq群955171419,加入微信群请扫码: