程序员的欧洲杯:用大数据预测胜率,比踢球还刺激
云加社区
共 14961字,需浏览 30分钟
·
2024-07-04 08:45
👉目录
1 足彩预测
2 投注策略分析
3 One more thing
4 结语
本文作者从数据层面出发,通过挖掘足球比赛相关的数据特征,结合机器学习的模型方法,对足球比赛的胜、平、负结果进行预测。特别提醒,本文不构成任何投资、下注建议,博彩有风险,下注需注意!
-
挖掘足球比赛数据特征。 -
构建预测模型。 -
预测比赛结果概率(胜、平、负)。 -
分析足彩投注策略。
01
-
基于进球数预测方法。基于进球数预测的方法[1]把比赛结果的预测转化为利用泊松分布模型估计对战双方的攻防能力,进而通过进球数预测比赛最终的结果。
-
基于概率回归模型。论文[2]提出由多个不同的解释变量来组成一个概率回归模型,主要考虑球队水平、近期表现、比赛重要程度、主客队位置距离等。 -
利用贝叶斯网络进行预测。主要采用与比赛相关的主观和客观数据对贝叶斯网络的进行训练建模,进而对比赛结果进行预测。
-
赔率是两支球队实力的体现。 -
赔率基于比赛结果的基本概率。 -
赔率融合了庄家的市场预期。
-
比赛的主要信息:联赛、主队、客队、比分。
-
赔率信息:各博彩公司对比赛给出的欧洲赔率(胜、平、负)。
-
根据联赛积分排名,排名第1的球队得20分,第2名的球队得19分,以此类推,第20名的球队得1分,降级球队得0分; -
计算每支球队在近10个联赛赛季的排名方差; -
由每支球队的排名方差的平均值计算得到联赛的混沌程度得分。
-
容易收敛到局部最小值,陷入局部最优。 -
训练数据不足时,容易过拟合。 -
要求训练数据为有标签的数据。 -
训练速度慢,计算性能要求高。
-
逐层训练构建神经元,使得每一层网络的输入和输出所蕴含的信息差别最小。这一步是无监督的训练过程。 -
通过有标签的训练数据,误差自顶向下对各层网络的参数进行微调。
-
比赛数量更少。 英超联赛有20支队伍,正常赛季有380场比赛。而一届杯赛的总场次是远远小于这个数量的。2016年扩军后,欧洲杯24支参赛队伍,共51场比赛;世界杯32支参赛队伍,共64场比赛。这使得杯赛相关数据的总量都远小于联赛。 -
数据质量更为波动。 由于杯赛往往4年举办一届,参赛队伍变动大,队伍的实力变化大。这就导致对战队伍的历史对局相对较少,同时历史对战数据的指导性变弱。如在世界杯上,能够与中国队一战的队伍不过巴西、哥斯达黎加、土耳其,数据极少。综上所述,杯赛的预测相对联赛来说更难。结合上面对法甲联赛的分析,杯赛相当于一个混沌程度更高的“联赛”,预测的结果具有更大的随机性。
02
-
现在得到的盈利投注区间规律只在各个联赛300场左右的测试集进行过测试,是否具有更加普适性的可能,还需要有更多的比赛数据进行测试和验证。 -
现有的投注策略受限于预测概率区间,投注场次与总场次之比还不够高,如英超为20%,而法甲由于准确率较低的缘故,投注比例只有7%。 -
由于投注场次的赔率会有波动,导致盈利率在不同的训练集上变化较大,难以确保一个高而稳定的盈利率。
03
-
大量的热度指数 媒体热度。 搜索热度。 社交热度。
-
意想不到的数据关联性 啤酒vs尿布。 股市大盘vs社交网络恐慌指数。 流感疫情vs搜索热词。
-
股票信息足够“大数据”
-
股票信息具备天然的“时序”特点
04
-
数据样本仍然需要进一步积累,进一步扩充比赛数据样本,增加中超联赛以及欧冠、亚冠等杯赛数据; -
特征挖掘。对于 DNN 模型来说,现在的特征维度仍然偏少,有效的特征不多。有效特征的进一步挖掘是接下来重要的工作之一。如赔率变化值,对战阵形、球员疲劳程度、比赛重要度,球队重大新闻等等,进一步挖掘和分析对比赛有影响的因子。 -
当前利用足彩预测概率进行投注的策略仍然比较简单,其稳定性和适用性仍然需要在更大量的数据集上进行测试和调整。 -
增加对比赛其他结果的预测,如进球数,强弱队比赛爆冷概率等等。
📢📢欢迎加入腾讯云开发者社群,享前沿资讯、大咖干货,找兴趣搭子,交同城好友,更有鹅厂招聘机会、限量周边好礼等你来~
(长按图片立即扫码)
评论