【数据竞赛】Kaggle知识点:比赛类型介绍

机器学习初学者

共 1311字,需浏览 3分钟

 ·

2020-07-15 14:13

在Kaggle平台上,经常有好多个比赛可供选择。如下图所示,为正在进行比赛的截图。那么对于入门同学(从没参加过一次Kaggle比赛)如何选择一场适合的比赛呢?


f197df983936255fa62441655c8de2dc.webp

本文将对Kaggle平台上的比赛按照类型进行划分,并对每种类型的比赛进行介绍。总有一个比赛适合你,文末还给出了快速上手Kaggle比赛的指南。


比赛类型


在Kaggle平台上比赛按照维度划分为:

8f0ecedbb73200e07246b5e0193796ae.webp


按照比赛的形式:比赛可以划分为Getting Started、PlayGround、Research和Featured四类。其中Getting Started是难度最低的比赛,非常适合入门学习,比如TItanic和House Prices。

2f14f332052cd03e964efc2a8ca9980d.webp


PlayGround类型的比赛难度稍微高一点,但难度也不会太高,适合针对特定问题进行深度学习。比如Dogs vs. Cats就是典型的图像分类的学习赛。

678e073d4d13b054c0836be9395fc155.webp


Research比赛是学术类型的比赛,Featured是商业公司的比赛。这两类比赛在赛题背景和难度上都更难,适合深入学习。需要注意的是,在Kaggle中只有Research和Featured类型的比赛会累计积分和奖牌。

166230da23821985cc9298864b54a9bb.webp


按照比赛阶段:比赛可以划分为One-Stage、Two-Stage和Kernel赛,或者分为非Kernel赛和Kernle赛。非Kernel赛通过选手提交预测结果文件进行打分,Kernel赛需要选手通过Notebook进行预测打分。

991e74d8555b9f834b8bdfdb1e5d226b.webp

需要注意的是,Kernel赛的Notebook提交是有运行时间和联网要求限制的。所以Kernel赛的复杂度会更高一些。在选择一个赛题时,可以根据自身的基础来选择,也可以根据赛题的要求进行选择。


比赛页面


在Kaggle平台上,举办方将每一个比赛都划分为如下的页面。在Notebooks页面中会有参赛选手公开的Notebook,也可以自己新建一个运行。

d1b63ded4583752732234a3099dd5c13.webp


学习路线


对于入门学习Kaggle的同学来说,在选择好一场比赛之后,如何开始学习呢?这个要跟自身的知识背景出发。

3ed90d173e461d401de93daea5d2e619.webp

如果你对赛题数据/任务比较熟悉,那么直接可以下载数据集开始建模;反之可以查看赛题的Notebook页面和Discussion页面找到其他选手分享的资源。

然后就可以按照如下流程开始:理解赛题内容、赛题数据、特种工程、构建模型和模型集成,不断迭代提高模型精度。

4c7f712263830af7bdb9e5dee4b36324.webp

以Kaggle上的Real or Not? NLP with Disaster Tweets为例,这个比赛是一个对推特上推文进行分类的比赛,具体来说是NLP领域中的文本分类比赛。如果你对文本分类有一点了解,那么就可以直接上手做了。

按照文本分类的思路,可以按照如下思路迭代模型:

894d1cd77597ee464c88a2c12da7648a.webp

好的,本文就到这里。希望大家能找到适合自己的比赛,并参与其中学有所成。


往期精彩回顾





获取一折本站知识星球优惠券,复制链接直接打开:

https://t.zsxq.com/yFQV7am

本站qq群1003271085。

加入微信群请扫码进群:

浏览 33
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报