机器学习大佬关于读博的心得

共 3665字,需浏览 8分钟

 ·

2022-06-09 14:03

来源:AI蜗牛车


今天给大家分享一位机器学习大佬王鸿伟当时选择读博的心得,希望对想去生造的朋友们一些建议与帮助,以下为原文。

一. 决策树容易过拟合?

张教授提出了一个用于判断是否适合读博的决策树,然而,单棵未剪枝的决策树很容易过拟合。决策树的另一个缺点还在于它只能提供yes or no的回答,而无法为预测的结果输出概率值,也就是说,它只能回答“你适合读博吗?”,而不能回答“你有多大程度适合读博?”。这一点其实很重要,因为这个世界并不是非黑即白的。那么如何才能回答“你有多大程度适合读博?”这个问题呢?其实也很简单,logistic regression就是永远的神:

我在上面这个回答里曾经列举了十一个判断是否适合读博的问题。那么一个非常简单的模型就是,你对每个问题的回答分成三种:符合(2分),一般(1分),不符合(0分),然后把所有的分数简单相加就是你最终的分数。你最终的分数除以满分(22分)就是你适合读博的概率。

这个简单模型的缺点在于它不考虑每一个问题的重要程度,因此,最严谨的做法就是你把每个问题的权值设置成一个可学习的参数,然后你去搜集一些博士生的样本,包括他们对每个问题的回答(即feature)以及他们读博的成功程度(即label),然后训练这个模型得到这些权重参数。

上面这个严谨的做法的成本比较高。在此我可以给出一些经验性的权重设置。我建议把

1. 你是否决定把科研工作当成自己以后的目标和事业?

2. 你是否对探索未知世界充满了兴趣,是否对你想读博的专业领域充满了好奇?

3. 你是否对你要读博的专业和方向有较为深刻的了解?

4. 你的个人品性:你是否有足够的定力,能沉得住气,耐得住寂寞?你是否足够踏实心细,起码实验数据不会弄错?你是否有足够的抗打击能力,哪怕在逆境中也能稳住心态,努力翻盘?

8. 你在本科和硕士时是否有过一线的科研经验?

这几条的权重加倍。其中第2、4条甚至可以加到三倍。

那么这样一个模型的优点是显而易见的:它不会因为你对某一个问题的回答是“否”而直接判断你不适合读博。这一点其实很重要,也是一个非常深刻的道理:你并不需要觉得你一定要把一个问题所有的因素都考虑好,所有的准备工作都做好,才能开始动手做一件事。这个我们后面会再聊。

接下来我想针对张教授提出的几个决策树判断条件谈一谈我的想法。


二. I LOVE doing research

同意。兴趣永远都是最好的老师。但是一个非常现实的问题是,大部分人在读博之前对所在专业并不会非常了解,又该如何判断自己的兴趣在哪里呢?我觉得读博最原生的动力应该来源于你对这个世界的好奇心和求知欲。你小时候喜欢看十万个为什么吗?你现在喜欢刷知乎吗?你对各种自然和社会现象背后的逻辑和道理感兴趣吗?这种最原生的求知欲才能最强烈地推动你思考科研中的问题,也能让你得到最纯粹的精神满足感和成就感。

但是同时也要指出的是,你不必要觉得读博、做科研、发论文是非常神圣的事情。一百年前它们的确是,但是现在,它们对大部分从业人员来说就是一种职业。因此,你不必要觉得“喜欢科研”是一件多么飘渺而不接地气的事情。甚至其实,很多人喜欢科研的原因只是“我更不能接受在公司做按部就班一成不变的工作“而已。


三. I absolutely want to be a college professor

其实我觉得,想当教授是读博的加分项,读博也是想当教授的必需条件。其次,“大多数博士生在刚入学的时候都想着毕业以后做大学教授,但事实上只有极少数人能做到。”事实并非如此,在计算机行业,很多学生选择读博并不是想做教授,而是想以后在公司有更高的发展空间;很多博士毕业了选择去公司,也并不是因为他们找不到教职,只是权衡了所有的offer取了最好的而已。最后,大学教职的“低级”优点其实是显而易见的:独立(自己当老板),稳定(tenure之后或有编制),大部分时间自由支配,社会地位高,对下一代的培养和教育有利。至于“高级”优点,就是张教授所说的,和聪明的年轻人一起共事,以及可以累积在自己身上的成果。众所周知,CMU是一所内卷学校,并非所有的大学教授都想(都能)在这样一个顶尖且内卷的地方工作,所以教职并非这么可怕。张教授的原意是:不要对教职有不切实际的幻想,不要只为图教职的“低级“优点而去读博。


四. Money is important to me

首先,钱对所有人都是重要的,如果一个人感觉钱不重要,那是因为他有足够的钱。其次,读博没有那么神圣,如在上条所说的,很多人读博之后还是去了公司挣钱,他们只是想有一个更好的起点和更高的天花板。所以,把读博和挣钱完全分开,认为选择了读博就不能谈钱,或者想挣钱就别读博,是不科学的。再次,读博确实有很高的机会成本,你本可以在公司有五年的工作经验,攒五年的钱,甚至升了两次职。但是,博士头衔是你一辈子的财富,你在读博中的经历和收获对你在职场中的帮助同样是很大的。最后,总结来说,工作和读博就相当于你选择了前期强势还是后期强势。众所周知(误),王者荣耀里面的英雄有的前期强势,有的后期强势,前期强势英雄可能拖到了后期会无力,而后期强势英雄可能还没发育起来游戏就结束了。所以两者并无优劣,只是取决于个人偏好和性格特点而已。


五. I can deal with extreme stress and competition & i'm OK with being judged all the time & I work 9-5 Monday-Friday

同意。这三条可以总结一下,就是一个问题:你能卷吗?但是这里我想补充说明的是,大家都说读博辛苦,其实读博也只是众多工作中的一种,它确实辛苦,但是它也没有过于特别的地方,别的工作也辛苦。读博的辛苦倒是有一点不同,就是它会把工作和生活的界限变得模糊。你不能像上班那样,下了班就完全是你自己的时间,读博很难有“下班”这个概念。然而这也并不是说读博就是996,007,大家都读过博心里没点数吗?你摸鱼划水的时间还少吗?工作和生活的界限变得模糊的意思,不仅仅是说工作会侵占生活,也意味着生活会侵占工作...总的来说,读博时的忙碌状态是间歇性的,一般在和老板开会前、deadline之前是最忙碌的时候,中间穿插着摸鱼划水的时间。这也是正常的,毕竟一个人的精神不可能永远紧绷。你更倾向哪一种生活状态,那完全是个人的选择。


六. 杂谈

其实任何判断是否适合读博的模型都只是先验模型:它只能给你一个你是否适合读博的先验概率,而你无论是否选择了读博,以后的发展如何,都取决于你自己的选择和努力。虽然我在上面提出了一个logistic regression模型,但是很好笑的是,如果把当初读博前的我丢进这个模型,毫无疑问我是不适合读博的那种人。

博士和非博士之间当然有一个学位的差别,但是博士和博士之间也有巨大的差别,真正在学术这条道路上走得远、走得好的博士只是少数。这里的意思是:如果你在logistic regression模型里拿了满分,那你大概率会成为一个非常优秀的博士,但是如果你得分并不高,这不意味着你不能读博士,只是你成为优秀博士的先验概率不大而已。

如第一节所说,你并不需要觉得你一定要把一个问题所有的因素都考虑好,所有的准备工作都做好,才能开始动手做一件事。这个道理是我本科时俞勇老师告诉我们的。他说,你们有些人觉得科研离你们很远,觉得对科研毫无头绪,觉得要先学很多东西。这种想法是不对的,你们要做的就是尽快开始,一头扎进去,边学习边试错。我觉得这番话很有道理,我也是早先时候不懂这些道理,走了很多弯路。甚至我觉得这不仅仅是科研的道理,更是人生的道理。

那么怎样读博才能成为优秀的博士呢(怎样才能扳倒先验概率呢)?这是一个很大的问题,甚至可以上升为:怎样成为一个成功的人呢?我想给三个可能不全面但非常重要的因素:你需要有想成功的“野心”,你需要有相对应的执行力,你也需要一些运气。但是运气确实只会给有准备的人,所以关注前两点吧。

人生不是电视剧,电视剧里的大结局可以是男主女主幸福快乐地生活在一起,而不会告诉你之后的七年止痒中年危机。读博也不是电视剧,读博结束之后,你还有大把的人生。名校博士毕业也不代表了你以后就比别人走得更顺,他只代表了你一个人生阶段的结束,以及下一个人生阶段的开始。所以放宽心态面对每一段人生吧。

最后,说了这么多,还是会有很多人不知道:我到底要不要读博呢?那么我就谈一个“太长不看”的选择方法吧,不仅仅适合是否读博,也适合几乎全部的人生选择:当你选择了这条道路之后,无论好坏,无论成败,多年之后,当你回想起当初做出的这个选择时,你不会觉得后悔。人生最难过的事情,不是“我做不到”,而是“我本可以”



推荐阅读

我逃到国企了

再也不接私活了

Kaggle出了一本竞赛书(500页)

机器学习基础:用 Lasso 做特征选择

浏览 22
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报