2022选择了交大,回顾这一年的成长-轻识

Datawhale干货
作者：王琦，上海交通大学，Datawhale成员

2022年是颇为忙碌的一年，今年我从中国科学院大学毕业、申请上了上海交通大学的博士、参与贡献了开源教程“Easy-RL”（5.6K GitHub Stars）、出版了著作《Easy RL：强化学习教程》，‍“蘑菇书”‍ 得到了多位强化学习领域专家的推荐，被评为人民邮电出版社的季度好书，并被国家图书馆收录、拿到了 Datawhale 的致卓奖。

这一年经历了很多事情，也有不少的收获，有一些观点跟强化学习的思想不谋而和（强化学习可能是能够实现通用人工智能的一种途径，其中的算法设计思想值得推敲）。

开源地址：https://github.com/datawhalechina/easy-rl

选择长期的价值

1.选择交大读博

在做决策的时候，很容易短视，对短期价值更加看重。硕士的最后一个学期，我就面临一个相当重要的决策：就业或者继续深造。身边大部分同学都选择了就业，拿到了年薪不错的 offer。如果这个时候，我比较考虑短期的价值，就应该随波逐流，直接选择就业。但我的目标是进高校或研究所，继续科研工作。除了读博，其实我做开源也是选择长期的价值。做开源这件事并不能带给我一些直接的、短期的价值，相反，我需要花费大量的时间来对开源项目进行维护。但从长期的角度来看，开源可以不仅锻炼我学习的能力，还可以让我认识更多志趣相投的小伙伴。

2.觉得 Datawhale 做的事情有意义

或许可以从另一个角度来考虑长期收益的事情。我很喜欢乔布斯斯坦福演讲中关于因果相连的一个故事。乔布斯当年在里德学院选择了一门书法课进行学习，他学习书法纯粹是出于兴趣，并没有觉得这是一个很有用的课程。但当乔布斯后来设计第一台苹果电脑的时候，需要设计字体，这个时候，之前书法课的知识就起作用了。利用之前学到的书法知识，乔布斯设计出了丰富、美妙的苹果电脑字体。类似地，当时我加入Datawhale，只是觉得 Datawhale 做的事情很有意义，并没有考虑太多。后来能够在Datawhale以及人民邮电出版社陈冀康老师（以下简称陈老师）的牵头下出版书籍，并且这段经历为我申博增添了不少亮点，完全是我意料之外的事情。

平衡探索与利用

3.感受到做笔记的好处

如何平衡探索与利用也是一个值得思考的问题。一般来说，大家更倾向于利用，因为这样成本最低，风险最低，结果也是在预知内的，可控的。做笔记就是利用的一种实现方法，通过做笔记把一些经验、知识以及可能遇到的问题记录下来，这样做的好处是，如果遇到相同的问题，可以直接查看自己的笔记（自己的笔记相比别人的总结更加容易理解）。

4.不断尝试一些新工具/新技巧

如果一直是利用也会导致一些问题，利用意味着我们是在舒适区，如果想去学习区，则要尝试着使用一些新工具/新技巧，接受一些新想法，这样才能不断地进步。Think different，在解决一些任务的时候，可以想想我们怎样才能做得更好，是不是采取一些与之前不一样的方法。举个例子，在日常工作，完成一些任务的时候，我们一般都会有一套工具链：比如写文档用 Word/LaTeX/Markdown，数据分析用 Excel/Python，展示汇报用 PPT。而这套工具链是可以不断改进的，不断尝试一些新工具/新技巧，可以让你的工作效率不断提升。

学会模仿学习

5.模仿学习优秀项目

在一开始学习新东西的时候，我们很难达到一个专业的高度。这种情况，就有一个比较常用的技巧：模仿专家的学习。当时我准备设计“Easy-RL”的时候，Datawhale 已经有非常棒的开源项目：“南瓜书”、Joyful-Pandas等，于是我花了一段时间研究这些开源项目，学习这些项目的优秀之处。通过这样的模仿学习，“Easy-RL”作为开源项目，其雏形至少是比较标准的。

在进行模仿学习的时候，有一点很重要，我们要善于观察。福尔摩斯里面有句话很有启发：“You see, but you do not observe（你是在看，而不是在观察）”。学会观察这些项目成功的地方。这个技巧对于写论文也是适用的。要想写出优秀的论文，一开始都要阅读大量的优秀论文，观察这些论文的排篇布局、遣词造句，不断积累才能写出一篇像样的论文。

6.思考底层原因

当然，我们也可以使用“吸星大法”，直接模仿优秀人的学习，观察他们值得学习的习惯或思考方式。但使用“吸星大法”的话，一定要注意有批判地“吸收”，切忌拿来主义，不要只是模仿别人，而没有自己的思考。看到别人这样做的时候，要思考下他这样做的底层原因，从而达到灵活变通，最终实现“青出于蓝而胜于蓝”。

接受反馈，才能快速成长

7. 接受反馈能快速成长

很多时候，我们的认知是存在思维定式的。如果这个时候，能有其他人从他的角度给出建议，这肯定是大有裨益的。接受反馈，能够让人快速成长。举个例子，大家如果想要发表论文，不仅需要写完论文，还要发给审稿人看，也就是有 peer review（同行评审），同行会对你的论文进行评价，然后给出大量建议，这些建议能够让你的论文更加完善。

8. 开源带来大量反馈

开源可以带来大量的反馈，在 Datawhale 做开源项目，会有很多来自不同渠道的反馈。比如“南瓜书”的作者谢文睿（睿哥）给我提供了不少如何做好开源项目的建议，这些建议都很有借鉴性。跟马燕鹏老师合作，开展了“蘑菇书”的组队学习，学习者在学习过程中也给出了很棒的建议。除此之外，GitHub 的读者会在 issue 区，微信读者群的读者会在微信群提建议，这些建议让“蘑菇书”越来越好。后续在出版的时候，“蘑菇书”的责编郭媛老师以及出版社的陈老师、校对老师针对出版的要求，给出了相当专业的建议。不得不说，“蘑菇书”其实是群策群力的结果，里面有众多小伙伴的智慧。

除了开源项目以及出版的反馈，还有表达上的反馈。有一次我在Datawhale内部做了一个分享，分享后没一会儿，有组织成员给我打了一个微信电话，非常细心地提供了很多做公开分享的建议（比如语速过快的解决方法），受益良多。后续参加分享时，根据提出的建议，我做出了一些改进，相比之前，分享效果更好了。

三个臭皮匠，顶个诸葛亮

9.三个人一起进步

多个智能体能够更好地学习，“一个人可能走得快，一群人才能走得远”。在 Datawhale 中，我找到了很好的合作者：杨毅远（以下简称毅远），江季（以下简称季哥），三个人的通力协作才有了“蘑菇书”。有了毅远和季哥的加入，“蘑菇书”的内容丰富了许多，不仅有理论知识，还有算法实战、面试题、习题。此外，我们三个人还会分享学习经验、工具技巧等等，三个人一起进步！

“蘑菇书”的小伙伴们

在“蘑菇书”出版时，陈老师也赋诗一首：

三师三校三友著，深入宝山采蘑菇。为继共学做晚厨，RL自此无难处。

放宽心，不断试错

10.最好先动起来

放宽心，保持良好的心态，不断试错。当然，我们不能盲目地试错，要先经过一定的分析，把事情想清楚，再开始行动。但有时候考虑太多，瞻前顾后，会导致过多的顾虑，从而迟迟不肯行动，这种情况最好先“动起来”。当人开始做事的时候，注意力都在解决问题上，焦虑就少了许多。“流水不争先，争的是滔滔不绝”，“日拱一卒，功不唐捐”，有的时候，坚持的力量真的超过我们的想象。

最后用一句我很喜欢的话来结尾吧：“stay hungry，stay foolish（求知若饥，虚心若愚）。”整理不易，点赞三连 ↓