NLP面试干货分享:从自考本科 在职硕士到BAT年薪80万
问题
你的2021年秋招进展怎么样了
01
自我介绍
软件工程硕士,10年工作经验,具备技术管理、产品带队经验。主要做过的系统包括:电商业务系统开发、新闻信息流推荐、图像等相关工作。6年Java开发和管理经验,4年大数据、新闻信息流等开发经验。针对学历问题呢?自考本科,在职硕士,总之学历上相比于全日制的话比较弱势,但自己更多的是工作经验吧。
接下来呢,针对面试过程中的知识进行整理,希望能对大家找相关的工作有帮助。
02
过程
1.学习经历
由于自己是自考本科,基础较差相对比较弱势。从2017年左右就一直学习咱们七月在线的课程,学习过很多内容,包括:初级的机器学习、深度学习、中级的集训营、高级的NLP就业班。总之,无论理论还是实践对已经工作多年的我来说非常有用。让我收获的不仅是知识,更多的是人脉和系统化的学习思维。也是在这里提升了自己的能力,从而提升了信心。跨入了大厂的门槛。
面试的公司主要有:小的公司、美团、快手、新浪、soul、滴滴、BAT公司。强调一点:无论小公司还是大公司,重要的是简历和项目的匹配度、工作同学的忠诚度、面试人员软实力(沟通能力,管理能力等,话说就是顺眼不) 都是考核的因素。针对工作不久的同学来说,重点是项目和刷题。
最后,暂计划入职BAT中某一家吧(基本情况:5轮技术面试->然后后续的HR和经理相关的面试,前后7轮吧。关于背调只能说非常严格,故:大家简历真实,不能过度包哦。诚信才是工作第一要素。)
2.面试准备
关于面试题目,从三个大的方面准备:数据结构,机器学习知识,NLP面试相关题目。
2.1 数据结构
必备知识,当然也不是说一定要刷200,甚至更多的题目再去面试。因为准备是永远都准备不好的,也就是说,大家随时准备去面试就可以来。
当然,如果大家时间不是很允许的话,我们也一定要把一些基础的题目刷下:
字符串相关(字符串转整数,找出数组k大,有序数组合并,公共子串等)
数组类 (排序相关、连续数组最大等)
链表类型题目(反转、合并有序链表、判断有环 这类题目很多)
二叉树操作(先序、中序、后序遍历这种题目)
总之,这一部分,一定要刷,刷刷刷刷刷刷刷刷!!!!!!
2.2 机器学习知识
LR,GBDT,xgboost,CRF、SVM这些常考即可。
上述涉及到的原理、公式推导、损失函数之类要掌握,面试的时候基本上就没什么大的问题。
建议:如果大家有时间,最终可以把上述提到的算法通过代码方式实现一篇(可以找些比赛的数据,例如:kaggle,或者github等),这样可以加深印象。
2.3 NLP面试题目
大家本身就是NLP岗位工作,故这方面的内容相对比较多。其实主要两个方面:工作项目+理论知识:
embedding 的一些知识(必须掌握,原理和区别)
word2vec-> elmo->bert
这部分内容非常的多,故我们针对每个模块掌握:原理、损失函数、模型数据输入和输出。
关于分类算法介绍(一般是针对你项目中,如果有文本分类的话)
textcnn-> fasttext->bilstm-> bert分类
由于上述算法都可以进行文本分类,针对原理和实现要掌握。同时这里也要掌握一些传统的机器学习文本分类的算法(lr,xgboost,svm,adaboost..),毕竟工作中有时并不是非要用深度学习,传统的机器学习也是必备的。
03
经验心得
1.关于简历
一份好的简历,对你找工作来说已经成功了一半。所以,建议大家认真整理自己的简历内容。
第一点:针对简历项目内容
如果之前是从事于NLP或者数据相关的话,把自己的工作内容梳理好,然后把工作项目结合培训课程,归纳整理就可以了。
总之,对简历项目部分还是多练习(自己工作项目、比赛项目、github类似项目等拿来学习),再次提醒:一定要自己亲自手写代码哦( 哪怕自己抄呢,总之写出来才能有更深的理解)
第二点:简历真实性
无论你是刚入社会的新人还是工作多年的同学。那么,我们在写简历的时候,不要过度包装,尽可能真实(因为你要进入大厂的话,这是必须的。除非你在一些小的公司徘徊)。当然,适当包装下还是可以的,但是一定谨记:无论何时,诚信是非常重要的。
关于面试公司,前前后后经历过很多,总之,建议大家首先找一些小公司-> 中型公司-> 大厂。每次面试完成,自己多总结归纳,修复简历中的不足。
2.面试常见问题总结
这里不包括数据结构的内容,把NLP和机器学习的相关题目总结归纳下,供大家参考。
建议:
针对每个问题,大家如何有条件和时间,最好可以通过代码方式实现或者查看下源码如何实现的。总之,想尽一切办法加深对每个算法的理解。
常见激活函数
不同优化器区别
word2vec原理、损失函数、两种模型架构区别和联系
word2vec和fasttext 区别
word2vec 和 bert区别
L1和L2区别(数学上、几何上等说明)
传统机器学习算法原理(LR、GBDT、xgboost、SVM、CRF)
LSTM 几个重要的公式和画图
BiLSTM+CRF 在NER中的损失函数是什么
Attention、self-attention、transformer 理解
TF-IDF 和 TextRank关键字介绍
ResNet网络理解,在图像中应用,扩展相关网络结构介绍
ELMO和BERT区别
机器学习评价指标
样本不均衡处理问题
最大似然了解吗?和 逻辑回归的关系
距离和相似度算法介绍
过拟合解决方案
决策树和随机森里区别
GBDT原理、和RF区别、数据归一化问题
XGBoost原理、多分类问题、损失函数、正则化项
介绍HMM和CRF
文本聚类原理、概念、介绍集中聚类方法
多分类和二分类损失函数是什么?区别和联系
机器学习各种熵介绍(KL散度、信息熵、交叉熵、最大熵..)
3.个人感言:
无论你是工作多年的人员,还是在校大学生,选择七月在线,选择自己美好的未来。
最后,感谢七月在线,感谢同学们,祝各位同学们学有所成,都能找到一份满意的工作。
关注公众号
获取更多资料干货
七月在线
完整面试经验,点击"阅读原文"跳转进入。