数据分析简明学习路线

Python与算法社区

共 1029字,需浏览 3分钟

 ·

2020-11-19 23:23

Python与算法社区
434篇原创,干货满满
值得星标


01

02

03


三步加星标






数据分析能力,未来会越来越重要。之前推送过很多篇相关文章,基于此再扼要总结,广义上数据分析的学习路线,此处数据分析我延伸到建模部分,只为了从宏观上更清楚的认识,数据分析和数据建模是如何从零到上线,并应用于生产实践与指导中的。


数据分析思维贯穿始终,前几天推送过数据分析必知的 9 种思维


有了数据才能分析,数据获取方法至关重要,常见的:公司大数据平台,通过爬虫获取,第三方数据接口,公开的数据集等。爬虫常用框架Beautiful Soup,requests,urllib模块,lxml包,正则技术,html结构,对于动态网页爬取JS必不可少。


数据爬取后就要存储它,一般数据量,MongoDB,Mysql,大数据量,Hive和Spark,实时查询ES弹性数据库等。


下一步,数据预处理,包括数据转化 data transform:数据标准化、离散化等;数据清洗:异常值、缺失值、数据不均衡处理;数据集成:多个数据源规整到一起:merge,join等。


然后,数据分析,先拿excel折腾一回,函数分三类:SUM为代表聚合类、VLOOK为代表查询类、IF为代表逻辑类;数据再多的,拿Pandas分析一番,做做EDA(探索性分析),再大的使用Spark分析。


EDA后,会提出一些针对性的问题,尝试去建模,借助统计学工具,机器学习(传统的十几种常用算法)、深度学习(几个经典网络模型)开展回归、聚类分析,进而确定模型的各个参数,完成学习和建模。


得到模型上线部署后,要想业务人员看懂,还得要数据可视化,制作各种报表,这些才是对外交流的材料。


最后讲给业务人员,确保能够给他们解释清楚。应用到生产中后,业务和客户会不断反馈,然后我们再去不断迭代模型,再上线,再收到反馈,一直循环往复下去。


大概来讲,以上就是数据分析的完整过程,可能遗漏有些环节,读者们留言补充。顺便说一句,模型的可解释性挺重要,趋向简单化,更容易解释给用户,实际项目中会省去很多麻烦。


如果想看更详细的数据分析指导路线,我可以发你一个之前总结的PDF,备注:路线


不必打赏
给我点个赞
就心满意足了
浏览 34
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报