R 和 Python用于统计学分析,哪个更好?

共 1278字,需浏览 3分钟

 ·

2022-05-24 15:30

知乎有人提问,R 和 Python (numpy scipy pandas) 用于统计学分析,哪个更好?

从专业角度来看,「R在统计分析领域肯定是强于Python的。」

毕竟R这门语言本身就是为统计而生的,而且是统计学专家在维护R社区,沉淀了数理统计领域众多权威算法、函数、工具。

同时R的可视化功能也非常强大,很多顶级期刊论文也都用R做分析工具。

R不光比Python在统计上更强大,甚至和SAS、SPSS这些商业软件对比也不落下风,而且更灵活。

所以如果你的工作涉及重要的统计工作,建议用R。stackoverflow上有很多R的专业回答,但R在中文领域资料很少,要学好英文。

R的官方文档:https://cran.r-project.org/doc/manuals/r-release/R-intro.html

R包学习:https://cran.r-project.org/web/packages/available_packages_by_name.html

R入门书籍:《R语言实战》、《R语言编程艺术》

但R有两个缺点,首先语法比较绕,学习路径很陡峭;

再者应用领域集中在数理统计、可视化、机器学习上,拓展性稍弱。

而Python完美了解决了这两个问题,对初学者极其友好,网上有无数的Python资源。

并且Python出了统计分析,还能做各种各样的事,web、爬虫、GUI、自动化、AI等等,几乎无所不能。

对于统计分析领域,Python目前也有很多解决方案,虽然不及R专业,但基本上能满足95%以上的需求。比如说:

Scipy-科学计算库,包含的功能有最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信号处理和图像处理、常微积分求解等其他科学与过程中常用的计算。

Numpy-数值计算库,提供了强大的数组计算功能,可用来存储和处理大型矩阵,比Python自身的嵌套列表结构要高效的多,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。

StatsModels-统计建模库,提供了包含统计模型、统计测试和统计数据挖掘的各种函数和模块。

Pandas-数据分析库,基于NumPy的一种工具,为解决数据分析任务而生。纳入大量库和一些标准的数据模型,提供高效地操作大型数据集所需的工具及大量的能快速便捷处理数据的函数和方法。

Sympy-科学计算库,类似matlab,用一套强大的符号计算体系完成诸如多项式求值、求极限、解方程、求积分、微分方程、级数展开、矩阵运算等等计算问题。

...

如果你的工作中只是偶尔会用到统计分析,还会兼顾其他数据场景,那么建议你用Python,可以囊括你所有的需求。

如果你的工作场景会涉及到大数据,那么可以考虑Scala作为补充。

下面是R、Python、Scala三种语言在数据分析领域最受欢迎的工具包,供参考:

加入知识星球【我们谈论数据科学】

500+小伙伴一起学习!








· 推荐阅读 ·

盘点2021最佳数据可视化作品

一行代码实现地址信息解析

新一代Python包管理工具来了


浏览 50
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报