ArXiv170万篇论文数据集上线Kaggle!
大数据文摘出品
学术圈的朋友对ArXiv肯定都不陌生。
在将近30年的时间里,ArXiv通过公开访问学术文章为公众和研究社区提供了一个更高效的学术成果沟通平台,从物理学到计算机科学的许多子学科,以及介于两者之间的所有内容,包括数学,统计学,电气工程,定量生物学,和经济学。
在当今全球面临独特挑战的时代,从数据中有效提取见解至关重要。而在数据圈,Kaggle是数据科学家和机器学习工程师寻求有趣的数据集的最大宝藏之地:这里有各种notebook和竞赛,相关从业者和研究人员可以利用Kaggle提供的数据探索工具,轻松地与他人共享相关脚本和输出。
那么,二者结合会产生什么化学效应呢?
为帮助使arXiv更加易于访问,aixiv近日宣布,向Kaggle提供机器可读的arXiv数据集!
链接:
目前,arXiv开放给kaggle的内容非常丰富,包括170万篇文章,其相关功能包括文章标题,作者,类别,摘要,全文PDF等。
该数据集数据量级高达1.1TB,并且还会持续更新。包含的内容如下:
id:arXiv ID; submitter; authors; title; comments; journal-ref; doi; abstract; categories; versions。
实习/全职编辑记者招聘ing
加入我们,亲身体验一家专业科技媒体采写的每个细节,在最有前景的行业,和一群遍布全球最优秀的人一起成长。坐标北京·清华东门,在大数据文摘主页对话页回复“招聘”了解详情。简历请直接发送至zz@bigdatadigest.cn
评论