写论文查文献,我可算找到一个高效的办法

Python涨薪研究所

共 1962字,需浏览 4分钟

 ·

2021-04-24 21:45


源 / 顶级程序员        文/ 小象君



“四月了,毕业论文写完了吗?”

 

论文关乎毕业,拿奖金、评职称、争取资金、争取项目,可谓是每个读书人的必经之路。

小象君在大学时候,经常看到这样的状况

写论文前:小意思!



开始写论文:
数据等不到,调研做不了,素材又难找
指导老师只能线上沟通,论文完成难度直线上升
 
前几天后台留言,哭诉找文献找不到的同学越来越多,今天就通过良同学的案例,给大家介绍一个超高效率解决论文的办法。





学员昵称:良

遇到的问题




 

使用Python成效:毕业论文快速找到了合适且全面的文献 ,对论文引用以及整体架构上,有非常大的帮助。


 




学习实录




 
良同学是一位完全零基础的经济学本科生,初期刚学的时候他甚至连中英文标点都要检查好久,自己运行很多次也搞不定,报名Python也是因为自己感兴趣,想多增加一个技能。

 

 

不过他还是在众多打游戏睡觉的室友中鹤立鸡群,坚持每天学习,不管平时上课以及校园活动再忙再累,都顺利完成了语法课,虽然进度很慢,不过后续事实证明良同学基础非常的牢固。
 
有一次助教问他为什么想学Python,得到的回答让老师们感动之余也充满教学的动力!
 
“早就听说Python的神奇,趁着没毕业还有时间,我想多体验一下这门‘属于未来的技术’,之前自学很慢,这次学习因为有各位老师的耐心解答,学起来轻松多了。”
 
不过最近他进度的确落下很多,问问题也不那么勤快了,经过询问才知道是论文查文献太浪费时间,因为进度还没到爬虫,每天泡在图书馆,研究专业领域,根本没时间学课外课程。
 
对此,我们专门针对各大论文文献网站,写出了一份独一无二,超实用的代码,帮助毕业生解放劳动力!
 
很多同学看完之后都反馈代码超级好用!尤其毕业季里相当于雪中送炭。
 
于是良同学也可以提前准备他的毕业旅行计划了耶~


 
良同学的事迹到这里就结束了,让我们来看下这个任务是如何用Python实现的
 
首先:我们要确认以下信息
要爬取的网站:知网
要获取的信息:论文名,论文作者,论文来源,发表时间,隶属于的数据库,被索引的次数,下载次数和下载链接。
 
然后,我们开始写出这代码的逻辑
第一步:这里利用知网的专业检索功能,界面如下所示,比如我们搜索主题是:股票。关键字是:A股的论文。搜索界面如下:


 

因为页数较多,这里使用selenium库进行爬取,它能方便的帮我们提取到网页中的对应元素,而且可以模拟鼠标的点击下一页的操作,方便对下一页的内容爬取。
 
第二步:利用提供的chrome驱动的无界面模式,利用selenium库模拟chrome的操作实现爬取。针对一页具体的数据,这里使用selenium和lxml相结合的方式对网页进行解析,定位到需要爬取的数据。为了防止程序抛出异常,代码中使用了多处try语句。
 
第三步:由于涉及到多页爬取,为了防止爬取太频繁被知网发现,需要每爬取一页让程序自动休眠10秒左右的时间(时间根据时间情况调节即可)
 
第四步:为了便于代码的易读性,构建了一个ways.py的工具,其功能是从外部读取since.xls文件,可以通过该文件自定义需要爬取哪些内容,比如:主题、关键词、作者、机构、基金等,这里利用到了操作excel文件的xlrd库。
 
第五步:把爬取到的内容利用csv库,写入到指定的result.csv文件中。
 
按照这个逻辑完成代码之后,爬取完成,以下为部分代码展示:



我们来看下结果

 

 




同学寄语




能接触到Python是我大学期间最幸运的事,通过这次论文我才知道,我以前对Python的理解太虚无,总想着用它去创造改变未来的事情,没想到,它的实用近在眼前,就拿论文爬取这件事来讲,通过简单的调取库就可以实现爬取海量资源,就可以节省我大量时间,还可以通过数据分析洞察行业的信息,对于学经济的我来说,仿佛打开另一个世界的大门。现在我已经把python爬虫和数据分析都学完了,带着目标和解决问题的心态学习甚至解决了我的拖延症,新知识不断涌入头脑的感觉太棒了!


扫码,给自己一个改变的机会!


 





—  —

一键三连「分享」、「点赞」和「在看」

技术干货与你天天见~


浏览 28
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报