一个入门级python爬虫教程详解

共 3298字,需浏览 7分钟

 ·

2021-01-29 13:06


这篇文章主要介绍了一个入门级python爬虫教程详解,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下

前言

本文目的:根据本人的习惯与理解,用最简洁的表述,介绍爬虫的定义、组成部分、爬取流程,并讲解示例代码。

基础

爬虫的定义:定向抓取互联网内容(大部分为网页)、并进行自动化数据处理的程序。主要用于对松散的海量信息进行收集和结构化处理,为数据分析和挖掘提供原材料。

今日t条就是一只巨大的“爬虫”。

爬虫由URL库、采集器、解析器组成。

流程

如果待爬取的url库不为空,采集器会自动爬取相关内容,并将结果给到解析器,解析器提取目标内容后进行写入文件或入库等操作。

代码

第一步:写一个采集器

如下是一个比较简单的采集器函数。需要用到requests库。
首先,构造一个http的header,里面有浏览器和操作系统等信息。如果没有这个伪造的header,可能会被目标网站的WAF等防护设备识别为机器代码并干掉。

然后,用requests库的get方法获取url内容。如果http响应代码是200 ok,说明页面访问正常,将该函数返回值设置为文本形式的html代码内容。

如果响应代码不是200 ok,说明页面不能正常访问,将函数返回值设置为特殊字符串或代码。

  1. import requests

  2.  

  3. def get_page(url):

  4. headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'}

  5. response = requests.get(url, headers= headers)

  6. if response.status_code == 200:

  7. return response.text

  8. else:

  9. return 'GET HTML ERROR !'

第二步:解析器

解析器的作用是对采集器返回的html代码进行过滤筛选,提取需要的内容。
作为一个14年忠实用户,当然要用豆瓣举个栗子 _

我们计划爬取豆瓣排名TOP250电影的8个参数:排名、电影url链接、电影名称、导演、上映年份、国家、影片类型、评分。整理成字典并写入文本文件。

待爬取的页面如下,每个页面包括25部电影,共计10个页面。

在这里,必须要表扬豆瓣的前端工程师们,html标签排版非常工整具有层次,非常便于信息提取。

下面是“肖申克的救赎”所对应的html代码:(需要提取的8个参数用红线标注)

根据上面的html编写解析器函数,提取8个字段。该函数返回值是一个可迭代的序列。
我个人喜欢用re(正则表达式)提取内容。8个(.*?)分别对应需要提取的字段。

  1. import re

  2.  

  3. def parse_page(html):

  4. pattern = re.compile('(.*?).*?.*?(.*?).*?

  5. items = re.findall(pattern , html)

  6. for item in items:

  7. yield {

  8. 'rank': item[0],

  9. 'href': item[1],

  10. 'name': item[2],

  11. 'director': item[3].strip()[4:],

  12. 'year': item[4].strip(),

  13. 'country': item[5].strip(),

  14. 'style': item[6].strip(),

  15. 'score': item[7].strip()

  16. }

提取后的内容如下:

整理成完整的代码:(暂不考虑容错)

  1. import requests

  2. import re

  3. import json

  4.  

  5. def get_page(url):

  6. #采集器函数

  7. headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'}

  8. response = requests.get(url, headers= headers)

  9. if response.status_code == 200:

  10. return response.text

  11. else:

  12. return 'GET HTML ERROR ! '

  13.  

  14.  

  15. def parse_page(html):

  16. #解析器函数

  17. pattern = re.compile('(.*?).*?.*?(.*?).*?

  18. items = re.findall(pattern , html)

  19. for item in items:

  20. yield {

  21. 'rank': item[0],

  22. 'href': item[1],

  23. 'name': item[2],

  24. 'director': item[3].strip()[4:],

  25. 'year': item[4].strip(),

  26. 'country': item[5].strip(),

  27. 'style': item[6].strip(),

  28. 'score': item[7].strip()

  29. }

  30.  

  31.  

  32. def write_to_file(content):

  33. #写入文件函数

  34. with open('result.txt' , 'a' , encoding = 'utf-8') as file:

  35. file.write(json.dumps(content , ensure_ascii = False) + '\n')

  36.  

  37.  

  38. if __name__== "__main__":

  39. # 主程序

  40. for i in range(10):

  41. url= 'https://movie.douban.com/top250?start='+ str(i*25)+ '&filter'

  42. for res in parse_page(get_page(url)):

  43. write_to_file(res)

非常简洁,非常符合python简单、高效的特点。

说明:

需要掌握待爬取url的规律,才能利用for循环等操作自动化处理。
前25部影片的url是https://movie.douban.com/top250?start=0&filter,第26-50部影片url是https://movie.douban.com/top250?start=25&filter。规律就在start参数,将start依次设置为0、25、50、75。。。225,就能获取所有页面的链接。parse_page函数的返回值是一个可迭代序列,可以理解为字典的集合。运行完成后,会在程序同目录生成result.txt文件。内容如下:

到此这篇关于一个入门级python爬虫教程详解的文章就介绍到这了!

扫下方二维码加老师微信

或是搜索老师微信号:XTUOL1988【切记备注学习Python】

领取Python web开发,Python爬虫,Python数据分析,人工智能等学习教程。带你从零基础系统性的学好Python!

也可以加老师建的Python技术学习教程qq裙:245345507,二者加一个就可以!

欢迎大家点赞,留言,转发,转载,感谢大家的相伴与支持


万水千山总是情,点个【在看】行不行

*声明:本文于网络整理,版权归原作者所有,如来源信息有误或侵犯权益,请联系我们删除或授权事宜



浏览 33
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报