新闻平台聚合之腾讯新闻爬虫发布-轻识

这是月小水长的第 64 篇原创干货

idea of startproject

对于 web 开发者而言，目前各大新闻门户网站，新浪新闻，百度新闻，腾讯新闻，澎湃新闻，头条新闻并没有提供稳定可用的 feed api。
对于 nlper，缺乏足够的新闻语料数据集来供训练。
对于新闻传播/社会学/心理学等从业者，缺乏获取新闻数据的简单易用途径来供分析。
如果上面三点是某见识所限，其实并不存在的话，第 4 点，则是某的私心，某以为互联网的记忆太短了，热搜一浪盖过一浪，所以试图定格互联网新闻的某些瞬间，最后会以网站的形式发布出来。

project 的 github 地址

https://github.com/Python3Spiders/AllNewsSpider

继承自澎湃新闻网站全站新闻爬虫及各大新闻平台聚合爬虫发布，本篇是新闻系列的第二篇，以腾讯新闻为目标网站

该爬虫实现的主要功能罗列如下：

再说说如何使用（默认读者均有 python3.6+ 环境）

将仓库 tencent文件夹下的 tencent_news_spider.pyd 文件下载到本地，新建项目，把 pyd 文件放进去
项目根目录下新建 runner.py，写入以下代码即可运行并抓取
```
import tencent_news_spider
tencent_news_spider.main()
```

开始运行时会提示输入爬取到哪一页，默认是 20 页，爬取过程中是下面这样的。

爬取结束了，会在当前目录下生成一个 腾讯新闻.xlsx文件，里面保持了四个 category 的所有网站上可浏览的文本新闻，一个 category 对应一个 sheet_name。

1、新浪新闻爬虫

2、nytimes 纽约时报爬虫

3、thetimes 泰晤士报爬虫

阅读原文即可直达该爬虫的 Github 地址。