用Python写网络爬虫

联合创作 · 2023-09-28 18:20

作为一种便捷地收集网上信息并从中抽取出可用信息的方式，网络爬虫技术变得越来越有用。使用Python这样的简单编程语言，你可以使用少量编程技能就可以爬取复杂的网站。

《用Python写网络爬虫》作为使用Python来爬取网络数据的杰出指南，讲解了从静态页面爬取数据的方法以及使用缓存来管理服务器负载的方法。此外，本书还介绍了如何使用AJAX URL和Firebug扩展来爬取数据，以及有关爬取技术的更多真相，比如使用浏览器渲染、管理cookie、通过提交表单从受验证码保护的复杂网站中抽取数据等。本书使用Scrapy创建了一个高级网络爬虫，并对一些真实的网站进行了爬取。

《用Python写网络爬虫》介绍了如下内容：

通过跟踪链接来爬取网站；

使用lxml从页面中抽取数据；

构建线程爬虫来并行爬取页面；

将下载的内容进行缓存，以降低带宽消耗；

解析依赖于Jav...

作为一种便捷地收集网上信息并从中抽取出可用信息的方式，网络爬虫技术变得越来越有用。使用Python这样的简单编程语言，你可以使用少量编程技能就可以爬取复杂的网站。

《用Python写网络爬虫》作为使用Python来爬取网络数据的杰出指南，讲解了从静态页面爬取数据的方法以及使用缓存来管理服务器负载的方法。此外，本书还介绍了如何使用AJAX URL和Firebug扩展来爬取数据，以及有关爬取技术的更多真相，比如使用浏览器渲染、管理cookie、通过提交表单从受验证码保护的复杂网站中抽取数据等。本书使用Scrapy创建了一个高级网络爬虫，并对一些真实的网站进行了爬取。

《用Python写网络爬虫》介绍了如下内容：

通过跟踪链接来爬取网站；

使用lxml从页面中抽取数据；

构建线程爬虫来并行爬取页面；

将下载的内容进行缓存，以降低带宽消耗；

解析依赖于JavaScript的网站；

与表单和会话进行交互；

解决受保护页面的验证码问题；

对AJAX调用进行逆向工程；

使用Scrapy创建高级爬虫。

本书读者对象

本书是为想要构建可靠的数据爬取解决方案的开发人员写作的，本书假定读者具有一定的Python编程经验。当然，具备其他编程语言开发经验的读者也可以阅读本书，并理解书中涉及的概念和原理。

Richard Lawson来自澳大利亚，毕业于墨尔本大学计算机科学专业。毕业后，他创办了一家专注于网络爬虫的公司，为超过50个国家的业务提供远程工作。他精通于世界语，可以使用汉语和韩语对话，并且积极投身于开源软件。他目前在牛津大学攻读研究生学位，并利用业余时间研发自主无人机。

浏览 2

点赞

收藏

分享

举报

评论

图片

表情

用Python写网络爬虫

用Python写网络爬虫

Python 3网络爬虫开发实战

本书介绍了如何利用Python 3开发网络爬虫，书中首先介绍了环境配置和基础知识，然后讨论了urll

Python 3网络爬虫开发实战

Python 3网络爬虫开发实战

五分钟带你学会Python网络爬虫

送书 | Python网络爬虫开发

软件测试test

用 Python 写摸鱼监控进程,用这个!

用Python写一个NoSQL数据库

马哥Linux运维

用python写一个2048游戏

Crossin的编程教室

爬虫| 东鸽再出新书，Python 网络爬虫宝典来袭！

Python编程与实战

goodcrawler网络爬虫

goodcrawler(GC) 网络爬虫GC是一个垂直领域的爬虫，同时也是一个拆箱即用的搜索引擎。G

点赞

收藏

分享

举报