出版了两本Python爬虫相关的书-轻识

离上一次公众号发布文章(2020年04月10日)已经过去了三年，三年前规划写一本书，如今已经正式在清华大学出版社出版。本来是计划出版一本Python爬虫从业者必备的基础能力体系书籍，但是因为内容多了一些，后面拆分为两本书，这两本书分别是《Python爬虫实战基础》和《Python爬虫实战进阶》，以我从零开始转型Python开发的经验来构建的知识体系。

为什么要写这样一本书？首先不是为了赚钱，因为从开始我就知道写书是一件很苦逼但是不赚钱的事情，比起做网课来说并不具备性价比。写这本书的目的，纯粹是一腔热血，以及年少无知的情怀，还有就是幻想着很多年后，我不在了，但是互联网上还能搜到这本书，这本书上还有我的名字，我想是一件比较酷的事情。当然我在这两本书前言部分，也陈述了我之所以出版这两本的想法：

我是非科班出身的程序员，转行做 Python 网络爬虫开发和 Python 全栈开发，从零基础到掌握网络爬虫开发的全体系技术，一路走过很多曲折的道路。写本书的原因之一是帮助与我曾经一样不知道如何提升方向、在网络爬虫领域还比较迷茫的读者。在技术道路上没有速成的捷径，如果说有，那就是昼夜兼程的学习和实践，希望本书能对读者达到一种抛砖引玉的效果。我曾就职于 Synnex ，这是一家优秀的世界五百强公司。在职时，我从事流程自动化方面的工作，遇到了平易近人的 Leader 及一群友好和富有爱心的同事，他们在技术提升和视野开阔方面给予了我很大的帮助，在这里感谢他们。同时，我在个人博客中不断地总结，这个习惯也为我写本书奠定了文字基础。因为感觉不成体系，为了更系统地学习和总结，我萌生了写这本书的想法，这也是写本书的另一个原因。在离开 Synnex 、向更高技术台阶奋进的同时，我也开启了本书的编写。

写完这本书之后有什么感想？一方面还是比较佩服自己，也佩服那些出书的大佬，自己走过来才知道其中的艰难。另一方面是感觉在Python爬虫领域自己的路道阻且长，技术上远达不到大佬的水平，还需要深入学习。当然，最后还是希望这两本书能够帮助到有需要的人。

写书的过程？这本书是2020年伊始的时候开始立项，那个时候正是新冠疫情最为迅猛的阶段，我义无反顾的从老东家裸辞，开始了新的旅程。辞职之后的一段时间，开始专注写书，一个月后入职了我现在的公司，就利用平时下班时间和周末及节假日时间编写，整个过程持续了两年左右，然后到了2022年左右交稿，就开始了断断续续的审稿和改稿阶段，直到今年五月份正式开始出版印刷。写书的过程，也会涉及到自己陌生的领域，这种时候就过google然后自己写代码验证，整个过程收获是很多的，不过现在基本忘完了。如果那个时候有chatGPT，应该会轻松很多，也会顺利很多。

其他想说的话。时光荏苒，已经过去了三年多了，就像是一场穿越，2020到2023年，其中从开始关注本公众号的粉丝，也有不同的际遇，但是经过了三年成长，相信大家都达到了自己想要的高度，在这里也祝愿各位公众号粉丝成为技术大佬，心想事成。

好了废话不说了，下面是这两本书的目录和下单链接，现在购买都是定价的七八折的样子。

《Python爬虫实战进阶》

本书指出 Python 网络爬虫开发从业者的提升方向。在分布式爬虫方面，通过对 Scrapy 框架源码进行剖析，全面掌握 Scrapy 的设计理念；在异步编程方面，从异步编程原理到异步请求再到数据库、文件读写的异步操作，对全体系做了全面介绍；在异步编程的思想上，再详细介绍异步的自动化浏览器库 pyppeteer ；在反爬虫方面，对指纹技术、滑动验证、字体和 CSS 样式反爬虫技术、动态渲染、图片验证码处理等方面对其原理进行剖析，对处理方案做深入介绍，图片验证码处理还涉及机器学习的内容；在分布式爬虫的设计上，通过不同的消息中间件设计满足具体业务场景的分布式框架，如基于 RabbitMQ 的分布式设计、基于 Kafka 的分布式设计和基于 Celery 的分布式设计；在编码和加密方面，讲解了编码原理和常用的集中加密算法，如 DES 、 AES 、 MD5 和 SHA ；在 JavaScript 安全分析方面，对目前前端常用的反爬虫措施进行深入分析，同时对目前流程的混淆与还原进行全面的介绍；在搜索引擎技术方面，对搜索引擎原理、搜索引擎的实现过程做介绍，并通过 Elasticsearch 实现一个垂直领域的搜索服务。

购买

《Python爬虫实战基础》

购买