出版了两本Python爬虫相关的书
离上一次公众号发布文章(2020年04月10日)已经过去了三年,三年前规划写一本书,如今已经正式在清华大学出版社出版。本来是计划出版一本Python爬虫从业者必备的基础能力体系书籍,但是因为内容多了一些,后面拆分为两本书,这两本书分别是《Python爬虫实战基础》和《Python爬虫实战进阶》,以我从零开始转型Python开发的经验来构建的知识体系。
为什么要写这样一本书?首先不是为了赚钱,因为从开始我就知道写书是一件很苦逼但是不赚钱的事情,比起做网课来说并不具备性价比。写这本书的目的,纯粹是一腔热血,以及年少无知的情怀,还有就是幻想着很多年后,我不在了,但是互联网上还能搜到这本书,这本书上还有我的名字,我想是一件比较酷的事情。当然我在这两本书前言部分,也陈述了我之所以出版这两本的想法:
我是非科班出身的程序员,转行做 Python 网络爬虫开发和 Python 全栈开发,从零基础到掌握网络爬虫开发的全体系技术,一路走过很多曲折的道路。写本书的原因之一是帮助与我曾经一样不知道如何提升方向、在网络爬虫领域还比较迷茫的读者。在技术道路上没有速成的捷径,如果说有,那就是昼夜兼程的学习和实践,希望本书能对读者达到一种抛砖引玉的效果。我曾就职于 Synnex ,这是一家优秀的世界五百强公司。在职时,我从事流程自动化方面的工作,遇到了平易近人的 Leader 及一群友好和富有爱心的同事,他们在技术提升和视野开阔方面给予了我很大的帮助,在这里感谢他们。同时,我在个人博客中不断地总结,这个习惯也为我写本书奠定了文字基础。因为感觉不成体系,为了更系统地学习和总结,我萌生了写这本书的想法,这也是写本书的另一个原因。在离开 Synnex 、向更高技术台阶奋进的同时,我也开启了本书的编写。
写完这本书之后有什么感想?一方面还是比较佩服自己,也佩服那些出书的大佬,自己走过来才知道其中的艰难。另一方面是感觉在Python爬虫领域自己的路道阻且长,技术上远达不到大佬的水平,还需要深入学习。当然,最后还是希望这两本书能够帮助到有需要的人。
写书的过程?这本书是2020年伊始的时候开始立项,那个时候正是新冠疫情最为迅猛的阶段,我义无反顾的从老东家裸辞,开始了新的旅程。辞职之后的一段时间,开始专注写书,一个月后入职了我现在的公司,就利用平时下班时间和周末及节假日时间编写,整个过程持续了两年左右,然后到了2022年左右交稿,就开始了断断续续的审稿和改稿阶段,直到今年五月份正式开始出版印刷。写书的过程,也会涉及到自己陌生的领域,这种时候就过google然后自己写代码验证,整个过程收获是很多的,不过现在基本忘完了。如果那个时候有chatGPT,应该会轻松很多,也会顺利很多。
其他想说的话。时光荏苒,已经过去了三年多了,就像是一场穿越,2020到2023年,其中从开始关注本公众号的粉丝,也有不同的际遇,但是经过了三年成长,相信大家都达到了自己想要的高度,在这里也祝愿各位公众号粉丝成为技术大佬,心想事成。
好了废话不说了,下面是这两本书的目录和下单链接,现在购买都是定价的七八折的样子。
《Python爬虫实战进阶》本书指出 Python 网络爬虫开发从业者的提升方向。在分布式爬虫方面,通过对 Scrapy 框架源码进行剖析,全面掌握 Scrapy 的设计理念;在异步编程方面,从异步编程原理到异步请求再到数据库、文件读写的异步操作,对全体系做了全面介绍;在异步编程的思想上,再详细介绍异步的自动化浏览器库 pyppeteer ;在反爬虫方面,对指纹技术、滑动验证、字体和 CSS 样式反爬虫技术、动态渲染、图片验证码处理等方面对其原理进行剖析,对处理方案做深入介绍,图片验证码处理还涉及机器学习的内容;在分布式爬虫的设计上,通过不同的消息中间件设计满足具体业务场景的分布式框架,如基于 RabbitMQ 的分布式设计、基于 Kafka 的分布式设计和基于 Celery 的分布式设计;在编码和加密方面,讲解了编码原理和常用的集中加密算法,如 DES 、 AES 、 MD5 和 SHA ;在 JavaScript 安全分析方面,对目前前端常用的反爬虫措施进行深入分析,同时对目前流程的混淆与还原进行全面的介绍;在搜索引擎技术方面,对搜索引擎原理、搜索引擎的实现过程做介绍,并通过 Elasticsearch 实现一个垂直领域的搜索服务。
目录
购买
《Python爬虫实战基础》
购买