出版了两本Python爬虫相关的书

共 2589字,需浏览 6分钟

 ·

2023-07-03 12:28

离上一次公众号发布文章(2020年04月10日)已经过去了三年,三年前规划写一本书,如今已经正式在清华大学出版社出版。本来是计划出版一本Python爬虫从业者必备的基础能力体系书籍,但是因为内容多了一些,后面拆分为两本书,这两本书分别是《Python爬虫实战基础》和《Python爬虫实战进阶》,以我从零开始转型Python开发的经验来构建的知识体系。

5c7fd5e2b8dc1d4644b4e5e7c9500a04.webp

aa2f915eb5b21425ac70715bc5696e42.webp

为什么要写这样一本书?首先不是为了赚钱,因为从开始我就知道写书是一件很苦逼但是不赚钱的事情,比起做网课来说并不具备性价比。写这本书的目的,纯粹是一腔热血,以及年少无知的情怀,还有就是幻想着很多年后,我不在了,但是互联网上还能搜到这本书,这本书上还有我的名字,我想是一件比较酷的事情。当然我在这两本书前言部分,也陈述了我之所以出版这两本的想法:

我是非科班出身的程序员,转行做 Python 网络爬虫开发和 Python 全栈开发,从零基础到掌握网络爬虫开发的全体系技术,一路走过很多曲折的道路。写本书的原因之一是帮助与我曾经一样不知道如何提升方向、在网络爬虫领域还比较迷茫的读者。在技术道路上没有速成的捷径,如果说有,那就是昼夜兼程的学习和实践,希望本书能对读者达到一种抛砖引玉的效果。我曾就职于 Synnex ,这是一家优秀的世界五百强公司。在职时,我从事流程自动化方面的工作,遇到了平易近人的 Leader 及一群友好和富有爱心的同事,他们在技术提升和视野开阔方面给予了我很大的帮助,在这里感谢他们。同时,我在个人博客中不断地总结,这个习惯也为我写本书奠定了文字基础。因为感觉不成体系,为了更系统地学习和总结,我萌生了写这本书的想法,这也是写本书的另一个原因。在离开 Synnex 、向更高技术台阶奋进的同时,我也开启了本书的编写。

写完这本书之后有什么感想?一方面还是比较佩服自己,也佩服那些出书的大佬,自己走过来才知道其中的艰难。另一方面是感觉在Python爬虫领域自己的路道阻且长,技术上远达不到大佬的水平,还需要深入学习。当然,最后还是希望这两本书能够帮助到有需要的人。

写书的过程?这本书是2020年伊始的时候开始立项,那个时候正是新冠疫情最为迅猛的阶段,我义无反顾的从老东家裸辞,开始了新的旅程。辞职之后的一段时间,开始专注写书,一个月后入职了我现在的公司,就利用平时下班时间和周末及节假日时间编写,整个过程持续了两年左右,然后到了2022年左右交稿,就开始了断断续续的审稿和改稿阶段,直到今年五月份正式开始出版印刷。写书的过程,也会涉及到自己陌生的领域,这种时候就过google然后自己写代码验证,整个过程收获是很多的,不过现在基本忘完了。如果那个时候有chatGPT,应该会轻松很多,也会顺利很多。

其他想说的话。时光荏苒,已经过去了三年多了,就像是一场穿越,2020到2023年,其中从开始关注本公众号的粉丝,也有不同的际遇,但是经过了三年成长,相信大家都达到了自己想要的高度,在这里也祝愿各位公众号粉丝成为技术大佬,心想事成。

好了废话不说了,下面是这两本书的目录和下单链接,现在购买都是定价的七八折的样子。

《Python爬虫实战进阶》

本书指出 Python 网络爬虫开发从业者的提升方向。在分布式爬虫方面,通过对 Scrapy 框架源码进行剖析,全面掌握 Scrapy 的设计理念;在异步编程方面,从异步编程原理到异步请求再到数据库、文件读写的异步操作,对全体系做了全面介绍;在异步编程的思想上,再详细介绍异步的自动化浏览器库 pyppeteer ;在反爬虫方面,对指纹技术、滑动验证、字体和 CSS 样式反爬虫技术、动态渲染、图片验证码处理等方面对其原理进行剖析,对处理方案做深入介绍,图片验证码处理还涉及机器学习的内容;在分布式爬虫的设计上,通过不同的消息中间件设计满足具体业务场景的分布式框架,如基于 RabbitMQ 的分布式设计、基于 Kafka 的分布式设计和基于 Celery 的分布式设计;在编码和加密方面,讲解了编码原理和常用的集中加密算法,如 DES AES MD5 SHA ;在 JavaScript 安全分析方面,对目前前端常用的反爬虫措施进行深入分析,同时对目前流程的混淆与还原进行全面的介绍;在搜索引擎技术方面,对搜索引擎原理、搜索引擎的实现过程做介绍,并通过 Elasticsearch 实现一个垂直领域的搜索服务。


目录

d60f7d5a02f7478de08f0322b778be18.webp

da18f7011d10bf3a6f71446d734592be.webp

793b827709e540da179936adcd954df4.webp

e9ff0905d084551c7c98f330b11a037d.webp

8ac8493cde82dd3c439d5a5f07d93aee.webp

90e1ddd320a491351e6e3a8976797870.webp









购买


c1f3ac301ffe391385a432b46e75d312.webp


《Python爬虫实战基础》

4f8fa41168389d46d788e23f6ffde8b1.webp

购买

40f2a5cc20946d7ab3d39e6fd2241576.webp

浏览 38
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报