爬虫必知必会的3款神器插件

玩转GitHub

共 1692字,需浏览 4分钟

 ·

2020-08-06 13:54






前言

1.写过爬虫和网页解析的人都知道,在定位、获取xpath路径上要花费大量的时间,甚至有时候当爬虫框架成熟之后,基本上主要的时间都花费在了页面的解析上。

在没有这些辅助工具的日子里,我们只能通过搜索html源代码,定位一些id去找到对应的位置,非常的麻烦,而且经常出错。

2.在爬虫的过程中,看到的页面有可能是通过JavaScript渲染后的结果,这时html也是渲染的结果,

那么,如何通过禁止JavaScript的执行,来查看最原始的代码是什么样的。

3.有些网站做反爬虫处理,该如何切换代理呢?

所以今天推荐这三款爬虫的谷歌插件!

分享一个chrome浏览器的小技巧

比如现在我们在抓取 博客园首页的文章xpath 路径

打开 开发者工具,鼠标选中标题元素上,右键》Capy 即可获取xpath。

执行capy xpath,获取标题元素在当前父节点的xpath

//*[@id="post_list"]/div[1]/div[2]/h3/a

执行capy full xpath,获取标题元素的在html文档中的完整xpath

/html/body/div[1]/div[4]/div[6]/div[1]/div[2]/h3/a

我觉得这样还不够方便,毕竟你复制了没法即时查看。所以我们需要这款开源的爬虫利器!

1. Xpath Helper

xpath helper插件是一款免费的chrome爬虫网页解析工具。

可以帮助用户解决在获取xpath路径时无法正常定位等问题。

该插件主要能帮助你在各类网站上通过按shift键选择想要查看的页面元素来提取查询其代码,同时你还能对查询出来的代码进行编辑,而编辑出的结果将立即显示在旁边的结果框中。

image

XPath调试

安装好Xpath Helper后,我们再来抓取 博客园首页的文章xpath 路径。

  • 打开xpath-helper工具
  • 复制好 xpath到左边的输入框
  • 右边输入框将显示xpath定位元素的文本内容

这样就可以在输入文本框中输入相应 XPath 进行调试了,提取的结果将被显示在旁边的 Result 文本框中。

2. Proxy SwitchyOmega

轻松快捷地管理和切换多个代理设置。

快速切换 HTTP / Socks 代理的插件,还能根据匹配地址自动切换。另一个技巧是配合 Charles、Burp Suite 这类抓包工具,这些工具使用时需要设置本地代理,可以提前设置好用时就切换。

3.Toggle JavaScript

在爬虫的过程中,看到的页面有可能是通过JavaScript渲染后的结果,这时html也是渲染的结果,

那么,可以通过禁止JavaScript的执行,来查看最原始的代码是什么样的。

装了Toggle JavaScript插件以后,用户就可以使用该插件的按钮,快速地切换chrome的javascript功能,当用户访问网页的时候,受到javascript的“骚扰”时,可以果断使用Toggle JavaScript禁用到js的运行。

功能特点:

1.全局JavaScript主开关

2.禁用JavaScript时可靠地重新加载页面


如果你也有好的开源项目,欢迎推荐!

微信联系:westbrook12000

往期推荐:


卧槽:第一次见这么牛x的网站!
一招搞定github下载速度到2MB/s
推荐:Asp.Net Core开源免费的内容管理系统



回复 【关闭】学关闭微信朋友圈广告
回复 【实战】获取20套实战源码
回复 【福利】获取最新微信支付有奖励
回复 【被删】学查看你哪个好友删除了你巧
回复 【聊天记录】学备份/恢复聊天记录
回复 【访客】学微信查看朋友圈访客记录
回复 【卡通】学制作微信卡通头像
回复 【python】学微获取全套0基础Python知识手册
回复 【临时】获取临时接收短信、邮箱验证码网址列表



浏览 19
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报