发现一个练习爬虫的网站
共 1708字,需浏览 4分钟
·
2020-08-17 07:13
网址:https://scrape.center/
以下是作者@崔庆才丨静觅的对每个站点的详细解释,
SSR 网站
ssr1:猫眼电影数据网站,数据通过服务端渲染,适合基本爬虫练习。
ssr2:HTTPS 无效证书网站,适合做跳过验证 HTTPS 案例。
ssr3:HTTP Basic Authentication 网站,适合做 HTTP 认证案例,用户名密码均为 admin。
ssr4:每个响应增加了 5 秒延迟,适合测试慢速网站爬取或做爬取速度测试,减少本身网速干扰。
SPA 网站
spa1:猫眼电影数据网站,数据通过 Ajax 加载,页面动态渲染,适合 Ajax 分析和动态页面渲染爬取。
spa2:猫眼电影数据网站,数据通过 Ajax 加载,数据接口参数加密且有时间限制,适合动态页面渲染爬取或 JavaScript 逆向分析。
spa3:猫眼电影数据网站,数据通过 Ajax 加载,无页码翻页,适合 Ajax 分析和动态页面渲染抓取。
spa4:新闻网站索引,数据通过 Ajax 加载,无页码翻页,适合 Ajax 分析和动态页面渲染抓取以及智能页面提取分析。
spa5:豆瓣图书网站,数据通过 Ajax 加载,有翻页,无反爬,适合大批量动态页面渲染抓取。
spa6:电影数据网站,数据通过 Ajax 加载,数据接口参数加密且有时间限制,源码经过混淆,适合 JavaScript 逆向分析。
验证码网站
captcha1:对接滑动拼图验证码,适合滑动拼图验证码分析处理。
captcha2:对接图标点选验证码,适合图标点选验证码分析处理。
captcha3:对接图文点选验证码,适合图文点选验证码分析处理。
captcha4:对接语序分析验证码,适合语序分析验证码分析处理。
captcha5:对接空间推理验证码,适合空间推理验证码分析处理。
captcha6:对接九宫格识图验证码,适合九宫格识图验证码分析处理。
模拟登录网站
login1:登录时用户名和密码经过加密处理,适合 JavaScript 逆向分析。
login2:对接 Session + Cookies 模拟登录,适合用作 Session + Cookies 模拟登录练习。
login3:对接 JWT 模拟登录方式,适合用作 JWT 模拟登录练习。
反爬型网站
antispider1:WebDriver 反爬网站,检测到 WebDriver 就不显示页面。
antispider2:对接 User-Agent 反爬,检测到常见爬虫 User-Agent 就会拒绝响应,适合用作 User-Agent 反爬练习。
antispider3:对接文字偏移反爬,所见顺序并不一定和源码顺序一致,适合用作文字偏移反爬练习。
antispider4:对接字体文件反爬,显示的内容并不在 HTML 内,而是隐藏在字体文件,设置了文字映射表,适合用作字体反爬练习。
antispider5:限制 IP 访问频率为最多 1 秒一个,如果过多则会封禁 IP。
App
app1:最基本的 App 案例,数据通过接口加载,无反爬,无任何加密参数,适合做抓包分析和请求模拟。
app2:设置了接口请求不走系统代理,因此无法直接抓包,适合做抓包特殊处理。
app3:对系统代理进行了检测,如果设置了代理则无法正常请求数据,适合做抓包特殊处理。
app4:设置了 SSL Pining,如果设置了非法证书则无法正常请求数据,适合做反 SSL Pining 处理。
app5:接口增加了加密参数,适合做抓包实时处理或可视化爬取或逆向分析。
app6:接口增加了加密参数,同时对源码进行了混淆,适合做抓包实时处理或可视化爬取或逆向分析。
app7:接口增加了加密参数,同时对安装包进行了加固处理,适合做抓包实时处理或可视化爬取或逆向分析。
暂且是这么多,后续还会继续增加,大家可以试着爬爬看。