GECCO易用的轻量化的网络爬虫

联合创作 · 2023-09-29 13:31

Gecco是什么

Gecco是一款用java语言开发的轻量化的易用的网络爬虫。Gecco整合了jsoup、httpclient、fastjson、spring、htmlunit、redission等优秀框架,让您只需要配置一些jquery风格的选择器就能很快的写出一个爬虫。Gecco框架有优秀的可扩展性,框架基于开闭原则进行设计,对修改关闭、对扩展开放。同时Gecco基于十分开放的MIT开源协议,无论你是使用者还是希望共同完善Gecco的开发者,欢迎pull request。如果你喜欢这款爬虫框架请star 或者 fork!

参考手册

主要特征

  •  简单易用,使用jquery风格的选择器抽取元素

  •  支持页面中的异步ajax请求

  •  支持页面中的javascript变量抽取

  •  利用Redis实现分布式抓取,参考gecco-redis

  •  支持结合Spring开发业务逻辑,参考gecco-spring

  •  支持htmlunit扩展,参考gecco-htmlunit

  •  支持插件扩展机制

  •  支持下载时UserAgent随机选取

  •  支持下载代理服务器随机选取

浏览 4
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报