XsoupHTML抽取器认领

0粉丝

Xsoup是基于Jsoup开发的HTML抽取器，提供了XPath支持。相比另一个常用的基于XPath的HTML抽取器HtmlCleaner，Xsoup

简介

Xsoup是基于Jsoup开发的HTML抽取器，提供了XPath支持。相比另一个常用的基于XPath的HTML抽取器HtmlCleaner，Xsoup有较大的性能优势，解析时间和抽取时间都只有HtmlCleaner的一半。同时Xsoup提供全面的XPath解析错误提示。示例代码：@Testpubl... 更多

其它信息

地区

国产

开发语言

Java

开源组织

无

所属分类

Web应用开发、 HTML解析器

授权协议

MIT

操作系统

跨平台

收录时间

2023-09-21

软件类型

开源软件

适用人群

未知

时光轴

里程碑1

LOG0

2023

2023-09

轻识收录

打卡

评价

0.0（满分 10 分）0 个评分

什么是点评分

图片

表情

全部评价( 0)

推荐率 100%

推荐

XsoupHTML抽取器

Xsoup是基于Jsoup开发的HTML抽取器，提供了XPath支持。相比另一个常用的基于XPath

GNE-JS新闻网页正文通用抽取器

GNE-JS是基于论文《基于文本及符号密度的网页正文提取方法》实现的新闻网页正文通用抽取器。在论文中描述的正文提取基础上，还增加了标题、发布时间和文章作者的自动化探测与提取功能。该项目启发自 GNE，

GNE新闻网页正文通用抽取器

GNE新闻网页正文通用抽取器

GNE新闻网页正文通用抽取器

GNE是基于论文《基于文本及符号密度的网页正文提取方法》实现的新闻网页正文通用抽取器。在论文中描述的正文提取基础上，还增加了标题、发布时间和文章作者的自动化探测与提取功能。最后的输出效果如下图所示：本

GNE-JS新闻网页正文通用抽取器

GNE-JS 是基于论文《基于文本及符号密度的网页正文提取方法》实现的新闻网页正文通用抽取器。在论文

Krabber网页抽取工具

Krabber是kVitrail的网页抽取工具。Krabber的设计目标是提供一个可以为Java应用调用的、可以执行网页上的JavaScript代码、并返回JavaScript代码执行后的网页的HTM

webStraktorWeb 数据抽取客户端

webStraktor 是一个可编程的 WWW 数据抽取客户端，提供一个脚本语言用于收集、抽取和存储

Minidx信息抽取组件

Minidx这一组件是专门为开发人员准备的，利用MinidxExtract-TextCom组件,您可以轻松的从Word,Xls,Pdf……等200多种文件格式中读取文本内容。该组件本身用C++编写,以

webStraktorWeb 数据抽取客户端

webStraktor是一个可编程的WWW数据抽取客户端，提供一个脚本语言用于收集、抽取和存储来自Web的数据，包括图片。脚本语言使用正则表达式和XPath语法。标准输出为XML格式，支持ASCII、

Vibrant.jsjQuery 颜色抽取插件

Vibrant.js 是个 JavaScript 库，它可以从一幅图片上抽取颜色。它是 Androi