BoilerpipeHTML 正文内容提取库

联合创作 · 2023-09-28 11:56

Boilerpipe 是一个能从 HTML 中剔除广告和其他附加信息，提取出目标信息（如正文内容、发布时间）的 Java 库。其算法的基本思想是通过训练获得一个分类器来提取出我们需要的信息。

Boilerpipe 的包结构：

boilerpipe，根目录

document，文档包，定义了 boilerpipe 所处理文档数据类型，主要包括 TextDocument 和 TextBlock 。一个 TextDocument 即一个网页，由多个 TextBlock 构成。

lables，标签，每个 TextBlock 都有一个 lable 字段，表示该 TextBlock 的属性（如是不是正文）。

filters，过滤器，定义了多个过滤器，过滤器的作用即对 TextBlock 进行过滤，使用机器学习、统计、启发式方法等数据挖掘算法判断哪些 TextBlock 是所需要的（正文段），给 TextBlock 加上 lable ，去除无关的 TextBlock 。

sax，SAX 解析器，定义了从各种来源获取并解析网页的方法。

extractors，提取器，提取流程的入口。每个 extractor 都定义了自己的提取方法，通过调用不同的 filter 达到不同的处理效果。

conditions，条件判断，判断一个 TextBlock 是否满足特定的条件。

estimators，评估器，评估一个 extractor 对特定 document 的提取效果。

调用关系图示：

介绍内容摘自：CSDN

浏览 7

点赞

收藏

分享

举报

评论

图片

表情

BoilerpipeHTML 正文内容提取库

Boilerpipe是一个能从HTML中剔除广告和其他附加信息，提取出目标信息（如正文内容、发布时间）的Java库。其算法的基本思想是通过训练获得一个分类器来提取出我们需要的信息。Boilerpipe

CruxHTML 正文内容提取库

Crux 是一个 HTML 正文内容提取库，它通过分析 Web 页面，以确定一篇文章的关键内容。该库

CruxHTML 正文内容提取库

Crux 是一个 HTML 正文内容提取库，它通过分析Web 页面，以确定一篇文章的关键内容。该库由多个独立的API组成，可随意选择想使用的那个。比如说，如果你在Android应用中使用Crux，则可

HtmlSuckerHTML 正文提取工具

HtmlSucker是一个用来从一个网页中提取文章信息的小工具包，例如从网页中提取文章标题、作者、发布时间、封面图以及文章正文内容。基于 jsoup 库进行HTML解析。HtmlSucker提取文章正

HtmlSuckerHTML 正文提取工具

HtmlSucker 是一个用来从一个网页中提取文章信息的小工具包，例如从网页中提取文章标题、作者、

Html2ArticleHtml网页正文提取

.NET平台下，一个高效的从Html中提取正文的工具。正文提取采用了基于文本密度的提取算法，支持从压缩的Html文档中提取正文，每个页面平均提取时间为30ms，正确率到95%以上。Html2Artic

Html2ArticleHtml网页正文提取

.NET平台下，一个高效的从Html中提取正文的工具。正文提取采用了基于文本密度的提取算法，支持从压

textractPython 文本提取库

textract 是一个 Python 库，用来从各种文档中提取文本信息。示例代码：# some p

textractPython 文本提取库

textract是一个Python库，用来从各种文档中提取文本信息。示例代码：# some python fileimport textracttext = textract.process("pat

ShotokuJava内容库存取

Shotoku 的目的是为了提供方便的内容库，您可以在其中存储的数据，结合数据，修订内容，并提供分支

点赞

收藏

分享

举报