Html2ArticleHtml网页正文提取认领

0粉丝

.NET平台下，一个高效的从Html中提取正文的工具。正文提取采用了基于文本密度的提取算法，支持从压缩的Html文档中提取正文，每个页面平均提取时间为

简介

.NET平台下，一个高效的从Html中提取正文的工具。正文提取采用了基于文本密度的提取算法，支持从压缩的Html文档中提取正文，每个页面平均提取时间为30ms，正确率到95%以上。Html2Article有如下特点：标签无关，提取正文不依赖标签。支持从压缩的html文档中提取正文内容。支持带标签输出... 更多

其它信息

授权协议

Apache

开发语言

C#

操作系统

Windows

软件类型

开源软件

所属分类

Web应用开发、 HTML解析器

开源组织

无

地区

国产

适用人群

未知

时光轴

里程碑1

LOG0

2023

09-21

轻识收录

打卡

评价

0.0（满分 10 分）0 个评分

10分

什么是点评分

图片

表情

全部评价( 0)

推荐率 100%

推荐

Html2ArticleHtml网页正文提取

.NET平台下，一个高效的从Html中提取正文的工具。正文提取采用了基于文本密度的提取算法，支持从压

HtmlSuckerHTML 正文提取工具

HtmlSucker是一个用来从一个网页中提取文章信息的小工具包，例如从网页中提取文章标题、作者、发布时间、封面图以及文章正文内容。基于 jsoup 库进行HTML解析。HtmlSucker提取文章正

HtmlSuckerHTML 正文提取工具

HtmlSucker 是一个用来从一个网页中提取文章信息的小工具包，例如从网页中提取文章标题、作者、

BoilerpipeHTML 正文内容提取库

Boilerpipe是一个能从HTML中剔除广告和其他附加信息，提取出目标信息（如正文内容、发布时间）的Java库。其算法的基本思想是通过训练获得一个分类器来提取出我们需要的信息。Boilerpipe

BoilerpipeHTML 正文内容提取库

Boilerpipe 是一个能从 HTML 中剔除广告和其他附加信息，提取出目标信息（如正文内容、发

CruxHTML 正文内容提取库

Crux 是一个 HTML 正文内容提取库，它通过分析 Web 页面，以确定一篇文章的关键内容。该库

CruxHTML 正文内容提取库

Crux 是一个 HTML 正文内容提取库，它通过分析Web 页面，以确定一篇文章的关键内容。该库由多个独立的API组成，可随意选择想使用的那个。比如说，如果你在Android应用中使用Crux，则可

cx-extractor通用网页正文抽取

基于行块分布函数的通用网页正文抽取：线性时间、不建DOM树、与HTML标签无关对于Web信息检索来

ContentExtractor网页正文抽取算法

简介ContentExtractor 是一个开源的网页正文抽取工具，用JAVA实现，具有非常高的抽取

cx-extractor通用网页正文抽取

基于行块分布函数的通用网页正文抽取：线性时间、不建DOM树、与HTML标签无关对于Web信息检索来说，网页正文抽取是后续处理的关键。虽然使用正则表达式可以准确的抽取某一固定格式的页面，但面对形形色色的