ContentExtractor网页正文抽取算法
简介
ContentExtractor 是一个开源的网页正文抽取工具,用JAVA实现,具有非常高的抽取精度。
项目地址转移
项目已和WebCollector合并,当前项目为老版本ContentExtractor,请前往WebCollector项目查看ContentExtractor的最新版本源码和API。
教程(只适用于老版本,新版本请前往WebCollector)
ContentExtractor的接口非常简单,用户可以根据网页的url,或者网页的html,来进行网页正文抽取:
根据url,抽取网页的正文:
public static void main(String[] args) throws Exception { String content=ContentExtractor.getContentByURL("http://news. xinhuanet.com/world/2014-11/02/c_127166728.htm"); System.out.println(content); }
根据html,抽取网页的正文:
public static void main(String[] args) throws Exception { String html="获取到的html源码"; String content=ContentExtractor.getContentByHtml(html); System.out.println(content); }
导入项目(只适用于老版本,新版本请前往WebCollector)
从ContentExtractor的github主页https://github.com/hfut-dmic/ContentExtractor上下载ContentExtractor-{版本号}-bin.zip,将解压后得到的jar包全部放到工程的build path即可。
ContentExtractor由合肥工业大学dmic团队开发
Git@OSC:http://git.oschina.net/webcollector/ContentExtractor
评论
cx-extractor通用网页正文抽取
基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关对于Web信息检索来说,网页正文抽取是后续处理的关键。虽然使用正则表达式可以准确的抽取某一固定格式的页面,但面对形形色色的
cx-extractor通用网页正文抽取
0
GNE新闻网页正文通用抽取器
GNE是基于论文《基于文本及符号密度的网页正文提取方法》实现的新闻网页正文通用抽取器。在论文中描述的正文提取基础上,还增加了标题、发布时间和文章作者的自动化探测与提取功能。最后的输出效果如下图所示:本
GNE新闻网页正文通用抽取器
0
GNE-JS新闻网页正文通用抽取器
GNE-JS是基于论文《基于文本及符号密度的网页正文提取方法》实现的新闻网页正文通用抽取器。在论文中描述的正文提取基础上,还增加了标题、发布时间和文章作者的自动化探测与提取功能。该项目启发自 GNE,
GNE-JS新闻网页正文通用抽取器
0