CrunchETL 和特性抽取工具联合创作 · 2023-10-01 23:29Crunch 是一个用 Go 语言开发的基于 Hadoop 的 ETL 和特性抽取工具,特点是速度快。 浏览 6点赞 评论 收藏 分享 手机扫一扫分享 编辑 分享 举报 评论图片表情视频评价全部评论推荐 CrunchETL 和特性抽取工具Crunch是一个用Go语言开发的基于Hadoop的ETL和特性抽取工具,特点是速度快。Wandora数据抽取工具Wandora是一个通用的数据提取,管理和发布应用程序,基于主题地图和基于Java的。Wandora有一个图形用户界面,知识层次的介绍,几个数据存储选择,丰富的数据提取,进口和出口能力,以及一个嵌入式Krabber网页抽取工具Krabber是kVitrail的网页抽取工具。 Krabber的设计目标是提供一个可以为Java应Krabber网页抽取工具Krabber是kVitrail的网页抽取工具。Krabber的设计目标是提供一个可以为Java应用调用的、可以执行网页上的JavaScript代码、并返回JavaScript代码执行后的网页的HTMWandora数据抽取工具Wandora是一个通用的数据提取,管理和发布应用程序,基于主题地图和基于Java的。 WandorGoldDataSpider网页数据抽取工具GoldDataSpider是用于抓取网页和抽取数据的工具。其核心代码是从金色数据抓取融合平台分离而来。该项目提供抓取和抽取来自网页数据,不仅可以抽取网页内的内容,还能抽取URL、HTTP报头、CooGoldDataSpider网页数据抽取工具GoldDataSpider 是用于抓取网页和抽取数据的工具。其核心代码是从金色数据抓取融合平台分离Apache Tika内容抽取工具集合Tika是一个内容抽取的工具集合(atoolkitfortextextracting)。它集成了POI,Pdfbox并且为文本抽取工作提供了一个统一的界面。其次,Tika也提供了便利的扩展API,用来Apache Tika内容抽取工具集合Tika 是一个内容抽取的工具集合(a toolkit for text extracting)。它TAMS Analyzer文本抽取和分析TAMS(TextAnalysisMarkupSystem)Analyzer是一个定性的文本数据抽取和分析系统。点赞 评论 收藏 分享 手机扫一扫分享 编辑 分享 举报