Duke重复数据删除
Duke 是一个快速灵活的去除重复数据的引擎,基于 Lucene 开发,普通笔记本电脑可以在 11 分钟内处理完 100 万条记录。
特征
- 高性能。
- 高度可配置。
- 支持CSV,JDBC,SPARQL,NTriples和JSON。
- 许多内置比较器。
- 插入自己的数据源,比较器和清理器。
- 遗传算法可自动调整配置。
- 命令行客户端入门。
- 用于嵌入任何类型的应用程序的API。
- 支持批处理和连续处理。
- 可以维护通过JNDI / JDBC找到的链接数据库。
- 可以在多个线程中运行。
下图是 Duke 的架构:
评论