Duke重复数据删除

联合创作 · 2023-10-01 01:23

Duke 是一个快速灵活的去除重复数据的引擎，基于 Lucene 开发，普通笔记本电脑可以在 11 分钟内处理完 100 万条记录。

特征

高性能。
高度可配置。
支持CSV，JDBC，SPARQL，NTriples和JSON。
许多内置比较器。
插入自己的数据源，比较器和清理器。
遗传算法可自动调整配置。
命令行客户端入门。
用于嵌入任何类型的应用程序的API。
支持批处理和连续处理。
可以维护通过JNDI / JDBC找到的链接数据库。
可以在多个线程中运行。

下图是 Duke 的架构：

浏览 4

点赞

收藏

分享

举报

评论

图片

表情

Duke重复数据删除

Duke是一个快速灵活的去除重复数据的引擎，基于Lucene开发，普通笔记本电脑可以在11分钟内处理完100万条记录。特征高性能。高度可配置。支持CSV，JDBC，SPARQL，NTriples和JS

Opendedup重复数据删除解决方案

Opendedup，一个新的开源重复数据删除解决方案。作为针对Linux的重复数据删除文件系统（也成为SDFS），Opendedup从设计上来说针对的是那些拥有虚拟环境并寻求高性能、可扩展和低成本重复

Opendedup重复数据删除解决方案

Opendedup重复数据删除解决方案

SQL中删除重复数据问题

SQL数据库开发

如何正确的使用一条SQL删除重复数据

数据库干货铺

MySQL 如何查找删除重复行？

杰哥的IT之旅

MySQL 如何查找删除重复行？

MySQL 如何查找删除重复行？

MySQL 如何查找删除重复行？

点赞

收藏

分享

举报