simhash-javasimhash 算法的 java 实现
simhash-java
Java实现simhash算法的简单实现。
特征:
- 计算字符串的simhash
- 通过构建智能索引来计算所有链之间的相似度,因此我们可以处理大数据。
如何使用:
-
使用inputfile和outputfile运行Main。
-
输入文件的格式(请参阅src / test_in):每行doc带有utf8字符集。
-
输出文件的格式(请参见src / test_out):
-
开始//开始标志
-
第一行// doc
-
sencode lien // // doc1 \ tdist dist是doc和doc1之间的汉明距离
-
结束//结束标志
未来:
- 将项目构建到可运行的jar中。
- 在大数据下提高性能。
注意:
- 在运行Main.java之前,您应该选择一个更好的分析器而不是BinaryWordSeg!
评论