Skip to content

基于Lucene、TF-IDF、余弦相似度的文本相似度算法

Notifications You must be signed in to change notification settings

HelloKittyNII/DocSimilarityAlgorithm

Repository files navigation

文本相似度算法

基于Lucene3.5版本、TF-IDF、余弦相似实现的文本相似度算法。

详细介绍《基于Lucene、TF-IDF、余弦相似性实现长文本相似度检测

样本库提取

使用webmagic爬取华为应用市场应用的描述信息,当做样本。

在工程的conf/doc目录有1000多个应用样本。

具体代码实现在工程下面的AppStoreProcessor.java类

分词

在使用Lucene进行TF-IDF计算之前,需要先对长文本进行分词,选取的是jieba的java版本。

https://github.com/huaban/jieba-analysis

About

基于Lucene、TF-IDF、余弦相似度的文本相似度算法

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages