文本相似度偏高的问题

hanlp的语料库训练,在比较文本相似度时,我在网上随便找两个文章比较,相似度计算结果都很高。看起来准确率不高,是哪里用错了吗?

文本匹配是中的一个重要问题,它一个很宽泛的概念,通常研究两段文本之间关系的问题都可以看做是文本匹配。
根据文本长度不同,可以讲语义匹配分为三类:

1.短文本-短文本匹配;

2.短文本-长文本匹配;

3.长文本-长文本匹配。
目前开放的STS接口支持短文本匹配,对于篇章级别的长文本匹配在推荐系统中经常用到,比如新闻推荐,通过抽象整个长文本内容信息,来识别同领域或同事件的相似文本。需要展开另外的研究工作。