文本相似度偏高的问题

tonyzh · 2022年06月28日 02:24

hanlp的语料库训练，在比较文本相似度时，我在网上随便找两个文章比较，相似度计算结果都很高。看起来准确率不高，是哪里用错了吗？

Viserion · 2022年06月28日 06:21

文本匹配是中的一个重要问题，它一个很宽泛的概念，通常研究两段文本之间关系的问题都可以看做是文本匹配。
根据文本长度不同，可以讲语义匹配分为三类：

1.短文本-短文本匹配；

2.短文本-长文本匹配；

3.长文本-长文本匹配。
目前开放的STS接口支持短文本匹配，对于篇章级别的长文本匹配在推荐系统中经常用到，比如新闻推荐，通过抽象整个长文本内容信息，来识别同领域或同事件的相似文本。需要展开另外的研究工作。