文本聚类能支持十几万的文本吗

1.x版本可以对输入的文本进行文本的聚类。我想请问下大家,这个能支撑多大的数据量,能支撑对上百万条数据的聚类吗

可以尝试下。
我们选择了了搜狗实验室提供的文本分类语料的一个子集(搜狗文本分类语料库迷你版)。该迷你版语料库分为5个类目,每个类目下1000篇文章,共计5000篇文章。
进行了文本聚类的评测:Java用户可参考com.hankcs.demo.DemoTextClusteringFMeasure
评测结果为如下:
算法       F1     耗时
k均值     83.74   67秒
重复二分类 85.58   24秒
十几万的文本可以试一下,看看结果值和耗时时间。