文本相似度的几个问题

目标:
我们想要实现一个类似于智能问答的功能,计划用hanlp的文本相似度来实现,即在问题集中找出与用户输入最相近的问题。目前我们的问题库,大概有1000条,后续应用过程中会有可能继续增加。
1)hanlp-restful版本我们试了下,发现存在一个问题,就是每次只能发送32个语句之间的相似度计算,这样一来,是不是我们得循环30多次才能完成计算,然后再把计算结果进行拼接,再找出最相似得那个? 另外,我试了下,一次大概0.3s,30多次循环是不是要0.3*30s,有什么有可优化得方案么?
2)除了restful版本外,我们还试了下native的sts方法,发现性能有点令人捉急。想请教下,是不是有什么好的方案可以提升性能?

1:hanlp-restful版本,由于庞大的用户数和有限且昂贵的GPU资源,我们暂时约定了这个额度,但未来极有可能等比扩大调用频率。
2:native的sts方法,可以使用预先加载模型到内存中,通过流式发送请求来处理数据,可以提升性能满足业务中的需求。

补充说明:

可以考虑我们的商业版,不限并发数。

这就体现了GPU的重要性了。

另外,你的需求其实可以用我们正在研发的语义搜索引擎来实现。大致在年底或明年初上市,敬请关注官网以及GitHub上的更新。

“可以使用预先加载模型到内存中,通过流式发送请求来处理数据” 请问具体怎么做呢