文本相似度的几个问题

joy1029 · 2022年08月16日 23:31

目标：
我们想要实现一个类似于智能问答的功能，计划用hanlp的文本相似度来实现，即在问题集中找出与用户输入最相近的问题。目前我们的问题库，大概有1000条，后续应用过程中会有可能继续增加。
1）hanlp-restful版本我们试了下，发现存在一个问题，就是每次只能发送32个语句之间的相似度计算，这样一来，是不是我们得循环30多次才能完成计算，然后再把计算结果进行拼接，再找出最相似得那个？另外，我试了下，一次大概0.3s，30多次循环是不是要0.3*30s，有什么有可优化得方案么？
2）除了restful版本外，我们还试了下native的sts方法，发现性能有点令人捉急。想请教下，是不是有什么好的方案可以提升性能？

hanlpbot · 2022年08月16日 23:31

Viserion · 2022年08月17日 01:12

1:hanlp-restful版本，由于庞大的用户数和有限且昂贵的GPU资源，我们暂时约定了这个额度，但未来极有可能等比扩大调用频率。
2:native的sts方法，可以使用预先加载模型到内存中，通过流式发送请求来处理数据，可以提升性能满足业务中的需求。

hanlpbot · 2022年08月17日 22:15

补充说明：

可以考虑我们的商业版，不限并发数。

这就体现了GPU的重要性了。

另外，你的需求其实可以用我们正在研发的语义搜索引擎来实现。大致在年底或明年初上市，敬请关注官网以及GitHub上的更新。

zhangxiying · 2022年10月28日 08:34

“可以使用预先加载模型到内存中，通过流式发送请求来处理数据” 请问具体怎么做呢

starcloudmountain · 2023年03月10日 10:08

请问商业版如何购买，收费标准是什么样的？

starcloudmountain · 2023年03月10日 10:11

@hanlpbot

hanlpbot · 2023年03月10日 15:42

https://www.hanlp.com/