将分词部署成服务后在测试中发现显存会逐步增加直到占满报错，应该如何解决呢？

maxz255 · 2022年04月8日 07:30

我尝试将hanlp部署成web服务，并且使用GPU

_client = None    
def get_client():
    global _client
    if _client is None:
        import hanlp
        _client = hanlp.load(hanlp.pretrained.mtl.OPEN_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_BASE_ZH)

其他模块通过get_client()获取hanlp实例，这样可以避免反复重新load模型。
但是在测试中发现，显存会逐渐增加，最后CUDA out of memory
请问这种情况应该怎么解决？