将分词部署成服务后在测试中发现显存会逐步增加直到占满报错,应该如何解决呢?

我尝试将hanlp部署成web服务,并且使用GPU

_client = None    
def get_client():
    global _client
    if _client is None:
        import hanlp
        _client = hanlp.load(hanlp.pretrained.mtl.OPEN_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_BASE_ZH)

其他模块通过get_client()获取hanlp实例,这样可以避免反复重新load模型。
但是在测试中发现,显存会逐渐增加,最后CUDA out of memory
请问这种情况应该怎么解决?