我数据集中有对于实体的特定标识符,我想自己建立一个标签词典来准确分割标识符,但在两个标识符相连的情况下,词典好像失效了。
如下图。
我在词典中将所有标签类型都已覆盖,但不知怎么会出现这种情况,求助!!!
我数据集中有对于实体的特定标识符,我想自己建立一个标签词典来准确分割标识符,但在两个标识符相连的情况下,词典好像失效了。
如下图。
HanLP构建了高效的trie树自定义词典,以及强制、合并、校正3种规则,
https://github.com/hankcs/HanLP/blob/doc-zh/plugins/hanlp_demo/hanlp_demo/zh/tok_mtl.ipynb
可参考自定义词典的方式对实体特定标识符进行划分。