为何 JAVA 版本和 PYTHON 版本分词结果不一样？

longslee · 2021年11月24日 01:23

我在使用 pyhon 版本的时候：
HanLP = hanlp.load(hanlp.pretrained.mtl.CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH) # 世界最大中文语料库
HanLP(‘尊敬的明天您好，明天你的手机号就要停机了’)

这时能明确的区分第一个“明天”是【PERSON】，第二个“明天”是【DATE】

但是我在使用 JAVA ，不管是 standard 还是 NLP tokenizer，“明天”的结果都是 [t]，表示时间
NLPTokenizer.segment(“尊敬的明天您好，明天你的手机号就要停机了”)

Viserion · 2021年11月24日 01:32

1.x在理论上主要采用类似HMM、感知机、SVM和CRF之类的线性模型，配合大量的人工特征工程以及规则将语言转换为稀疏的二进制向量，表达能力较弱。（java语言）

而2.x则采用了深度学习技术自动学习人类语言的向量表达，表达能力很强。（python语言）

在技术上HanLP2.x是1.x的深度学习进化版，继承了旧版本的愿景和格调，并采用了新的理论与设计，2.x版本在性能方面较1.x有很大的提升。