打算做全国省市区镇道路的分词,词量大,有什么优化方案吗?

全国省、市、区、镇、道路、小区分词

1、准备使用词典的方式,发现全国小区和道路词典非常庞大,有什么优化方案吗?
2、需要给省市区镇道路,小区定义不同的词性,方便业务处理

省、市、区、街道办/乡镇、居委会/村委会,目前我手头有现存的语料,如果有需要的话请私信我。
从省、市、区、街道办/乡镇、居委会/村委会来说,目前国家统计局已有既定的区划代码。对于小区名字进行分词的话之前尝试过,大部分效果较好,但也遇到一些实体歧义的问题,如:足球小镇、幸福花园,容易误中靶为乡镇或者景点,此类情况需要做一些特殊处理。但如果业务场景较为固定,且范围较小的话,使用词典的方式补充完全是没有问题的。

您好,感谢您的回答,我发私信给您了

!

词法2.0里“财源街道”上面的地名再哪个分词里可以组合出来?

使用HanLP2.1分词 或者1.x 自定义词典分词添加“财源街道”