请问作者大神，如何进行分词模型的微调

hiki · 2023年12月26日 13:45

作者大神你好，
打扰了，我看了自然语言处理入门这本书后，里面介绍了1.X版本的几种词库的模型训练，然后也看了您github介绍的如何在sighan2005 PKU语料库上花6分钟训练一个超越学术界state-of-the-art的中文分词模型。发现里面的demo的训练集和开发集都是业界标准的大型语料进行训练，然后本人想将自己公司私有领域的专有词汇加进去调整下您出的预训练模型，将部分分词不理性的结果进行修正，所以想咨询下您
如果是想将自己公司的私有领域名词分词和训练语义解析的那些语料如何增量的训练进来呢？是不是按照类似demo例子中的sighan2005 PKU语料库的格式，标注自己的领域后，然后手动增量加到hanlp.datasets.tokenization.sighan2005.pku中的PKU语料的后面呢？
感谢能抽空指导下，谢谢。

Viserion · 2023年12月29日 01:12

你好，
感谢阅读《自然语言处理入门》。
关于HanLP2.1和1.x版本区别：
在技术上，HanLP2.x是1.x的深度学习进化版。继承了旧版本的愿景和格调，并采用了新的理论与设计。1.x在理论上主要采用类似HMM、感知机、SVM和CRF之类的线性模型，配合大量的人工特征工程以及规则将语言转换为稀疏的二进制向量，表达能力较弱。而2.x则采用了深度学习技术自动学习人类语言的向量表达，表达能力很强。在设计上，1.x偏向于以具体业务为中心，少了许多必要的抽象；而2.x则以机器学习模型的生命周期为设计蓝本，抽象出了比较通用的框架，更加适合专业NLP工程师和研究者。

在功能上，HanLP2.1支持包括简繁中英日俄法德在内的104种语言上的10种联合任务。

对于您训练私有领域专有词汇模型，可以自行标注后追加到语料后面训练。对于一些特定的词汇，也可以使用自定义词典方式进行修正。 GitHub - hankcs/HanLP: 中文分词词性标注命名实体识别依存句法分析成分句法分析语义依存分析语义角色标注指代消解风格转换语义相似度新词发现关键词短语提取自动摘要文本分类聚类拼音简繁转换自然语言处理

hiki · 2023年12月30日 13:52

非常感谢老师百忙之中答复，确实在尝试了1.84版本这几个月和2.1版本的系统标准分词后发现，2.1的版本分词的效果会更加的合理更加符合人的理解含义。目前也正在努力研究您2.1版本的相关深度学习的能力。
1、对您的回复：对于您训练私有领域专有词汇模型，可以自行标注后追加到语料后面训练
----请问这种自定义的语料添加的量级规模是多少呢才能让私有领域的分词能真正识别到？
2、对您的回复：对于一些特定的词汇，也可以使用自定义词典 方式进行修正
—目前我使用以上自定义方法，最笨的办法就是添加了大概60w的自定义分好的词汇，请问下老师，我使用了tok/coarse确实能达到自定义词汇效果。
但发现使用 [依存句法分析] 的方法却不会将自定义分词纳进去，出来的结果还是系统的默认分词的依存句法分析。
请问如何将自定义词典也添加进依存句法分析呢？还是说需要自己训练依存句法分析呢？
本人一点小理解，感谢老师的指导。感谢。