例如 对违法违规行为形成有效震嗫 这句话 应该是 震慑 怎样利用hanlp判断出来
还有一种 创完善适合药品监管工作特点的经费保障政策 少了个新 怎样利用hanlp判断出来
中文纠错分为两步走,第一步是错误检测,第二步是错误纠正;
错误检测部分先通过HanLP分词API切词,由于句子中含有错别字,所以切词结果往往会有切分错误的情况,这样从字粒度和词粒度两方面检测错误, 整合这两种粒度的疑似错误结果,形成疑似错误位置候选集;
错误纠正部分,是遍历所有的疑似错误位置,并使用音似、形似词典替换错误位置的词,然后通过语言模型计算句子困惑度,对所有候选集结果比较并排序,得到最优纠正词。
另外还有基于语义关联的中文查询纠错思路
更为准确的目前还有探测query中词条的上下文搭配来判定是否存在错误
如 关联挖掘等
目前HanLP2.1支持包括简繁中英日俄法德在内的104种语言上的10种联合任务
在拼命炼丹中…
下一个10年,HanLP进行的是面向具体业务场景的应用级接口.
请教一下 这句话 应该怎样实现呢
1、字形相似引起的错误 2、拼音相似引起的错误
咳嗽 =》 咳数 。 哈密瓜 =》 哈蜜瓜
对于由以上两种引起的错误可以归列纠错词典。
另外的难点在于上下文背景中的文本纠错
暑假去埃及游玩,看看金字塔
暑假去埃尔游玩,看看金子塔
更多详细信息可参考https://baike.baidu.com/item/%E5%B8%B8%E8%A7%81%E9%94%99%E5%88%AB%E5%AD%97/6803776?fr=aladdin