如何使用关键词标注

老师,你好:

      因为我们是做美妆的,目前正在尝试使用hanlp帮忙提取投诉语句包含的关键字。

因为行业的原因,有很多专属的关键字如“绿宝瓶”,如果直接使用hanlp的关键字分析,就会把“绿宝瓶”拆成“绿宝”与“瓶”。基于这样问题,我们想尝试使用自定义关键词标注功能,帮助提高关键字分析的准确性。此前我们也查看了 语料管理库操作指南,但仍然不是很清晰,如果要自定义关键词标注,该如何合理的进行呢?

谢谢。

非常欢迎提问!
我理解的是想做自定义词典功能吗?

如上图中 绿宝瓶 被单独切分为正确的词语。

另外可否具体说明下关键词标注的场景?如用户评价

HR赫莲娜绿宝瓶精华是一款优缺点明显的精华,集美们,爱了爱了!

定义关键词的话标注为 正面反馈吗?

如何可以实现自定义词典功能?请教下有没有参考案例?

谢谢老师的解答。我们目前主要是使用关键字提取的方式来看客户咨询的热点,相关的场景有分析如商品评价或投诉内容,如分析投诉,通过提取出来关键字可以大致的分析出客户投诉问题有哪些,是关于产品的,还是关于物流的。

因为目前使用hanlp关键字算法提取出的关键字会把一些不应该拆开的关键字拆开了,所以在考虑能否通过自定义关键字标注的方式使的算法能更合理的拆分出需要的关键字。
看到老师演示的“词法2.X”确实把“ 绿宝瓶”这样的产品关键字合理的切出来,更进一步咨询一下这个算法是“句法分析”吗?能直接调用API吗?

谢谢了。

自定义词典会在近期随2.1版本(包含简繁中英日俄法德等104种多语言分词)登场,届时会发邮件并邀请您体验测试并使用。 :slightly_smiling_face:

关于用户评价分析的话,HanLP的确有很多用武之地。
如分词、词性标注、命名实体识别、依存句法分析、语义分析、情感分析等都可以用来帮助商家店铺更好的分析客户反馈数据。
关键词提取更多场景在于对文章级别进行提取,像用户评价、投诉建议等较多为短文本。
具体应用思路请参考https://www.hanlp.com/dynamic.html 开源动态命名实体识别API接口实现智慧商家评价分析
随着2.1版本的推进,2.2版本我们方向是推出端对端的应用级接口,如(输入文本后模型自动处理最终输出反馈意见文档,无须人工干预定义词性、实体等)
欢迎再次讨论该问题。

谢谢老师的详细解答,针对HanLP目前的算法如如分词、词性标注、命名实体识别、依存句法分析、语义分析、情感分析,我们都会一一尝试进行接口调用并进行分析,同时也会尝试使用付费的接口,后续还有其他问题,也望不吝解答,谢谢。

给生活带来便捷,是科技的使命,同时也是我们的使命。

HanLP功能演示

谢谢 :+1: :+1: :+1: