我在对一个文档进行停用词处理时,为什么关于数字的都去掉了,可是停用词列表中没有关于数字的。
// 除掉停用词
String nature = term.nature != null ? term.nature.toString() : "空";
char firstChar = nature.charAt(0);
switch (firstChar)
{
/* case 'm': */
case 'b':
case 'c':
case 'e':
case 'o':
case 'p':
在com/hankcs/hanlp/dictionary/stopword/CoreStopWordDictionary.java下注释掉/m词性标签,此词性标签目的是将m量词当做stopWord过滤掉。
停用词在那种分词下生效,为什么我用HanLP.segment(),分词停用词并没有生效