请问一下各位大佬,怎么使用HanLP进行英文分词呢?或者说,怎么使用HanLP提供的jar包的API以达到和HanLP Restful Client一样的效果?如何将一个包含“t shirt”的句子,分词后,把“t shirt”看作一个词呢?
ArrayList list = new ArrayList<>();
list.add(“camo tops for women,short sleeve t shirt”);
HanLP.Config.ShowTermNature = false;
HanLPClient client = new HanLPClient(“https://hanlp.hankcs.com/api”, null);
long a = System.currentTimeMillis();
Map<String, List> restResult = client.parse(list.toString());
long b = System.currentTimeMillis();
List segment = StandardTokenizer.segment(list.toString());
long c = System.currentTimeMillis();
List tok = (List) restResult.get(“tok/fine”).get(0);
System.out.println(“rest分词结果:” + tok);
System.err.println(“rest耗时:” + (b-a));
System.out.println(“jar分词结果:” + segment);
System.err.println(“jar耗时:” + (c-b));
多语种分词
得益于语言无关的设计,HanLP支持包括简繁中英日俄法德在内的104种语言上的分词。这一切,只需指定language='mul'
即可实现。
HanLP(['In 2021, HanLPv2.1 delivers state-of-the-art multilingual NLP techniques to production environments.', '2021年、HanLPv2.1は次世代の最先端多言語NLP技術を本番環境に導入します。', '2021年 HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。'], tasks='tok', language='mul').pretty_print()
In 2021 , HanLPv2.1 delivers state-of-the-art multilingual NLP techniques to production environments .
2021 年 、 HanLPv2.1 は 次 世代 の 最 先端 多 言語 NLP 技術 を 本番 環境 に 導入 します 。
2021 年 HanLPv2.1 为 生产 环境 带来 次世代 最 先进的 多 语种 NLP 技术 。
更多详情请浏览https://github.com/hankcs/HanLP/blob/doc-zh/plugins/hanlp_demo/hanlp_demo/zh/tok_restful.ipynb查看。
另外HanLP提供的jar包的HanLP1.x版本的,可以增加词典词条作为特殊单词的切分。restful是目前最新版本2.x。