关于情感分析的训练-语料库的准备

你好,我是用的python进行训练,看书上说直接提供标记好正负情感值的文档即可。关于文档中的标点符号保留好还是删除好?文档中如果还有其他特殊字符是否会对模型有影响?比如我从某宝抓的评论数据想用来训练,但其中有英文短语、表情、特殊符号,或者html的标签。
是不是用于训练的文档中只保留文字和标点符号是最好的?

在处理nlp大部分任务的时候,首先要进行的是数据清洗过程,对于标点符号,html标签,无关字符等进行清洗后,再进实体对齐等系列工作后进行模型训练。
我们需要对具体对象提取出有助于分类的特征,才能交给某个分类器进行分类。这类特征数值化后为一个定长的向量(数据点)用来作为分类器的输入。
最好将其他特殊字符清洗掉后在进行训练。另外值得一提的是。文本分类、情感分析并不一定需要进行分词。根据清华大学2016年的工作THUCTC: An Efficient Chinese Text Classifier ,将文本中相邻两个字符构成的所有二元语法作为”词” ,反而能取得更好的分类准确率。 炼丹。

目前HanLP官网支持 语料标注-模型训练-生成API接口一站式智能化解决方案。
欢迎使用。

收到,谢谢大佬