情感分析思想(基于各种词典)

之前在实习时,teamleader想利用情感分析实现“公司绩效考核”问题,即从Boss对员工的评语中判断该员工该月的绩效值,属情感分析领域。

当时使用最简单的基于情感词典的方法解决,借鉴了这篇文章,在此基础上对其进行修改,先讲思路描述如下。

1  词典准备

  • 情感词典(BosonNLP情感词典)
  • 停用词典
  • 否定词典
  • 程度副词词典

注:情感词典内包含词语以及对应的情感值;停用词典只包含停用词语;否定词典只包含否定词语;程度副词词典内包含词语及对应的程度值。

2  实施步骤

整体步骤如下:

  1. 分词(jieba),去停用词;
  2. 构建词语序列;
  3. 对词语序列结果分类,找出情感词、否定词、程度副词;
  4. 计算得分。

其中计算得分的具体步骤如下:

  1. 找出所有情感词的下标,构建新词组;
  2. 新词组构建方法:该情感词与前一情感词之间的否定词及程度副词 + 该情感词(第一个情感词前至句首);
  3. 计算:程度副词的程度值 × 情感词的情感值,每有一个否定词,使该式 × -1;
  4. 句子累加。

缺点:

  1. 没有考虑词义,特别对于“标题党”来讲,结果差距巨大。但这种情况都需要使用深度学习的方法才能有效解决,普通机器学习方法也是很难的。
  2. 对于正负向文本的判断,该算法忽略了很多其他的否定词、程度副词和情感词搭配的情况;用于判断情感强弱也过于简单。
posted @ 2018-11-08 16:18  祁俊辉  阅读(2255)  评论(0编辑  收藏  举报