NLP论文泛读之《教材在线评论的情感倾向性分析》

本文借助细粒度情感分类技术, 对从网络上抓取大量计算机专业本科教材的评价文本进行情感极性 分析, 从而辅助商家和出版社改进教材的质量、制定 合理的销售策略, 并为潜在消费者的购买决策 供参 考依据.

主要解决了什么问题?

分析、提取对计算机类教材有效的、可靠的评价(当当、京东平台)
1.部分评论有省略号
2.有些评论很简略,没有出现‘书’这个主体对象

主要用到什么方法或技术

流程:

Sep1.去噪

1.1 同一用户针对同一产品发表的多条相同评论、字数多还没有感情色彩的评论、错别字、拼音、英语替换等。
1.2 已去噪的评论数据进行分词和词性 标注

采用技术:

1.1 人工删除等

  

1.2 利用中国科学院计算机所研发的中文分词软件 ICTCLAS2016 对已去噪的评论数据进行分词和词性 标注.
由于 ICTCLAS2016 对一些计算机专业名词、网 络新词等词汇的切分结果不正确, 因此本文自定义了 领域分词词典, 以优化词汇切分效果.

Sep2.构建情感词典

文本选择了基础情感词典, 构建了领域情感词典、网络情感词典和极性修饰情感词典等资源.
  • 公开发表的中文情感词典资源有知网的 HowNet、台湾大学发布的 NTUSD 以及大连理工大学 构建的情感词汇本体库

HowNet 和 NTUSD 仅区分了情感词的极性, 而大连理工大学发布 的情感词典不仅区分了词汇的情感极性, 还 述了词 汇的情感强度.

Sep3.特征词库的构建

需要获取在线评论中用户评价的产品特征.

  产品特征一般是名词和名词性短语, 因此 特征 取则转化为对名词和名词性短语的选取和筛选.
  由于本文选择的分词工具 ICTCLAS2016 仅能标注 出名词, 但不能标注出名词性短语. 为此, 本文在分词 结果的基础上, 制定了以下 3 条规则识别文本中的名词性短语, 这样就能较为完整地选取教材的候选产品特征.

1. “名词+名词”规则
2. “名词+的+名词”规则
3. “动词+名词”规则

Sep4.判断极性

  句法分析工具使用了哈 工大社会计算与信息检索研究中心研发的语言技术平台 (LTP), 通过该平台对优化后的分词结果进行依存关系分析.
  

Sep5.评估本实验所采用的算法的性能

  1. 使用了本文构建的 ***教材评论情感 ***词典, 测试算法在产品特征-情感 述项和产品特征极 性方面的识别结果;
  2. 然后再使用大连理工大学发布的 通用情感词典, 获得相同语料下的识别效果;
  3. 以人工标注结果为基准, 分别计算使用两部情感词典的识别结果的准确率、召回率和 F 值。
posted @ 2017-11-15 16:44  SingSingaSong  阅读(677)  评论(0编辑  收藏  举报