一些参考的方法

BBS 准实时舆情监测技术研究与实现

采用聚焦爬虫来实现数据采集,同时采用基于目标网页特征的方式来解决对抓取目标的描述,根据目标网页的特征,来制定相应的搜索策略。使用Scrapy 来开发数据采集程序。在定制爬虫时,可以定制两种类型的爬虫。一种是对于FireBird BBS类型的BBS,为所监测的每个BBS 单独定制一个爬虫爬取数据;另外一种是对于discuzz 论坛和phpwind 论坛,采用模板爬虫模式,将这两种论坛的不同版本都定制成模板爬虫,然后将所监测的BBS 按照模板匹配爬取数据。

树型结构只要通过相应的语法解析器,可方便查找各元素的相对位置。目前比较流行的html 解析工具是HtmlParser。

经过对分词器的开发者及相关论坛活跃度比较,同时从分词器的速度,算法、分词器的代码复杂度以及用是否能自定义词库等方面进行综合考虑,最后选择使用IK 分词器。

基于网络文本的评论挖掘分析

数据采集模块 

主要通过Java爬虫实现,利用HtmlParser 库实现对网络服务器返回内容的解析。采用多线程网页爬虫技术,系统采用数据库的存储方式对这些数据集进行存储,将主题文本与评论文本分开存储,并对适当的字段建立索引。数据存储表结构。

数据过滤模块 

主要包括数据预处理,无用语过滤以及相关度分析三个步骤。分词器使用的为中科院发布的ICTCLAS 分词器,无用语过滤具体做法为维护一个可动态增减的无用词汇集合,利用HashSet 进行存储。

目前评论的感情分析主要基于正负极性词汇字典进行,中文词汇字典目前主要通过人工手段采集。本模型主要基于极性词字典的方法来实现,原始的字典从台湾大学NTUSD数据源中提取,将搜狗词库以及同义词词林作为扩展数据源。像“高价格”,“高效率”这种,“高”在前者中表示负面极性,在后者中则表现为正面极性。分析这类词汇极性通常使用统计学习的技术来实现,构建动态语义词列表(DWList),极性词字典的扩容问题通常采用统计的方法。

基于中医本体的信息提取技术的研究与设计

本论文采用Jena 2.6.4软件包。Jena由HP实验开发是开放源代码的。主要用于语义网(Semantic Web)软件的开发。

利用词频和语义权重的算术平均数代表概念词汇的权重,代替了单纯的词频权重法。没有在中医本体中出现的词汇还是使用词频代表权重。本论文使用文档空间向量的余弦表示两个文档的相似度。

posted @ 2013-04-13 12:37  书画还家  阅读(214)  评论(0编辑  收藏  举报