一些参考的方法

BBS 准实时舆情监测技术研究与实现

采用聚焦爬虫来实现数据采集，同时采用基于目标网页特征的方式来解决对抓取目标的描述，根据目标网页的特征，来制定相应的搜索策略。使用Scrapy 来开发数据采集程序。在定制爬虫时，可以定制两种类型的爬虫。一种是对于FireBird BBS类型的BBS，为所监测的每个BBS 单独定制一个爬虫爬取数据；另外一种是对于discuzz 论坛和phpwind 论坛,采用模板爬虫模式，将这两种论坛的不同版本都定制成模板爬虫，然后将所监测的BBS 按照模板匹配爬取数据。

树型结构只要通过相应的语法解析器，可方便查找各元素的相对位置。目前比较流行的html 解析工具是HtmlParser。

经过对分词器的开发者及相关论坛活跃度比较，同时从分词器的速度，算法、分词器的代码复杂度以及用是否能自定义词库等方面进行综合考虑，最后选择使用IK 分词器。

基于网络文本的评论挖掘分析

数据采集模块

主要通过Java爬虫实现，利用HtmlParser 库实现对网络服务器返回内容的解析。采用多线程网页爬虫技术，系统采用数据库的存储方式对这些数据集进行存储，将主题文本与评论文本分开存储，并对适当的字段建立索引。数据存储表结构。

数据过滤模块

主要包括数据预处理，无用语过滤以及相关度分析三个步骤。分词器使用的为中科院发布的ICTCLAS 分词器，无用语过滤具体做法为维护一个可动态增减的无用词汇集合，利用HashSet 进行存储。

目前评论的感情分析主要基于正负极性词汇字典进行，中文词汇字典目前主要通过人工手段采集。本模型主要基于极性词字典的方法来实现，原始的字典从台湾大学NTUSD数据源中提取，将搜狗词库以及同义词词林作为扩展数据源。像“高价格”，“高效率”这种，“高”在前者中表示负面极性，在后者中则表现为正面极性。分析这类词汇极性通常使用统计学习的技术来实现，构建动态语义词列表（DWList），极性词字典的扩容问题通常采用统计的方法。

基于中医本体的信息提取技术的研究与设计

本论文采用Jena 2．6．4软件包。Jena由HP实验开发是开放源代码的。主要用于语义网(Semantic Web)软件的开发。

利用词频和语义权重的算术平均数代表概念词汇的权重，代替了单纯的词频权重法。没有在中医本体中出现的词汇还是使用词频代表权重。本论文使用文档空间向量的余弦表示两个文档的相似度。

posted @ 2013-04-13 12:37 书画还家阅读(233) 评论(0) 收藏举报

刷新页面返回顶部

一些参考的方法

公告