02 2014 档案

weka数据挖掘拾遗(二)---- 特征选择(IG、chi-square)
摘要:一、说明 IG是information gain 的缩写,中文名称是信息增益,是选择特征的一个很有效的方法(特别是在使用svm分类时)。这里不做详细介绍,有兴趣的可以googling一下。 chi-square 是一个常用特征筛选方法,在种子词扩展那篇文章中,有详细说明,这里不再赘述。二、weka中的使用方法 1、特征筛选代码 1 package com.lvxinjian.alg.models.feature; 2 3 import java.nio.charset.Charset; 4 import java.util.ArrayList; 5 6 import weka.att... 阅读全文

posted @ 2014-02-12 13:20 BruceLv 阅读(3413) 评论(1) 推荐(0)

weka数据挖掘拾遗(一)---- 生成Arff格式文件
摘要:一、什么是arff格式文件 1、arff是Attribute-Relation File Format缩写,从英文字面也能大概看出什么意思。它是weka数据挖掘开源程序使用的一种文件模式。由于weka是个很出色的数据挖掘开源项目,所以使用的比较广,这也无形中推广了它的数据存储格式。 2、下面是weka自带的一个arff文件例子(weather.arff) 1 @relation weather 2 3 @attribute outlook {sunny, overcast, rainy} 4 @attribute temperature real 5 @attribute humidit... 阅读全文

posted @ 2014-02-12 10:49 BruceLv 阅读(9341) 评论(4) 推荐(1)

基于SimHash的微博去重
摘要:一、需求:对微博数据进行去重,数据量比较小,几十万条左右。二、解决方案 1、采用SimHash的指纹信息去重方法。三、实现方案 1、对每一条微博使用tf-idf与特征词 2、使用每条微博的特征词,通过SimHash方法生成信息指纹。 3、对生成的信息指纹统计计算海明距离,距离小于等于1判为相... 阅读全文

posted @ 2014-02-11 17:04 BruceLv 阅读(1642) 评论(0) 推荐(0)

基于条件随机场(CRF)的命名实体识别
摘要:很久前做过一个命名实体识别的模块,现在有时间,记录一下。 一、要识别的对象 人名、地名、机构名 二、主要方法 1、使用CRF模型进行识别(识别对象都是最基础的序列,所以使用了好评率较高的序列识别算法CRF) 2、使用规则对相关数据进行后过滤、 三、具体实现 1、训练数据的生成 主要使用了人民日报免费部分,以及一些及它从网上找到的资源(时间长了,记不住了,好像还自己标注了些) 2、模板的生成 使用的是Unigram,由于考虑到要识别的实体一般情况下没有长距离依赖 以及训练时的效率问题,所以模板没有写得过长。经过几次测试,最终确定的模板如... 阅读全文

posted @ 2014-02-10 21:26 BruceLv 阅读(6693) 评论(3) 推荐(0)

评价性短语抽取
摘要:一、方案目标从已经标注有正、中、负极性的的微博或评论数据中抽取出正负面短语,或是关于指定的某个明星的正负面短语。二、方案实现2.1总体思路2.11具体思路1)抽取短语时是按照词性的规律,总结出一般有效短语的词性模板,然后在已经标注有正、中、负的数据中,根据模板来匹配出评价短语。2)合并语义相近的短语3)按照电影维度种子词把短语划分到各个维度(或映射到指定明星)4)根据短语匹配上的情感词来划分正负极性2.12 流程图2.2具体细节2.2.1模板的选择1)模板选择方法:a)根据一般有效评价短语的词性规律总结了部分模板,共23个模板。a na d na a na aa u nd v nn an d 阅读全文

posted @ 2014-02-10 10:55 BruceLv 阅读(1597) 评论(0) 推荐(0)

导航