数据挖掘 - 随笔分类 - dayday+up

scikit-learn使用方法

摘要：1.支持向量机 #_*_ coding:utf-8 _*_ from sklearn import datasets from sklearn import svm #装载内部测试数据集 digits = datasets.load_digits() #设置参数 clf = svm.SVC(gamm 阅读全文

posted @ 2016-03-11 15:45 dayday+up 阅读(894) 评论(0) 推荐(0)

hive查询语法

摘要：1.创建表： >create table value_data(citing INT,cited INT) >row format delimited >fields terminated by ',' >stored as textfile; 2.查看新建的表: >show tables; 3.查阅读全文

posted @ 2016-03-01 14:40 dayday+up 阅读(989) 评论(0) 推荐(0)

皮尔逊相关系数的计算(python代码版)

摘要：from math import sqrtdef multipl(a,b): sumofab=0.0 for i in range(len(a)): temp=a[i]*b[i] sumofab+=temp return sumofabdef corrc... 阅读全文

posted @ 2015-08-27 17:40 dayday+up 阅读(25666) 评论(1) 推荐(0)

人工神经网络基础与研究内容

摘要：人工神经网络是对生物神经系统的模拟。它的信息处理功能是由网络单元（神经元）的输入输出特性（激活特性），网络的拓扑结构（神经元的连接方式），连接权大小（突触联系强度）和神经元的阈值（可视为特殊的连接权）等决定。与数字计算机比较，人工神经网络在构成原理和功能特点等方面更加接近人脑，它不是按给定... 阅读全文

posted @ 2015-07-28 11:24 dayday+up 阅读(997) 评论(0) 推荐(0)

Mahout0.9安装与配置（完全分布式模式下运行）

摘要：安装Mahout之前，一定要把hadoop装好，hadoop的安装方法可以参考我的前一篇随笔，我安装的是hadoop2.7.0，具体方法在此不做介绍。1.首先下载相应版本的Mahout:axel -n 10 http://archive.apache.org/dist/mahout/0.9/maho... 阅读全文

posted @ 2015-06-30 17:41 dayday+up 阅读(1233) 评论(2) 推荐(1)

hadoop2.7.0分布式系统搭建(ubuntu14.04)

摘要：因为使用需要，在自己小本上建了四个虚拟机，打算搭建一个1+3的hadoop分布式系统。环境：hadoop2.7.0+ubuntu14.04 (64位) 首先分别为搭建好的虚拟机的各主机重命名方法：vi /etc/hostname 例如:ubuntu0 ubuntu1 ubuntu2 ubuntu 阅读全文

posted @ 2015-06-26 10:52 dayday+up 阅读(472) 评论(0) 推荐(0)

使用Apriori算法进行关联分析

摘要：关联分析是一种在大规模数据集中寻找有趣关系的任务。这些关系可以有两种形式：频繁项集或者关联规则。频繁项集是指经常出现在一块的物品的集合，关联规则暗示两种物品之间可能存在很强的关系。一个项集的支持度被定义为数据集中包含该项集的记录所占的比例。可信度或置信度是针对一条诸如{尿布}->{葡萄酒}的关联规则... 阅读全文

posted @ 2015-04-21 16:34 dayday+up 阅读(697) 评论(0) 推荐(0)

准确率(Precision),召回率(Recall)以及综合评价指标(F1-Measure)

摘要：准确率和召回率是数据挖掘中预测，互联网中得搜索引擎等经常涉及的两个概念和指标。准确率：又称“精度”，“正确率”召回率：又称“查全率”以检索为例，可以把搜索情况用下图表示：相关不相关检索到AB未检索到CDA:检索到的，相关的B:检索到的，但是不相关的C:未检索到的，但却是相关的D:未检索到的，也不相关... 阅读全文

posted @ 2015-04-01 17:58 dayday+up 阅读(630) 评论(0) 推荐(0)

dayday+up

随笔分类 - 数据挖掘

公告