随笔分类 - 数据挖掘
摘要:1.支持向量机 #_*_ coding:utf-8 _*_ from sklearn import datasets from sklearn import svm #装载内部测试数据集 digits = datasets.load_digits() #设置参数 clf = svm.SVC(gamm
阅读全文
摘要:1.创建表: >create table value_data(citing INT,cited INT) >row format delimited >fields terminated by ',' >stored as textfile; 2.查看新建的表: >show tables; 3.查
阅读全文
摘要:from math import sqrtdef multipl(a,b): sumofab=0.0 for i in range(len(a)): temp=a[i]*b[i] sumofab+=temp return sumofabdef corrc...
阅读全文
摘要:人工神经网络是对生物神经系统的模拟。它的信息处理功能是由网络单元(神经元)的输入输出特性(激活特性),网络的拓扑结构(神经元的连接方式),连接权大小(突触联系强度)和神经元的阈值(可视为特殊的连接权)等决定。 与数字计算机比较,人工神经网络在构成原理和功能特点等方面更加接近人脑,它不是按给定...
阅读全文
摘要:安装Mahout之前,一定要把hadoop装好,hadoop的安装方法可以参考我的前一篇随笔,我安装的是hadoop2.7.0,具体方法在此不做介绍。1.首先下载相应版本的Mahout:axel -n 10 http://archive.apache.org/dist/mahout/0.9/maho...
阅读全文
摘要:因为使用需要,在自己小本上建了四个虚拟机,打算搭建一个1+3的hadoop分布式系统。 环境:hadoop2.7.0+ubuntu14.04 (64位) 首先分别为搭建好的虚拟机的各主机重命名 方法:vi /etc/hostname 例如:ubuntu0 ubuntu1 ubuntu2 ubuntu
阅读全文
摘要:关联分析是一种在大规模数据集中寻找有趣关系的任务。这些关系可以有两种形式:频繁项集或者关联规则。频繁项集是指经常出现在一块的物品的集合,关联规则暗示两种物品之间可能存在很强的关系。一个项集的支持度被定义为数据集中包含该项集的记录所占的比例。可信度或置信度是针对一条诸如{尿布}->{葡萄酒}的关联规则...
阅读全文
摘要:准确率和召回率是数据挖掘中预测,互联网中得搜索引擎等经常涉及的两个概念和指标。准确率:又称“精度”,“正确率”召回率:又称“查全率”以检索为例,可以把搜索情况用下图表示:相关不相关检索到AB未检索到CDA:检索到的,相关的B:检索到的,但是不相关的C:未检索到的,但却是相关的D:未检索到的,也不相关...
阅读全文

浙公网安备 33010602011771号