随笔分类 -  机器学习

摘要:1.支持向量机 #_*_ coding:utf-8 _*_ from sklearn import datasets from sklearn import svm #装载内部测试数据集 digits = datasets.load_digits() #设置参数 clf = svm.SVC(gamm 阅读全文
posted @ 2016-03-11 15:45 dayday+up 阅读(893) 评论(0) 推荐(0)
摘要:import pandas as pd from sklearn.cross_validation import train_test_split from sklearn.linear_model import LinearRegression #数据1 tem16_1 = [3113,3122, 阅读全文
posted @ 2016-03-04 15:55 dayday+up 阅读(2413) 评论(0) 推荐(0)
摘要:维特比算法是一个特殊,但应用最广的动态规划算法。利用动态规划,可以解决任何一个图中的最短路径问题。而维特比算法是针对一个特殊的图--篱笆网络(Lattice)的有向图最短路径问题而提出的。它之所以重要是因为,凡是使用隐含马尔科夫模型描述的问题都可以用它来解码。 假如用户输入的拼音是y1,y2,... 阅读全文
posted @ 2015-07-29 17:12 dayday+up 阅读(1747) 评论(0) 推荐(0)
摘要:人工神经网络是对生物神经系统的模拟。它的信息处理功能是由网络单元(神经元)的输入输出特性(激活特性),网络的拓扑结构(神经元的连接方式),连接权大小(突触联系强度)和神经元的阈值(可视为特殊的连接权)等决定。 与数字计算机比较,人工神经网络在构成原理和功能特点等方面更加接近人脑,它不是按给定... 阅读全文
posted @ 2015-07-28 11:24 dayday+up 阅读(997) 评论(0) 推荐(0)
摘要:安装Mahout之前,一定要把hadoop装好,hadoop的安装方法可以参考我的前一篇随笔,我安装的是hadoop2.7.0,具体方法在此不做介绍。1.首先下载相应版本的Mahout:axel -n 10 http://archive.apache.org/dist/mahout/0.9/maho... 阅读全文
posted @ 2015-06-30 17:41 dayday+up 阅读(1233) 评论(2) 推荐(1)
摘要:帮一个贴吧的朋友改的一段代码,源代码来自《机器学习实战》原代码的功能是识别0和9两个数字经过改动之后可以识别0~9,并且将分类器的产生和测试部分分开来写,免得每次测试数据都要重新生成分类器一次。from numpy import *from time import sleepdef loadData... 阅读全文
posted @ 2015-05-06 17:03 dayday+up 阅读(1945) 评论(0) 推荐(0)
摘要:关联分析是一种在大规模数据集中寻找有趣关系的任务。这些关系可以有两种形式:频繁项集或者关联规则。频繁项集是指经常出现在一块的物品的集合,关联规则暗示两种物品之间可能存在很强的关系。一个项集的支持度被定义为数据集中包含该项集的记录所占的比例。可信度或置信度是针对一条诸如{尿布}->{葡萄酒}的关联规则... 阅读全文
posted @ 2015-04-21 16:34 dayday+up 阅读(696) 评论(0) 推荐(0)
摘要:AdaBoost是adaptive boosting的缩写,其运行过程如下:1.训练数据中得每个样本,并赋予其一个权重,这些权重构成了向量D。一开始,这些权重都初始化成相等值。2.首先再训练数据上训练出一个弱分类器并计算改分类器的错误率,然后在同一数据集上再次训练弱分类器。3.在分类器的第二次训练中... 阅读全文
posted @ 2015-04-20 17:18 dayday+up 阅读(332) 评论(0) 推荐(0)
摘要:准确率和召回率是数据挖掘中预测,互联网中得搜索引擎等经常涉及的两个概念和指标。准确率:又称“精度”,“正确率”召回率:又称“查全率”以检索为例,可以把搜索情况用下图表示:相关不相关检索到AB未检索到CDA:检索到的,相关的B:检索到的,但是不相关的C:未检索到的,但却是相关的D:未检索到的,也不相关... 阅读全文
posted @ 2015-04-01 17:58 dayday+up 阅读(630) 评论(0) 推荐(0)
摘要:算法过程如下:1)从N个文档随机选取K个文档作为质心2)对剩余的每个文档测量其到每个质心的距离,并把它归到最近的质心的类3)重新计算已经得到的个各类的质心4)迭代2~3步直至新的质心与原质心相等或小于指定阈值,算法结束优点:1.算法快速,简单 2.对大数据集有较高的效率并且是可伸缩性的 ... 阅读全文
posted @ 2015-04-01 09:58 dayday+up 阅读(216) 评论(0) 推荐(0)
摘要:线性相关计算 corrcoef(a,b) a,b-行向量 阅读全文
posted @ 2015-03-19 13:41 dayday+up 阅读(811) 评论(0) 推荐(0)
摘要:brew install freetypebrew install libpngsudo easy_install pip#图形显示模块sudo pip install matplotlib输入以下命令来测试是否安装成功:python -c 'import matplotlib.pyplot as ... 阅读全文
posted @ 2015-01-19 18:57 dayday+up 阅读(1372) 评论(0) 推荐(0)
摘要:利用Logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类。训练分类器时的做法就是寻找最佳拟合参数,使用的时最优化算法。优点:计算代价不高,利于理解和实现。缺点:容易欠拟合,分类精度可能不高。适用数据类型:数值型和标称型数据。最优化算法:1基本的梯度上升法 2改... 阅读全文
posted @ 2014-12-30 20:32 dayday+up 阅读(890) 评论(0) 推荐(0)
摘要:优点:在数据少的情况下仍然有效,可以处理多类别问题。缺点:对于输入数据的准备方式较为敏感。适用数据类型:标称型数据。使用条件概率来分类贝叶斯决策理论计算两个概率p1(x,y)和p2(x,y):·如果p1(x,y) > p2(x,y),那么属于类别1;·如果p2(x,y) > p1(x,y),那么属于... 阅读全文
posted @ 2014-12-26 15:53 dayday+up 阅读(204) 评论(0) 推荐(0)
摘要:决策树算法是一种逼近离散函数值的方法,是一种典型的分类方法。决策树算法构造决策树来发现数据中蕴涵的分类规则。如何构造精度高,规模小的决策树是决策树算法的核心内容。一般情况下分两步进行,1.决策树的生成。2.决策树的剪枝。(对上一个阶段生成的决策树进行检验,校正和修下的过程,方法:使用测试数据集校... 阅读全文
posted @ 2014-12-17 13:49 dayday+up 阅读(1045) 评论(0) 推荐(0)