机器学习 - 随笔分类 - dayday+up

scikit-learn使用方法

摘要：1.支持向量机 #_*_ coding:utf-8 _*_ from sklearn import datasets from sklearn import svm #装载内部测试数据集 digits = datasets.load_digits() #设置参数 clf = svm.SVC(gamm 阅读全文

posted @ 2016-03-11 15:45 dayday+up 阅读(893) 评论(0) 推荐(0)

多元线性回归(pandas/scikit-learn)

摘要：import pandas as pd from sklearn.cross_validation import train_test_split from sklearn.linear_model import LinearRegression #数据1 tem16_1 = [3113,3122, 阅读全文

posted @ 2016-03-04 15:55 dayday+up 阅读(2413) 评论(0) 推荐(0)

维特比算法基础

摘要：维特比算法是一个特殊，但应用最广的动态规划算法。利用动态规划，可以解决任何一个图中的最短路径问题。而维特比算法是针对一个特殊的图--篱笆网络(Lattice)的有向图最短路径问题而提出的。它之所以重要是因为，凡是使用隐含马尔科夫模型描述的问题都可以用它来解码。假如用户输入的拼音是y1,y2,... 阅读全文

posted @ 2015-07-29 17:12 dayday+up 阅读(1747) 评论(0) 推荐(0)

人工神经网络基础与研究内容

摘要：人工神经网络是对生物神经系统的模拟。它的信息处理功能是由网络单元（神经元）的输入输出特性（激活特性），网络的拓扑结构（神经元的连接方式），连接权大小（突触联系强度）和神经元的阈值（可视为特殊的连接权）等决定。与数字计算机比较，人工神经网络在构成原理和功能特点等方面更加接近人脑，它不是按给定... 阅读全文

posted @ 2015-07-28 11:24 dayday+up 阅读(997) 评论(0) 推荐(0)

Mahout0.9安装与配置（完全分布式模式下运行）

摘要：安装Mahout之前，一定要把hadoop装好，hadoop的安装方法可以参考我的前一篇随笔，我安装的是hadoop2.7.0，具体方法在此不做介绍。1.首先下载相应版本的Mahout:axel -n 10 http://archive.apache.org/dist/mahout/0.9/maho... 阅读全文

posted @ 2015-06-30 17:41 dayday+up 阅读(1233) 评论(2) 推荐(1)

手写数字0-9的识别代码（SVM支持向量机）

摘要：帮一个贴吧的朋友改的一段代码，源代码来自《机器学习实战》原代码的功能是识别0和9两个数字经过改动之后可以识别0~9，并且将分类器的产生和测试部分分开来写，免得每次测试数据都要重新生成分类器一次。from numpy import *from time import sleepdef loadData... 阅读全文

posted @ 2015-05-06 17:03 dayday+up 阅读(1945) 评论(0) 推荐(0)

使用Apriori算法进行关联分析

摘要：关联分析是一种在大规模数据集中寻找有趣关系的任务。这些关系可以有两种形式：频繁项集或者关联规则。频繁项集是指经常出现在一块的物品的集合，关联规则暗示两种物品之间可能存在很强的关系。一个项集的支持度被定义为数据集中包含该项集的记录所占的比例。可信度或置信度是针对一条诸如{尿布}->{葡萄酒}的关联规则... 阅读全文

posted @ 2015-04-21 16:34 dayday+up 阅读(696) 评论(0) 推荐(0)

AdaBoost

摘要：AdaBoost是adaptive boosting的缩写，其运行过程如下：1.训练数据中得每个样本，并赋予其一个权重，这些权重构成了向量D。一开始，这些权重都初始化成相等值。2.首先再训练数据上训练出一个弱分类器并计算改分类器的错误率，然后在同一数据集上再次训练弱分类器。3.在分类器的第二次训练中... 阅读全文

posted @ 2015-04-20 17:18 dayday+up 阅读(332) 评论(0) 推荐(0)

准确率(Precision),召回率(Recall)以及综合评价指标(F1-Measure)

摘要：准确率和召回率是数据挖掘中预测，互联网中得搜索引擎等经常涉及的两个概念和指标。准确率：又称“精度”，“正确率”召回率：又称“查全率”以检索为例，可以把搜索情况用下图表示：相关不相关检索到AB未检索到CDA:检索到的，相关的B:检索到的，但是不相关的C:未检索到的，但却是相关的D:未检索到的，也不相关... 阅读全文

posted @ 2015-04-01 17:58 dayday+up 阅读(630) 评论(0) 推荐(0)

K-means算法-聚类

摘要：算法过程如下：1）从N个文档随机选取K个文档作为质心2）对剩余的每个文档测量其到每个质心的距离，并把它归到最近的质心的类3）重新计算已经得到的个各类的质心4）迭代2~3步直至新的质心与原质心相等或小于指定阈值，算法结束优点：1.算法快速，简单 2.对大数据集有较高的效率并且是可伸缩性的 ... 阅读全文

posted @ 2015-04-01 09:58 dayday+up 阅读(216) 评论(0) 推荐(0)

用线性回归寻找到最佳拟合直线

摘要：线性相关计算 corrcoef(a,b) a,b-行向量阅读全文

posted @ 2015-03-19 13:41 dayday+up 阅读(811) 评论(0) 推荐(0)

在mac下安装matplotlib,xlrd

摘要：brew install freetypebrew install libpngsudo easy_install pip#图形显示模块sudo pip install matplotlib输入以下命令来测试是否安装成功：python -c 'import matplotlib.pyplot as ... 阅读全文

posted @ 2015-01-19 18:57 dayday+up 阅读(1372) 评论(0) 推荐(0)

机器学习基础-Logistic回归1

摘要：利用Logistic回归进行分类的主要思想是：根据现有数据对分类边界线建立回归公式，以此进行分类。训练分类器时的做法就是寻找最佳拟合参数，使用的时最优化算法。优点：计算代价不高，利于理解和实现。缺点：容易欠拟合，分类精度可能不高。适用数据类型：数值型和标称型数据。最优化算法：1基本的梯度上升法 2改... 阅读全文

posted @ 2014-12-30 20:32 dayday+up 阅读(890) 评论(0) 推荐(0)

朴素贝叶斯

摘要：优点：在数据少的情况下仍然有效，可以处理多类别问题。缺点：对于输入数据的准备方式较为敏感。适用数据类型：标称型数据。使用条件概率来分类贝叶斯决策理论计算两个概率p1(x,y)和p2(x,y)：·如果p1(x,y) > p2(x,y)，那么属于类别1；·如果p2(x,y) > p1(x,y)，那么属于... 阅读全文

posted @ 2014-12-26 15:53 dayday+up 阅读(204) 评论(0) 推荐(0)

决策树算法

摘要：决策树算法是一种逼近离散函数值的方法，是一种典型的分类方法。决策树算法构造决策树来发现数据中蕴涵的分类规则。如何构造精度高，规模小的决策树是决策树算法的核心内容。一般情况下分两步进行，1.决策树的生成。2.决策树的剪枝。（对上一个阶段生成的决策树进行检验，校正和修下的过程，方法：使用测试数据集校... 阅读全文

posted @ 2014-12-17 13:49 dayday+up 阅读(1045) 评论(0) 推荐(0)

dayday+up

随笔分类 - 机器学习

公告