博客园 - hudongni1
uuid:24b78886-0ed1-41c2-8670-e3f31dcf42c4;id=21574
2017-08-29T09:50:30Z
hudongni1
https://www.cnblogs.com/hudongni1/
feed.cnblogs.com
https://www.cnblogs.com/hudongni1/p/5511491.html
16-GDBT(MART) 迭代决策树入门教程 | 简介 - hudongni1
转载:http://blog.csdn.net/w28971023/article/details/8240756 GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法
2016-05-20T03:33:00Z
2016-05-20T03:33:00Z
hudongni1
https://www.cnblogs.com/hudongni1/
【摘要】转载:http://blog.csdn.net/w28971023/article/details/8240756 GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法 <a href="https://www.cnblogs.com/hudongni1/p/5511491.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/hudongni1/p/5507006.html
14-利用SVD简化数据 - hudongni1
参考:http://blog.csdn.net/geekmanong/article/details/50494936 http://www.2cto.com/kf/201503/383087.html SVD(Singular Value Decomposition)奇异值分解: 优点:用来简化数
2016-05-18T14:46:00Z
2016-05-18T14:46:00Z
hudongni1
https://www.cnblogs.com/hudongni1/
【摘要】参考:http://blog.csdn.net/geekmanong/article/details/50494936 http://www.2cto.com/kf/201503/383087.html SVD(Singular Value Decomposition)奇异值分解: 优点:用来简化数 <a href="https://www.cnblogs.com/hudongni1/p/5507006.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/hudongni1/p/5436972.html
Python下的机器学习工具sklearn--数据预处理 - hudongni1
1.数据标准化(Standardization or Mean Removal and Variance Scaling) 进行标准化缩放的数据均值为0,具有单位方差。 同样我们也可以通过preprocessing模块提供的Scaler(StandardScaler 0.15以后版本)工具类来实现这
2016-04-26T14:31:00Z
2016-04-26T14:31:00Z
hudongni1
https://www.cnblogs.com/hudongni1/
【摘要】1.数据标准化(Standardization or Mean Removal and Variance Scaling) 进行标准化缩放的数据均值为0,具有单位方差。 同样我们也可以通过preprocessing模块提供的Scaler(StandardScaler 0.15以后版本)工具类来实现这 <a href="https://www.cnblogs.com/hudongni1/p/5436972.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/hudongni1/p/5392834.html
人工智能的学习路径 - hudongni1
方法一 《用Python 进行自然语言处理》(东南大学出版社) cs181.1伯克利人工智能课程(edX) 斯坦福机器学习课程(Coursera) cs229 斯坦福机器学习讲义 一个文本分类的project 《统计学习方法》(李航,清华大学出版社) Pattern Recognition And
2016-04-14T13:28:00Z
2016-04-14T13:28:00Z
hudongni1
https://www.cnblogs.com/hudongni1/
【摘要】方法一 《用Python 进行自然语言处理》(东南大学出版社) cs181.1伯克利人工智能课程(edX) 斯坦福机器学习课程(Coursera) cs229 斯坦福机器学习讲义 一个文本分类的project 《统计学习方法》(李航,清华大学出版社) Pattern Recognition And <a href="https://www.cnblogs.com/hudongni1/p/5392834.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/hudongni1/p/5361675.html
scikit-learn的主要模块和基本使用 - hudongni1
1.加载数据(Data Loading) 假设输入是特征矩阵或者csv文件,首先数据被载入内存。 scikit-learn的实现使用了NumPy中的arrays,所以,使用NumPy来载入csv文件。以下是从UCI机器学习数据仓库中下载的数据。 2.数据归一化(Data Normalization)
2016-04-07T11:18:00Z
2016-04-07T11:18:00Z
hudongni1
https://www.cnblogs.com/hudongni1/
【摘要】1.加载数据(Data Loading) 假设输入是特征矩阵或者csv文件,首先数据被载入内存。 scikit-learn的实现使用了NumPy中的arrays,所以,使用NumPy来载入csv文件。以下是从UCI机器学习数据仓库中下载的数据。 2.数据归一化(Data Normalization) <a href="https://www.cnblogs.com/hudongni1/p/5361675.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/hudongni1/p/5361424.html
Recall(召回率);Precision(准确率);F1-Meature(综合评价指标);true positives;false positives;false negatives. - hudongni1
Recall(召回率);Precision(准确率);F1-Meature(综合评价指标);在信息检索(如搜索引擎)、自然语言处理和检测分类中经常会使用这些参数。 Precision:被检测出来的信息当中正确的或者相关的(也就是你想要的)信息中所占的比例(TP占预测总正样本的比例); Recall:
2016-04-06T14:28:00Z
2016-04-06T14:28:00Z
hudongni1
https://www.cnblogs.com/hudongni1/
【摘要】Recall(召回率);Precision(准确率);F1-Meature(综合评价指标);在信息检索(如搜索引擎)、自然语言处理和检测分类中经常会使用这些参数。 Precision:被检测出来的信息当中正确的或者相关的(也就是你想要的)信息中所占的比例(TP占预测总正样本的比例); Recall: <a href="https://www.cnblogs.com/hudongni1/p/5361424.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/hudongni1/p/5361177.html
Python机器学习库scikit-learn实践 - hudongni1
用Anaconda的spyder:新建train_test.py 结果: 在这个数据集中,由于数据分布的团簇性较好(如果对这个数据库了解的话,看它的t-SNE映射图就可以看出来。由于任务简单,其在deep learning界已被认为是toy dataset),因此KNN的效果不赖。GBDT是个非常不
2016-04-06T13:19:00Z
2016-04-06T13:19:00Z
hudongni1
https://www.cnblogs.com/hudongni1/
【摘要】用Anaconda的spyder:新建train_test.py 结果: 在这个数据集中,由于数据分布的团簇性较好(如果对这个数据库了解的话,看它的t-SNE映射图就可以看出来。由于任务简单,其在deep learning界已被认为是toy dataset),因此KNN的效果不赖。GBDT是个非常不 <a href="https://www.cnblogs.com/hudongni1/p/5361177.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/hudongni1/p/5345403.html
matplotlib中使用imshow绘制二维图 - hudongni1
#coding:utf-8 from matplotlib import mpl import matplotlib.pyplot as plt#载入matplotlib快速绘图的函数库 import numpy as np data = np.clip(np.random.randn(5,5),-
2016-04-01T08:37:00Z
2016-04-01T08:37:00Z
hudongni1
https://www.cnblogs.com/hudongni1/
【摘要】#coding:utf-8 from matplotlib import mpl import matplotlib.pyplot as plt#载入matplotlib快速绘图的函数库 import numpy as np data = np.clip(np.random.randn(5,5),- <a href="https://www.cnblogs.com/hudongni1/p/5345403.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/hudongni1/p/5344955.html
Python安装 - hudongni1
方法一: 1.安装python-2.7.6.amd64.msi(安装在D:\Program Files\Python\python27\下) numpy-MKL-1.8.0.win-amd64-py2.7.exe matplotlib-1.3.1.win-amd64-py2.7.exe 2.配置py
2016-04-01T06:48:00Z
2016-04-01T06:48:00Z
hudongni1
https://www.cnblogs.com/hudongni1/
【摘要】方法一: 1.安装python-2.7.6.amd64.msi(安装在D:\Program Files\Python\python27\下) numpy-MKL-1.8.0.win-amd64-py2.7.exe matplotlib-1.3.1.win-amd64-py2.7.exe 2.配置py <a href="https://www.cnblogs.com/hudongni1/p/5344955.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/hudongni1/p/5210771.html
6 支持向量机SVM - hudongni1
注:理论部分参考:http://blog.csdn.net/v_july_v/article/details/7624837 (1)SVM是现成最好的分类器,这里“现成”指的是分类器不加修改即可直接使用。 (2)SVM的实现方法有很多,最常用的就是序列最小最优化算法(SMO,sequentialmi
2016-02-23T09:46:00Z
2016-02-23T09:46:00Z
hudongni1
https://www.cnblogs.com/hudongni1/
【摘要】注:理论部分参考:http://blog.csdn.net/v_july_v/article/details/7624837 (1)SVM是现成最好的分类器,这里“现成”指的是分类器不加修改即可直接使用。 (2)SVM的实现方法有很多,最常用的就是序列最小最优化算法(SMO,sequentialmi <a href="https://www.cnblogs.com/hudongni1/p/5210771.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/hudongni1/p/5189720.html
5 Logistic回归(二) - hudongni1
5.2.4 训练算法:随机梯度上升 梯度上升算法:在每次更新回归系数时都需要遍历整个数据集,在数十亿样本上该算法复杂度太高。 改进方法:随机梯度上升算法:一次仅用一个样本点更新回归系数。 由于可以在新样本到来时对分类器进行增量式更新,因此随机梯度上升算法是一个在线学习算法。与“在线学习”相对应,一次
2016-02-17T15:07:00Z
2016-02-17T15:07:00Z
hudongni1
https://www.cnblogs.com/hudongni1/
【摘要】5.2.4 训练算法:随机梯度上升 梯度上升算法:在每次更新回归系数时都需要遍历整个数据集,在数十亿样本上该算法复杂度太高。 改进方法:随机梯度上升算法:一次仅用一个样本点更新回归系数。 由于可以在新样本到来时对分类器进行增量式更新,因此随机梯度上升算法是一个在线学习算法。与“在线学习”相对应,一次 <a href="https://www.cnblogs.com/hudongni1/p/5189720.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/hudongni1/p/5183212.html
5 Logistic回归(一) - hudongni1
首次接触最优化算法。介绍几个最优化算法,并利用它们训练出一个非线性函数用于分类。 假设现在有一些数据点,我们利用一条直线对这些点进行拟合(该直线为最佳拟合直线),这个拟合过程称作回归。 利用Logistic回归进行分类思想:根据现有数据对分类边界线建立回归公式,以此进行分类。 这里的“回归”一词源于
2016-02-05T07:23:00Z
2016-02-05T07:23:00Z
hudongni1
https://www.cnblogs.com/hudongni1/
【摘要】首次接触最优化算法。介绍几个最优化算法,并利用它们训练出一个非线性函数用于分类。 假设现在有一些数据点,我们利用一条直线对这些点进行拟合(该直线为最佳拟合直线),这个拟合过程称作回归。 利用Logistic回归进行分类思想:根据现有数据对分类边界线建立回归公式,以此进行分类。 这里的“回归”一词源于 <a href="https://www.cnblogs.com/hudongni1/p/5183212.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/hudongni1/p/5174070.html
4 基于概率论的分类方法:朴素贝叶斯(三) - hudongni1
4.7 示例:使用朴素贝叶斯分类器从个人广告中获取区域倾向 前面介绍了两个应用:1.过滤网站的恶意留言;2.过滤垃圾邮件。 4.7.1 收集数据:导入RSS源 Universal Feed Parser是Python中最常用的RSS程序库。 在Python提示符下输入: 构建类似于spamTest(
2016-01-31T14:29:00Z
2016-01-31T14:29:00Z
hudongni1
https://www.cnblogs.com/hudongni1/
【摘要】4.7 示例:使用朴素贝叶斯分类器从个人广告中获取区域倾向 前面介绍了两个应用:1.过滤网站的恶意留言;2.过滤垃圾邮件。 4.7.1 收集数据:导入RSS源 Universal Feed Parser是Python中最常用的RSS程序库。 在Python提示符下输入: 构建类似于spamTest( <a href="https://www.cnblogs.com/hudongni1/p/5174070.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/hudongni1/p/5171418.html
4 基于概率论的分类方法:朴素贝叶斯(二) - hudongni1
4.6 示例:使用朴素贝叶斯过滤垃圾邮件 使用朴素贝叶斯解决一些现实生活中的问题时,需要从文本内容-->字符串列表-->词向量。 下面,将了解朴素贝叶斯一个最著名的应用:电子邮件垃圾过滤。 4.6.1 准备数据:切分文本 对于一个文本字符串,可以使用Python的string.split()方法切分
2016-01-30T09:53:00Z
2016-01-30T09:53:00Z
hudongni1
https://www.cnblogs.com/hudongni1/
【摘要】4.6 示例:使用朴素贝叶斯过滤垃圾邮件 使用朴素贝叶斯解决一些现实生活中的问题时,需要从文本内容-->字符串列表-->词向量。 下面,将了解朴素贝叶斯一个最著名的应用:电子邮件垃圾过滤。 4.6.1 准备数据:切分文本 对于一个文本字符串,可以使用Python的string.split()方法切分 <a href="https://www.cnblogs.com/hudongni1/p/5171418.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/hudongni1/p/5140698.html
4 基于概率论的分类方法:朴素贝叶斯(一) - hudongni1
4.5 使用Python进行文本分类 4.5.1 准备数据:从文本中构建词向量 4.5.2 训练算法:从词向量计算概率 4.5.3 测试算法:根据显示情况修改分类器 拉普拉斯平滑 条件概率p(w0|1)p(w1|1)p(w2|1),如果一个为0,最后乘机也为0.为降低这种影响,可以将所有词出现数初始
2016-01-18T14:25:00Z
2016-01-18T14:25:00Z
hudongni1
https://www.cnblogs.com/hudongni1/
【摘要】4.5 使用Python进行文本分类 4.5.1 准备数据:从文本中构建词向量 4.5.2 训练算法:从词向量计算概率 4.5.3 测试算法:根据显示情况修改分类器 拉普拉斯平滑 条件概率p(w0|1)p(w1|1)p(w2|1),如果一个为0,最后乘机也为0.为降低这种影响,可以将所有词出现数初始 <a href="https://www.cnblogs.com/hudongni1/p/5140698.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/hudongni1/p/5127505.html
MAC环境下生成Apple证书教程 - hudongni1
在MAC操作系统下,生成Apple证书比较简单,全图形化操作。一、使用Keychain Access(钥匙串访问)MAC操作系统对证书的处理都采用了“Keychain Access”(中文系统名为“钥匙串访问”)。使用Keychain Access的方式是,在Finder - Utilities -...
2016-01-13T07:46:00Z
2016-01-13T07:46:00Z
hudongni1
https://www.cnblogs.com/hudongni1/
【摘要】在MAC操作系统下,生成Apple证书比较简单,全图形化操作。一、使用Keychain Access(钥匙串访问)MAC操作系统对证书的处理都采用了“Keychain Access”(中文系统名为“钥匙串访问”)。使用Keychain Access的方式是,在Finder - Utilities -... <a href="https://www.cnblogs.com/hudongni1/p/5127505.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/hudongni1/p/5024450.html
3 决策树(一) - hudongni1
3.1 决策树的构造 3.1.1 信息增益 熵(entropy)是信息的期望值。如果待分类的事物可能划分在多个分类中,则符号xi的信息定义为:,p(xi)为该分类的概率。 为了计算熵,需计算所有类别所有可能包含的信息期望值:,n是分类的数目。 3.1.2 划分数据集 分类算法需要:上述的测量信息熵、
2015-12-06T13:21:00Z
2015-12-06T13:21:00Z
hudongni1
https://www.cnblogs.com/hudongni1/
【摘要】3.1 决策树的构造 3.1.1 信息增益 熵(entropy)是信息的期望值。如果待分类的事物可能划分在多个分类中,则符号xi的信息定义为:,p(xi)为该分类的概率。 为了计算熵,需计算所有类别所有可能包含的信息期望值:,n是分类的数目。 3.1.2 划分数据集 分类算法需要:上述的测量信息熵、 <a href="https://www.cnblogs.com/hudongni1/p/5024450.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/hudongni1/p/4994773.html
2 kNN-K-Nearest Neighbors algorithm k邻近算法(二) - hudongni1
2.3 示例:手写识别系统 2.3 .1 准备数据:将图像转换为测试向量 训练样本:trainingDigits 2000个例子,每个数字大约200个样本 测试数据:testDigits 大约900个 为使用前面两个例子的分类器,我们需要先把图像格式转换为一个向量。将32x32二进制图像矩阵转换为1
2015-11-25T07:16:00Z
2015-11-25T07:16:00Z
hudongni1
https://www.cnblogs.com/hudongni1/
【摘要】2.3 示例:手写识别系统 2.3 .1 准备数据:将图像转换为测试向量 训练样本:trainingDigits 2000个例子,每个数字大约200个样本 测试数据:testDigits 大约900个 为使用前面两个例子的分类器,我们需要先把图像格式转换为一个向量。将32x32二进制图像矩阵转换为1 <a href="https://www.cnblogs.com/hudongni1/p/4994773.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/hudongni1/p/4991930.html
2 kNN-K-Nearest Neighbors algorithm k邻近算法(一) - hudongni1
给定训练数据样本和标签,对于某测试的一个样本数据,选择距离其最近的k个训练样本,这k个训练样本中所属类别最多的类即为该测试样本的预测标签。简称kNN。通常k是不大于20的整数,这里的距离一般是欧式距离。 2:python代码 2.1 kNN概述 2.1.1:准备:使用python导入数据 2.2.1
2015-11-24T08:07:00Z
2015-11-24T08:07:00Z
hudongni1
https://www.cnblogs.com/hudongni1/
【摘要】给定训练数据样本和标签,对于某测试的一个样本数据,选择距离其最近的k个训练样本,这k个训练样本中所属类别最多的类即为该测试样本的预测标签。简称kNN。通常k是不大于20的整数,这里的距离一般是欧式距离。 2:python代码 2.1 kNN概述 2.1.1:准备:使用python导入数据 2.2.1 <a href="https://www.cnblogs.com/hudongni1/p/4991930.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/hudongni1/p/4540271.html
PICT安装及使用 - hudongni1
一:PICT安装1.下载pict33.msi:http://vdisk.weibo.com/s/d6k2tcgXDa7Eq2.安装:二:PICT的使用1.在F:\PICT 目录下,新建一个txt文本,并将参数填入其中:(txt文件名最好是英文名,文本标点必须是英文标点)2.打开cmd,进入命令提示符...
2015-05-30T05:58:00Z
2015-05-30T05:58:00Z
hudongni1
https://www.cnblogs.com/hudongni1/
【摘要】一:PICT安装1.下载pict33.msi:http://vdisk.weibo.com/s/d6k2tcgXDa7Eq2.安装:二:PICT的使用1.在F:\PICT 目录下,新建一个txt文本,并将参数填入其中:(txt文件名最好是英文名,文本标点必须是英文标点)2.打开cmd,进入命令提示符... <a href="https://www.cnblogs.com/hudongni1/p/4540271.html" target="_blank">阅读全文</a>