2019 年 11月文章档案 - 赏尔

mglearn 演示 kmeans 聚类算法的三个步骤

摘要：kmeans 算法在找到数据区域簇中心时，总是交替执行两个步骤：（1）将每个数据点分配给最近的簇中心；（2）通过计算将每个簇中心设置为属于该簇的所有数据的平均值。如果簇的分配趋于收敛，或迭代次数达到设定值，算法结束。 1、mglearn 演示 kmeans 的迭代过程 import mglearn 阅读全文

posted @ 2019-11-22 14:11 赏尔阅读(1072) 评论(0) 推荐(0)

Python 的 mglearn 演示凝集聚类的过程

摘要：凝聚聚类以迭代方式合并两个最近的簇。可参看下面的示意过程： 1、mglearn 演示代码 import mglearn import matplotlib.pyplot as plt mglearn.plots.plot_agglomerative_algorithm() plt.show() 2、阅读全文

posted @ 2019-11-22 13:33 赏尔阅读(551) 评论(0) 推荐(0)

sklern中 fetch_lfw_people(min_faces_per_person=20, resize=0.7) 失败的问题

摘要：1、因为要下载的数据过大，运行缓慢，或者直接就报错：可手动下载数据解压至C:\Users\Administrator\scikit_learn_data\lfw_home 路径。对每一张图片而言完整的路径是："C:\Users\Administrator\scikit_learn_data\lfw 阅读全文

posted @ 2019-11-21 01:08 赏尔阅读(2464) 评论(0) 推荐(0)

mglearn 完美演示主成分分析（PCA）

摘要：主成分分析（PCA）是一种旋转数据集的方法，旋转后特征在统计意义上不相关。用二维模拟数据集展示如下： import mglearn import matplotlib.pyplot as plt mglearn.plots.plot_pca_illustration() plt.show() 按语阅读全文

posted @ 2019-11-20 23:16 赏尔阅读(896) 评论(0) 推荐(0)

python 数据预处理之 MinMaxScaler 可视化体验

摘要：数据预处理时进行特征值的放缩，应该在训练集合测试集上进行相同的放缩，换言之放缩的标准都应该是在测试集上学习到的。下面展示最大最下放缩的效果： from matplotlib.pyplot import as plt from sklearn.datasets import make_blobs f 阅读全文

posted @ 2019-11-20 22:56 赏尔阅读(5470) 评论(0) 推荐(1)

随机森林和每棵决策树的决策边界对比

摘要：介绍：创建一个模拟数据集，构建一个包含 5 棵决策树的随机森林分类模型，可视化每棵树和集成分类器的决策边界，比较研究。 from sklearn.ensemble import RandomForestClassifier from sklearn.datasets import make_moon 阅读全文

posted @ 2019-11-20 22:23 赏尔阅读(1708) 评论(0) 推荐(1)

人脸数据集 faces = fetch_lfw_people()

摘要：人脸数据集 faces = fetch_lfw_people()链接：https://pan.baidu.com/s/1nJ-7mz1MYYYeIDkGTJI70g 提取码：vykm 阅读全文

posted @ 2019-11-20 21:41 赏尔阅读(2379) 评论(0) 推荐(0)

mglearn 学习决策树， display(tree) 报错

摘要：1、调用 mglearn 的模型 import mglearn%matplotlib notebooktree = mglearn.plots.plot_tree_not_monotone()display(tree) 2、需要从 IPython.display 模块中导入 display() 函数阅读全文

posted @ 2019-11-19 18:36 赏尔阅读(741) 评论(0) 推荐(0)

Python 加载 graphviz 库

摘要：1、从下面的链接页面出下载 .msi 文件 https://graphviz.gitlab.io/_pages/Download/Download_windows.html 2、下载完成后安装 graphhviz 3、将 ......\Graphviz2.38\bin 添加到系统的环境变量中。 4、阅读全文

posted @ 2019-11-19 16:41 赏尔阅读(972) 评论(0) 推荐(0)

KNN 回归模型

摘要：好长一段时间一直以为 k 近邻模型就是做分类用的，其实还可以做回归任务。借助 mglearn 的示例可以很好的理解。 1、k = 1 import mglearn import matplotlib.pyplot as plt mglearn.plots.plot_knn_regression(n_ 阅读全文

posted @ 2019-11-19 13:45 赏尔阅读(1617) 评论(0) 推荐(0)

KNN 分类模型推演

摘要：knn 即 k 近邻 1、k = 1 import mglearn import matplotlib.pyplot as plt mglearn.plots.plot_knn_classification(n_neighbors=1) plt.show() 2、k = 2 import mglea 阅读全文

posted @ 2019-11-19 13:42 赏尔阅读(571) 评论(0) 推荐(0)

Python 安装第三方包

摘要：Python 安装第三方库，一般都在命令行窗口运行如下的语句：(以 scikit-learn 为例） pip install scikit-learn 但是，有时候安装失败，可尝试下面的语句： python -m pip install --user scikit-learn 对于单独安装的 pyt 阅读全文

posted @ 2019-11-19 13:37 赏尔阅读(76) 评论(0) 推荐(0)

scikit-learn 中 iris 数据集的信息描述

摘要：1、从 sklearn 中加载数据 from sklearn.datasets import load_iris iris = load_iris() 2、打印相关信息（一） print('1、Type of iris dataset:\n{}'.format(type(iris))) print( 阅读全文

posted @ 2019-11-18 13:27 赏尔阅读(1237) 评论(0) 推荐(0)

ROC 曲线

摘要：1、混淆矩阵：预测类标 1 0 合计真实类标 1 TP FN P 0 FP TN N 合计 P' N' P+N 混淆矩阵的四个术语：真正例 / 真阳性（TP），真负例 / 真阴性（TN），假正例 / 假阳性（FP）、假负例 / 假阴性（FN）。 2、分类器涉及的常见评估度量：度量公式阅读全文

posted @ 2019-11-17 13:17 赏尔阅读(177) 评论(0) 推荐(0)

用 pandas 的 get_dummies 方法快速实现独热编码

摘要：将 get_dummies 方法应用于 DataFrame 数据是，它只对字符串列进行转换。示例 1、创建一个示例数据集 import pandas as pd data = pd.DataFrame({'color':['blue', 'green', 'red'],'size': ['M', 阅读全文

posted @ 2019-11-15 19:02 赏尔阅读(1675) 评论(0) 推荐(0)

借助 scikit-learn 的 OneHotEncoder 类实现特征值上的独热编码

摘要：说明：如果要编码的特征值是分类数据，用 LabelEncoder 类直接编码就可以。进行独热编码的数据一般是顺序型数据，这类数据的原始形式一般是字符串。在进行独热编码之前，应先将映射为数值（这在 SPSS 和 R 语言中极易实现）。示例 1、创建一个示例数据集 import pandas as p 阅读全文

posted @ 2019-11-15 18:48 赏尔阅读(678) 评论(0) 推荐(0)

三国杀全部人物数据集

摘要：链接：https://pan.baidu.com/s/1wS49VlA2uriiuFBdKbfYmQ 提取码：5sem 阅读全文

posted @ 2019-11-15 16:19 赏尔阅读(583) 评论(0) 推荐(0)

借助 scikit-learn 中的 LabelEncoder 类实现对数据集类标号的编码

摘要：示例： 1、简单创建一个数据集 import pandas as pd df = pd.DataFrame([['乔峰', 'I', 95, '降龙十八掌', 'A'], ['虚竹', 'II', 93, '天上六阳掌', 'B'], ['段誉', 'II', 92, '六脉神剑', 'B'], [ 阅读全文

posted @ 2019-11-15 15:29 赏尔阅读(372) 评论(0) 推荐(0)

借助 scikit-learn 以均值插补法完成缺失数据的填充

摘要：功能强大的 scikit-learn 库中有 Imputer 类可以帮助数据工作者方便地完成缺失数据填充的工作！ 1、创建示例数据 import pandas as pdfrom io import StringIOdata = """I,II,III,IV 10,11,12,13 15,16,,1 阅读全文

posted @ 2019-11-15 13:47 赏尔阅读(971) 评论(0) 推荐(0)

scikit-learn 实现一个决策树模型

摘要：介绍：借助 scikit-learn 库，用 iris 数据集中的花瓣数据和类标数据训练一个决策树模型，可视化模型的决策边界和数据集中的样本。 1、定义可视化函数 import numpy as np import matplotlib.pyplot as plt from matplotlib.c 阅读全文

posted @ 2019-11-14 20:28 赏尔阅读(426) 评论(0) 推荐(0)

iris 数据集训练一个核 SVM 模型，可视化其决策区域

摘要：1、定义分类模型决策区域可视化的函数 import numpy as np import matplotlib.pyplot as plt from matplotlib.colors import ListedColormap def plot_decision_regions(X, y, cla 阅读全文

posted @ 2019-11-14 16:27 赏尔阅读(2156) 评论(0) 推荐(0)

用核 SVM 划分有随机噪声得到的“异或”数据

摘要：1、用 NumPy 中的 logical_xor() 函数创建一个二维的“异或”数据集 import numpy as np import matplotlib.pyplot as plt np.random.seed(0) X_xor = np.random.normal(0, 1, (300, 阅读全文

posted @ 2019-11-14 15:58 赏尔阅读(450) 评论(0) 推荐(0)

scikit-learn 实现一个基于随机梯度下降的 Logistic回归模型

摘要：介绍：用 scikit-learn 库的 SDGClassifier 在 iris 数据集上训练一个基于随机梯度下降的 Logistic回归模型，用事先定义一个可视化分类器模型决策区域的函数在二维图像中绘制决策区域、训练样本和测试样本。 1、可视化决策区域的函数 import numpy as np 阅读全文

posted @ 2019-11-14 15:26 赏尔阅读(329) 评论(0) 推荐(0)

scikit-learn 实现一个基于随机梯度下降的感知器模型

摘要：介绍：用 scikit-learn 库的 SDGClassifier 在 iris 数据集上训练一个基于随机梯度下降的感知器模型，用事先定义一个可视化分类器模型决策区域的函数在二维图像中绘制决策区域、训练样本和测试样本。 1、定义可视化函数 import numpy as np import m 阅读全文

posted @ 2019-11-14 15:12 赏尔阅读(153) 评论(0) 推荐(0)

scikit-learn 实现一个基于随机梯度下降的 SMV 模型

摘要：介绍：用 scikit-learn 库的 SDGClassifier 在 iris 数据集上训练一个基于随机梯度下降的 SMV 模型，用事先定义一个可视化分类器模型决策区域的函数在二维图像中绘制决策区域、训练样本和测试样本。 1、可视化决策区域函数 import numpy as np import 阅读全文

posted @ 2019-11-14 15:07 赏尔阅读(432) 评论(0) 推荐(0)

scikit-learn 训练一个 SVM 模型，对 iris 数据集中的样本进行分类

摘要：介绍：先定义一个可视化分类器模型决策区域的函数，在 iris 数据集上划分训练集和测试集，并将特征值数据进行标准化，调用 scikit-learn 库的支持向量机算法在划分的训练集上训练一个 SVM 分类模型，在二维图像中绘制决策区域、训练样本和测试样本。 1、定义一个可视化分类模型决策区域的函数。阅读全文

posted @ 2019-11-14 00:23 赏尔阅读(2412) 评论(0) 推荐(0)

scikit-learn 训练逻辑斯谛回归模型，可视化其决策区域

摘要：介绍：先定义一个可视化分类器模型决策区域的函数，用 iris 数据集划分训练集和测试集，并将特征值数据进行标准化，调用 scikit-learn 库的逻辑斯谛算法在划分的训练集上训练一个逻辑斯谛回归分类模型，在二维图像中绘制决策区域、训练样本和测试样本。 1、定义决策区域可视化函数。（代码如下）阅读全文

posted @ 2019-11-13 23:42 赏尔阅读(476) 评论(0) 推荐(0)

用 Python 实现 Adaline 算法，抽取 iris 数据子集训练模型，绘制代价函数与训练次数的图像

摘要：1、通过梯度下降最小化代价函数来实现 Adaline 算法 import numpy as np class AdalineGD(): """通过梯度下降最小化代价函数算法实现的单层自适应线性神经网络分类器参数 eta: 线性学习速率，[0.0, 1.0] 上的浮点数 n_iter: 对整个训练数阅读全文

posted @ 2019-11-11 15:32 赏尔阅读(644) 评论(0) 推荐(0)

用 Python 可视化二维数据集的决策边界

摘要：1、用 Python 实现 Rosenblatt 感知器算法 import numpy as np class Perceptron(): """感知机分类器参数 eta: 学习速率，区间 [0.0, 1.0] 上的浮点数 n_iter: 迭代次数属性 w_: 权重，1维数组 errors_: 阅读全文

posted @ 2019-11-11 10:14 赏尔阅读(1578) 评论(0) 推荐(0)

Python 实现感知机算法，用 iriis 数据子集训练一个感知器模型

摘要：感知机算法，代码如下： import numpy as np class Perceptron(): """感知机分类器参数 eta: 学习速率，区间 [0.0, 1.0] 上的浮点数 n_iter: 迭代次数属性 w_: 权重，1维数组 errors_: 以列表形式存储每一次迭代过程中分类错误阅读全文

posted @ 2019-11-09 16:39 赏尔阅读(298) 评论(0) 推荐(0)

鸢尾花数据集 iris.data

摘要：https://pan.baidu.com/s/1JlZM3ltkpaJVM5oZypw7Og 提取码：9tah 阅读全文

posted @ 2019-11-09 14:12 赏尔阅读(620) 评论(0) 推荐(1)

openpyxl 模块在单元格中添加公式后，设置 data_only=True 没有返回值的问题

摘要：1、设置路径，创建新 workbook, 写入数据，添加公式 2、保存上面的表格，设置 data_only=True 重新加载，公式单元格不显示内容 3、在设定的路径中，用 Excel 打开上一步 python 保存的 formulaTest.xlsx 文件，在关闭之前选择保存，再重新加载阅读全文

posted @ 2019-11-06 16:21 赏尔阅读(1512) 评论(0) 推荐(1)

百里希文

锦如秀

11 2019 档案