11 2019 档案
摘要:kmeans 算法在找到数据区域簇中心时,总是交替执行两个步骤:(1)将每个数据点分配给最近的簇中心;(2)通过计算将每个簇中心设置为属于该簇的所有数据的平均值。如果簇的分配趋于收敛,或迭代次数达到设定值,算法结束。 1、mglearn 演示 kmeans 的迭代过程 import mglearn
阅读全文
摘要:凝聚聚类以迭代方式合并两个最近的簇。可参看下面的示意过程: 1、mglearn 演示代码 import mglearn import matplotlib.pyplot as plt mglearn.plots.plot_agglomerative_algorithm() plt.show() 2、
阅读全文
摘要:1、因为要下载的数据过大,运行缓慢,或者直接就报错:可手动下载数据解压至C:\Users\Administrator\scikit_learn_data\lfw_home 路径。 对每一张图片而言完整的路径是:"C:\Users\Administrator\scikit_learn_data\lfw
阅读全文
摘要:主成分分析(PCA)是一种旋转数据集的方法,旋转后特征在统计意义上不相关。 用二维模拟数据集展示如下: import mglearn import matplotlib.pyplot as plt mglearn.plots.plot_pca_illustration() plt.show() 按语
阅读全文
摘要:数据预处理时进行特征值的放缩,应该在训练集合测试集上进行相同的放缩,换言之放缩的标准都应该是在测试集上学习到的。 下面展示最大最下放缩的效果: from matplotlib.pyplot import as plt from sklearn.datasets import make_blobs f
阅读全文
摘要:介绍:创建一个模拟数据集,构建一个包含 5 棵决策树的随机森林分类模型,可视化每棵树和集成分类器的决策边界,比较研究。 from sklearn.ensemble import RandomForestClassifier from sklearn.datasets import make_moon
阅读全文
摘要:人脸数据集 faces = fetch_lfw_people()链接:https://pan.baidu.com/s/1nJ-7mz1MYYYeIDkGTJI70g 提取码:vykm
阅读全文
摘要:1、调用 mglearn 的模型 import mglearn%matplotlib notebooktree = mglearn.plots.plot_tree_not_monotone()display(tree) 2、需要从 IPython.display 模块中导入 display() 函数
阅读全文
摘要:1、从下面的链接页面出下载 .msi 文件 https://graphviz.gitlab.io/_pages/Download/Download_windows.html 2、下载完成后安装 graphhviz 3、将 ......\Graphviz2.38\bin 添加到系统的环境变量中。 4、
阅读全文
摘要:好长一段时间一直以为 k 近邻模型就是做分类用的,其实还可以做回归任务。借助 mglearn 的示例可以很好的理解。 1、k = 1 import mglearn import matplotlib.pyplot as plt mglearn.plots.plot_knn_regression(n_
阅读全文
摘要:knn 即 k 近邻 1、k = 1 import mglearn import matplotlib.pyplot as plt mglearn.plots.plot_knn_classification(n_neighbors=1) plt.show() 2、k = 2 import mglea
阅读全文
摘要:Python 安装第三方库,一般都在命令行窗口运行如下的语句:(以 scikit-learn 为例) pip install scikit-learn 但是,有时候安装失败,可尝试下面的语句: python -m pip install --user scikit-learn 对于单独安装的 pyt
阅读全文
摘要:1、从 sklearn 中加载数据 from sklearn.datasets import load_iris iris = load_iris() 2、打印相关信息(一) print('1、Type of iris dataset:\n{}'.format(type(iris))) print(
阅读全文
摘要:1、混淆矩阵: 预测类标 1 0 合计 真 实 类 标 1 TP FN P 0 FP TN N 合计 P' N' P+N 混淆矩阵的四个术语:真正例 / 真阳性(TP),真负例 / 真阴性(TN),假正例 / 假阳性(FP)、假负例 / 假阴性(FN)。 2、分类器涉及的常见评估度量: 度量 公式
阅读全文
摘要:将 get_dummies 方法应用于 DataFrame 数据是,它只对字符串列进行转换。 示例 1、创建一个示例数据集 import pandas as pd data = pd.DataFrame({'color':['blue', 'green', 'red'],'size': ['M',
阅读全文
摘要:说明:如果要编码的特征值是分类数据,用 LabelEncoder 类直接编码就可以。进行独热编码的数据一般是顺序型数据,这类数据的原始形式一般是字符串。在进行独热编码之前,应先将映射为数值(这在 SPSS 和 R 语言中极易实现)。 示例 1、创建一个示例数据集 import pandas as p
阅读全文
摘要:链接:https://pan.baidu.com/s/1wS49VlA2uriiuFBdKbfYmQ 提取码:5sem
阅读全文
摘要:示例: 1、简单创建一个数据集 import pandas as pd df = pd.DataFrame([['乔峰', 'I', 95, '降龙十八掌', 'A'], ['虚竹', 'II', 93, '天上六阳掌', 'B'], ['段誉', 'II', 92, '六脉神剑', 'B'], [
阅读全文
摘要:功能强大的 scikit-learn 库中有 Imputer 类可以帮助数据工作者方便地完成缺失数据填充的工作! 1、创建示例数据 import pandas as pdfrom io import StringIOdata = """I,II,III,IV 10,11,12,13 15,16,,1
阅读全文
摘要:介绍:借助 scikit-learn 库,用 iris 数据集中的花瓣数据和类标数据训练一个决策树模型,可视化模型的决策边界和数据集中的样本。 1、定义可视化函数 import numpy as np import matplotlib.pyplot as plt from matplotlib.c
阅读全文
摘要:1、定义分类模型决策区域可视化的函数 import numpy as np import matplotlib.pyplot as plt from matplotlib.colors import ListedColormap def plot_decision_regions(X, y, cla
阅读全文
摘要:1、用 NumPy 中的 logical_xor() 函数创建一个二维的“异或”数据集 import numpy as np import matplotlib.pyplot as plt np.random.seed(0) X_xor = np.random.normal(0, 1, (300,
阅读全文
摘要:介绍:用 scikit-learn 库的 SDGClassifier 在 iris 数据集上训练一个基于随机梯度下降的 Logistic回归模型,用事先定义一个可视化分类器模型决策区域的函数在二维图像中绘制决策区域、训练样本和测试样本。 1、可视化决策区域的函数 import numpy as np
阅读全文
摘要:介绍:用 scikit-learn 库的 SDGClassifier 在 iris 数据集上训练一个基于随机梯度下降的 感知器 模型,用事先定义一个可视化分类器模型决策区域的函数在二维图像中绘制决策区域、训练样本和测试样本。 1、定义可视化函数 import numpy as np import m
阅读全文
摘要:介绍:用 scikit-learn 库的 SDGClassifier 在 iris 数据集上训练一个基于随机梯度下降的 SMV 模型,用事先定义一个可视化分类器模型决策区域的函数在二维图像中绘制决策区域、训练样本和测试样本。 1、可视化决策区域函数 import numpy as np import
阅读全文
摘要:介绍:先定义一个可视化分类器模型决策区域的函数,在 iris 数据集上划分训练集和测试集,并将特征值数据进行标准化,调用 scikit-learn 库的支持向量机算法在划分的训练集上训练一个 SVM 分类模型,在二维图像中绘制决策区域、训练样本和测试样本。 1、定义一个可视化分类模型决策区域的函数。
阅读全文
摘要:介绍:先定义一个可视化分类器模型决策区域的函数,用 iris 数据集划分训练集和测试集,并将特征值数据进行标准化,调用 scikit-learn 库的逻辑斯谛算法在划分的训练集上训练一个逻辑斯谛回归分类模型,在二维图像中绘制决策区域、训练样本和测试样本。 1、定义决策区域可视化函数。 (代码如下)
阅读全文
摘要:1、通过梯度下降最小化代价函数来实现 Adaline 算法 import numpy as np class AdalineGD(): """通过梯度下降最小化代价函数算法实现的单层自适应线性神经网络分类器 参数 eta: 线性学习速率,[0.0, 1.0] 上的浮点数 n_iter: 对整个训练数
阅读全文
摘要:1、用 Python 实现 Rosenblatt 感知器算法 import numpy as np class Perceptron(): """感知机分类器 参数 eta: 学习速率,区间 [0.0, 1.0] 上的浮点数 n_iter: 迭代次数 属性 w_: 权重,1维数组 errors_:
阅读全文
摘要:感知机算法,代码如下: import numpy as np class Perceptron(): """感知机分类器 参数 eta: 学习速率,区间 [0.0, 1.0] 上的浮点数 n_iter: 迭代次数 属性 w_: 权重,1维数组 errors_: 以列表形式存储每一次迭代过程中分类错误
阅读全文
摘要:https://pan.baidu.com/s/1JlZM3ltkpaJVM5oZypw7Og 提取码:9tah
阅读全文
摘要:1、设置路径,创建新 workbook, 写入数据,添加 公式 2、保存上面的表格,设置 data_only=True 重新加载,公式单元格不显示内容 3、在设定的路径中,用 Excel 打开上一步 python 保存的 formulaTest.xlsx 文件,在关闭之前选择保存,再重新加载
阅读全文

浙公网安备 33010602011771号