算法 - 随笔分类 - 你的深渊

ROC曲线的绘制

摘要：1 曲线绘制 1.1 如果概率的序列是（1:0.9,2:0.7,3:0.8,4:0.6,5:0.5,6:0.4）。与原来的序列一起，得到序列（从概率从高到低排） 110000 0.9 0.8 0.7 0.6 0.5 0.4 绘制的步骤是： 1）把概率序列从高到低排序，得到顺序（1:0.9,3:0. 阅读全文

posted @ 2021-02-04 13:21 你的深渊阅读(1204) 评论(0) 推荐(0)

分类评估方法

摘要：1.分类评估方法 1.1 精确率与召回率 1.1.1 混淆矩阵在分类任务下，预测结果(Predicted Condition)与正确标记(True Condition)之间存在四种不同的组合，构成混淆矩阵(适用于多分类) 1.1.2 精确率(Precision)与召回率(Recall) 精确率：预阅读全文

posted @ 2021-02-03 22:34 你的深渊阅读(417) 评论(0) 推荐(0)

癌症分类预测

摘要：1 背景介绍数据介绍原始数据的下载地址：https://archive.ics.uci.edu/ml/machine-learning-databases/ 数据描述（1）699条样本，共11列数据，第一列用语检索的id，后9列分别是与肿瘤相关的医学特征，最后一列表示肿瘤类型的数值。（2）阅读全文

posted @ 2021-02-02 11:22 你的深渊阅读(225) 评论(0) 推荐(0)

逻辑回归

摘要：1 逻辑回归的应用场景广告点击率是否为垃圾邮件是否患病金融诈骗虚假账号看到上面的例子，我们可以发现其中的特点，那就是都属于两个类别之间的判断。逻辑回归就是解决二分类问题的利器 2 逻辑回归的原理要想掌握逻辑回归，必须掌握两点：逻辑回归中，其输入值是什么如何判断逻辑回归的输出 2.1 阅读全文

posted @ 2021-02-01 21:51 你的深渊阅读(143) 评论(0) 推荐(0)

模型的保存和加载

摘要：1 sklearn模型的保存和加载API from sklearn.externals import joblib 保存：joblib.dump(estimator, 'test.pkl') 加载：estimator = joblib.load('test.pkl') 2 线性回归的模型保存加载案例阅读全文

posted @ 2021-01-31 16:50 你的深渊阅读(285) 评论(0) 推荐(0)

线性回归的改进-岭回归

摘要：1 API sklearn.linear_model.Ridge(alpha=1.0, fit_intercept=True,solver="auto", normalize=False) 具有l2正则化的线性回归 alpha:正则化力度，也叫 λ λ取值：0~1 1~10 solver:会根据数据阅读全文

posted @ 2021-01-30 22:59 你的深渊阅读(163) 评论(0) 推荐(0)

正则化线性模型

摘要：1 Ridge Regression (岭回归，又名 Tikhonov regularization) 岭回归是线性回归的正则化版本，即在原来的线性回归的 cost function 中添加正则项（regularization term）: 以达到在拟合数据的同时，使模型权重尽可能小的目的,岭回归代阅读全文

posted @ 2021-01-29 22:31 你的深渊阅读(220) 评论(0) 推荐(0)

欠拟合和过拟合

摘要：1 定义过拟合：一个假设在训练数据上能够获得比其他假设更好的拟合，但是在测试数据集上却不能很好地拟合数据，此时认为这个假设出现了过拟合的现象。(模型过于复杂) 欠拟合：一个假设在训练数据上不能获得更好的拟合，并且在测试数据集上也不能很好地拟合数据，此时认为这个假设出现了欠拟合的现象。(模型过于简阅读全文

posted @ 2021-01-28 21:12 你的深渊阅读(412) 评论(0) 推荐(0)

案例：波士顿房价预测

摘要：1 案例背景介绍数据介绍给定的这些特征，是专家们得出的影响房价的结果属性。我们此阶段不需要自己去探究特征是否有用，只需要使用这些特征。到后面量化很多特征需要我们自己去寻找 2 案例分析回归当中的数据大小不一致，是否会导致结果影响较大。所以需要做标准化处理。数据分割与标准化处理回归预测线性阅读全文

posted @ 2021-01-27 15:46 你的深渊阅读(554) 评论(0) 推荐(0)

线性回归api

摘要：sklearn.linear_model.LinearRegression(fit_intercept=True) 通过正规方程优化参数 fit_intercept：是否计算偏置属性 LinearRegression.coef_：回归系数 LinearRegression.intercept_：阅读全文

posted @ 2021-01-26 13:45 你的深渊阅读(95) 评论(0) 推荐(0)

梯度下降法介绍

摘要：1 全梯度下降算法（FG）计算训练集所有样本误差，对其求和再取平均值作为目标函数。权重向量沿其梯度相反的方向移动，从而使当前目标函数减少得最多。因为在执行每次更新时，我们需要在整个数据集上计算所有的梯度，所以批梯度下降法的速度会很慢，同时，批梯度下降法无法处理超出内存容量限制的数据集。批梯度下阅读全文

posted @ 2021-01-25 17:12 你的深渊阅读(228) 评论(0) 推荐(0)

线性回归的损失和优化

摘要：假设刚才的房子例子，真实的数据之间存在这样的关系：真实关系：真实房子价格 = 0.02×中心区域的距离 + 0.04×城市一氧化氮浓度 + (-0.12×自住房平均房价) + 0.254×城镇犯罪率那么现在呢，我们随意指定一个关系（猜测）随机指定关系：预测房子价格 = 0.25×中心区域的距离阅读全文

posted @ 2021-01-24 16:41 你的深渊阅读(335) 评论(0) 推荐(0)

线性回归api

摘要：1 线性回归API sklearn.linear_model.LinearRegression() LinearRegression.coef_：回归系数 2 举例 2.1 步骤分析 1.获取数据集 2.数据基本处理（该案例中省略） 3.特征工程（该案例中省略） 4.机器学习 5.模型评估（该案例中阅读全文

posted @ 2021-01-23 18:21 你的深渊阅读(64) 评论(0) 推荐(0)

线性回归简介

摘要：1 线性回归应用场景房价预测销售额度预测贷款额度预测举例： 2 什么是线性回归 2.1 定义与公式线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。特点：只有一个自变量的情况称为单变量回归，多阅读全文

posted @ 2021-01-22 11:35 你的深渊阅读(370) 评论(0) 推荐(0)

案例2：预测facebook签到位置

摘要：1 项目描述本次比赛的目的是预测一个人将要签到的地方。为了本次比赛，Facebook创建了一个虚拟世界，其中包括10公里*10公里共100平方公里的约10万个地方。对于给定的坐标集，您的任务将根据用户的位置，准确性和时间戳等预测用户下一次的签到位置。数据被制作成类似于来自移动设备的位置数据。阅读全文

posted @ 2021-01-21 14:51 你的深渊阅读(313) 评论(0) 推荐(0)

交叉验证，网格搜索

摘要：1 什么是交叉验证(cross validation) 交叉验证：将拿到的训练数据，分为训练和验证集。以下图为例：将数据分成4份，其中一份作为验证集。然后经过4次(组)的测试，每次都更换不同的验证集。即得到4组模型的结果，取平均值作为最终结果。又称4折交叉验证。 1.1 分析我们之前知道数据分为训阅读全文

posted @ 2021-01-20 12:23 你的深渊阅读(352) 评论(0) 推荐(0)

鸢尾花种类预测—流程实现

摘要：案例：鸢尾花种类预测 2.1 数据集介绍 Iris数据集是常用的分类实验数据集，由Fisher, 1936收集整理。Iris也称鸢尾花卉数据集，是一类多重变量分析的数据集。关于数据集的具体介绍： 2.2 步骤分析 1.获取数据集 2.数据基本处理 3.特征工程 4.机器学习(模型训练) 5.模型评估阅读全文

posted @ 2021-01-19 23:44 你的深渊阅读(355) 评论(0) 推荐(0)

特征工程-特征预处理

摘要：1 什么是特征预处理 1.1 特征预处理定义 scikit-learn的解释 provides several common utility functions and transformer classes to change raw feature vectors into a represen 阅读全文

posted @ 2021-01-18 15:32 你的深渊阅读(208) 评论(0) 推荐(0)

鸢尾花种类预测--数据集

摘要：1 案例：鸢尾花种类预测 Iris数据集是常用的分类实验数据集，由Fisher, 1936收集整理。Iris也称鸢尾花卉数据集，是一类多重变量分析的数据集。关于数据集的具体介绍： 2 scikit-learn中数据集介绍 2.1 scikit-learn数据集API介绍 sklearn.datase 阅读全文

posted @ 2021-01-17 11:52 你的深渊阅读(521) 评论(0) 推荐(0)

kd树

摘要：问题导入：实现k近邻算法时，主要考虑的问题是如何对训练数据进行快速k近邻搜索。这在特征空间的维数大及训练数据容量大时尤其必要。 k近邻法最简单的实现是线性扫描（穷举搜索），即要计算输入实例与每一个训练实例的距离。计算并存储好以后，再查找K近邻。当训练集很大时，计算非常耗时。为了提高kNN搜索的阅读全文

posted @ 2021-01-16 12:34 你的深渊阅读(297) 评论(0) 推荐(0)

你的深渊

代码改变世界

随笔分类 - 算法

公告