随笔分类 -  算法

摘要:1 曲线绘制 1.1 如果概率的序列是(1:0.9,2:0.7,3:0.8,4:0.6,5:0.5,6:0.4)。 与原来的序列一起,得到序列(从概率从高到低排) 110000 0.9 0.8 0.7 0.6 0.5 0.4 绘制的步骤是: 1)把概率序列从高到低排序,得到顺序(1:0.9,3:0. 阅读全文
posted @ 2021-02-04 13:21 你的深渊 阅读(1197) 评论(0) 推荐(0)
摘要:1.分类评估方法 1.1 精确率与召回率 1.1.1 混淆矩阵 在分类任务下,预测结果(Predicted Condition)与正确标记(True Condition)之间存在四种不同的组合,构成混淆矩阵(适用于多分类) 1.1.2 精确率(Precision)与召回率(Recall) 精确率:预 阅读全文
posted @ 2021-02-03 22:34 你的深渊 阅读(408) 评论(0) 推荐(0)
摘要:1 背景介绍 数据介绍 原始数据的下载地址:https://archive.ics.uci.edu/ml/machine-learning-databases/ 数据描述 (1)699条样本,共11列数据,第一列用语检索的id,后9列分别是与肿瘤 相关的医学特征,最后一列表示肿瘤类型的数值。 (2) 阅读全文
posted @ 2021-02-02 11:22 你的深渊 阅读(222) 评论(0) 推荐(0)
摘要:1 逻辑回归的应用场景 广告点击率 是否为垃圾邮件 是否患病 金融诈骗 虚假账号 看到上面的例子,我们可以发现其中的特点,那就是都属于两个类别之间的判断。逻辑回归就是解决二分类问题的利器 2 逻辑回归的原理 要想掌握逻辑回归,必须掌握两点: 逻辑回归中,其输入值是什么 如何判断逻辑回归的输出 2.1 阅读全文
posted @ 2021-02-01 21:51 你的深渊 阅读(139) 评论(0) 推荐(0)
摘要:1 sklearn模型的保存和加载API from sklearn.externals import joblib 保存:joblib.dump(estimator, 'test.pkl') 加载:estimator = joblib.load('test.pkl') 2 线性回归的模型保存加载案例 阅读全文
posted @ 2021-01-31 16:50 你的深渊 阅读(280) 评论(0) 推荐(0)
摘要:1 API sklearn.linear_model.Ridge(alpha=1.0, fit_intercept=True,solver="auto", normalize=False) 具有l2正则化的线性回归 alpha:正则化力度,也叫 λ λ取值:0~1 1~10 solver:会根据数据 阅读全文
posted @ 2021-01-30 22:59 你的深渊 阅读(156) 评论(0) 推荐(0)
摘要:1 Ridge Regression (岭回归,又名 Tikhonov regularization) 岭回归是线性回归的正则化版本,即在原来的线性回归的 cost function 中添加正则项(regularization term): 以达到在拟合数据的同时,使模型权重尽可能小的目的,岭回归代 阅读全文
posted @ 2021-01-29 22:31 你的深渊 阅读(214) 评论(0) 推荐(0)
摘要:1 定义 过拟合:一个假设在训练数据上能够获得比其他假设更好的拟合, 但是在测试数据集上却不能很好地拟合数据,此时认为这个假设出现了过拟合的现象。(模型过于复杂) 欠拟合:一个假设在训练数据上不能获得更好的拟合,并且在测试数据集上也不能很好地拟合数据,此时认为这个假设出现了欠拟合的现象。(模型过于简 阅读全文
posted @ 2021-01-28 21:12 你的深渊 阅读(407) 评论(0) 推荐(0)
摘要:1 案例背景介绍 数据介绍 给定的这些特征,是专家们得出的影响房价的结果属性。我们此阶段不需要自己去探究特征是否有用,只需要使用这些特征。到后面量化很多特征需要我们自己去寻找 2 案例分析 回归当中的数据大小不一致,是否会导致结果影响较大。所以需要做标准化处理。 数据分割与标准化处理 回归预测 线性 阅读全文
posted @ 2021-01-27 15:46 你的深渊 阅读(549) 评论(0) 推荐(0)
摘要:sklearn.linear_model.LinearRegression(fit_intercept=True) 通过正规方程优化 参数 fit_intercept:是否计算偏置 属性 LinearRegression.coef_:回归系数 LinearRegression.intercept_: 阅读全文
posted @ 2021-01-26 13:45 你的深渊 阅读(91) 评论(0) 推荐(0)
摘要:1 全梯度下降算法(FG)计算训练集所有样本误差,对其求和再取平均值作为目标函数。 权重向量沿其梯度相反的方向移动,从而使当前目标函数减少得最多。 因为在执行每次更新时,我们需要在整个数据集上计算所有的梯度,所以批梯度下降法的速度会很慢,同时,批梯度下降法无法处理超出内存容量限制的数据集。 批梯度下 阅读全文
posted @ 2021-01-25 17:12 你的深渊 阅读(223) 评论(0) 推荐(0)
摘要:假设刚才的房子例子,真实的数据之间存在这样的关系: 真实关系:真实房子价格 = 0.02×中心区域的距离 + 0.04×城市一氧化氮浓度 + (-0.12×自住房平均房价) + 0.254×城镇犯罪率 那么现在呢,我们随意指定一个关系(猜测) 随机指定关系:预测房子价格 = 0.25×中心区域的距离 阅读全文
posted @ 2021-01-24 16:41 你的深渊 阅读(328) 评论(0) 推荐(0)
摘要:1 线性回归API sklearn.linear_model.LinearRegression() LinearRegression.coef_:回归系数 2 举例 2.1 步骤分析 1.获取数据集 2.数据基本处理(该案例中省略) 3.特征工程(该案例中省略) 4.机器学习 5.模型评估(该案例中 阅读全文
posted @ 2021-01-23 18:21 你的深渊 阅读(63) 评论(0) 推荐(0)
摘要:1 线性回归应用场景 房价预测 销售额度预测 贷款额度预测 举例: 2 什么是线性回归 2.1 定义与公式 线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。 特点:只有一个自变量的情况称为单变量回归,多 阅读全文
posted @ 2021-01-22 11:35 你的深渊 阅读(364) 评论(0) 推荐(0)
摘要:1 项目描述 本次比赛的目的是预测一个人将要签到的地方。 为了本次比赛,Facebook创建了一个虚拟世界,其中包括10公里*10公里共100平方公里的约10万个地方。 对于给定的坐标集,您的任务将根据用户的位置,准确性和时间戳等预测用户下一次的签到位置。 数据被制作成类似于来自移动设备的位置数据。 阅读全文
posted @ 2021-01-21 14:51 你的深渊 阅读(310) 评论(0) 推荐(0)
摘要:1 什么是交叉验证(cross validation) 交叉验证:将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成4份,其中一份作为验证集。然后经过4次(组)的测试,每次都更换不同的验证集。即得到4组模型的结果,取平均值作为最终结果。又称4折交叉验证。 1.1 分析 我们之前知道数据分为训 阅读全文
posted @ 2021-01-20 12:23 你的深渊 阅读(346) 评论(0) 推荐(0)
摘要:案例:鸢尾花种类预测 2.1 数据集介绍 Iris数据集是常用的分类实验数据集,由Fisher, 1936收集整理。Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。关于数据集的具体介绍: 2.2 步骤分析 1.获取数据集 2.数据基本处理 3.特征工程 4.机器学习(模型训练) 5.模型评估 阅读全文
posted @ 2021-01-19 23:44 你的深渊 阅读(351) 评论(0) 推荐(0)
摘要:1 什么是特征预处理 1.1 特征预处理定义 scikit-learn的解释 provides several common utility functions and transformer classes to change raw feature vectors into a represen 阅读全文
posted @ 2021-01-18 15:32 你的深渊 阅读(203) 评论(0) 推荐(0)
摘要:1 案例:鸢尾花种类预测 Iris数据集是常用的分类实验数据集,由Fisher, 1936收集整理。Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。关于数据集的具体介绍: 2 scikit-learn中数据集介绍 2.1 scikit-learn数据集API介绍 sklearn.datase 阅读全文
posted @ 2021-01-17 11:52 你的深渊 阅读(509) 评论(0) 推荐(0)
摘要:问题导入: 实现k近邻算法时,主要考虑的问题是如何对训练数据进行快速k近邻搜索。 这在特征空间的维数大及训练数据容量大时尤其必要。 k近邻法最简单的实现是线性扫描(穷举搜索),即要计算输入实例与每一个训练实例的距离。计算并存储好以后,再查找K近邻。当训练集很大时,计算非常耗时。 为了提高kNN搜索的 阅读全文
posted @ 2021-01-16 12:34 你的深渊 阅读(291) 评论(0) 推荐(0)