随笔分类 -  机器学习

摘要:线性回归原理回顾 找寻目标值和特征值之间存在的关系,求出w和b即可。 y = (x1w1 + x2w2...+xn*wn)+b 损失函数(均方误差):表示真实值和预测值之间的误差 使用梯度下降将损失函数的误差值最小即可 实现流程 准备最简单的特征值和目标值 y = 0.8*x+1.5,然后我们需要让 阅读全文
posted @ 2020-08-04 18:56 电竞杰森斯坦森 阅读(210) 评论(0) 推荐(0)
摘要:深度学习介绍 什么是深度学习? 先把这四个字拆解成两个词,“深度”和“学习”,然后在逐一说明。 学习 “学习”是我们从小就接触的词,每天听着好好学习,天天向上的教诲。小时候的学习就是上课,做题,最终通过考试验证了学习的效果。抽象的说,学习就是认知的过程,从未知到已知的探索和思考。比如从最早的学习,1 阅读全文
posted @ 2020-08-04 17:52 电竞杰森斯坦森 阅读(196) 评论(0) 推荐(0)
摘要:数据集背景介绍 2009年的《纽约市基准法律》要求对建筑的能源和水的使用信息进行说明和评分。 涵盖的建筑包括具有单个建筑物的总建筑面积超过50,000平方英尺(平方英尺),和群建筑面积超过100,000平方英尺。指标是由环境保护署的工具ENERGY STAR Portfolio Manager计算的 阅读全文
posted @ 2020-08-04 16:13 电竞杰森斯坦森 阅读(1150) 评论(0) 推荐(0)
摘要:什么是EDA 在拿到数据后,首先要进行的是数据探索性分析(Exploratory Data Analysis),它可以有效的帮助我们熟悉数据集、了解数据集。初步分析变量间的相互关系以及变量与预测值之间的关系,并且对数据进行初步处理,如:数据的异常和缺失处理等,以便使数据集的结构和特征让接下来的预测问 阅读全文
posted @ 2020-08-04 14:48 电竞杰森斯坦森 阅读(885) 评论(0) 推荐(0)
摘要:总结 xgboost(极限梯度提升算法):在分类和回归上都拥有超高性能的先进评估器 梯度提升树原理:通过不停的迭代,得到很多的弱评估器,当迭代结束后得到 k 个弱评估模型就是一棵树,每棵树都会有叶子节点,给每个叶子节点赋一个权重值,权重值累加得结果就是我们最终得梯度提升树返回得预测结果 xgboos 阅读全文
posted @ 2020-08-03 18:21 电竞杰森斯坦森 阅读(2372) 评论(0) 推荐(0)
摘要:总结 随机森林 (以决策树为基学习器): 随机的体现 数据集的随机选择:从原始数据集中采取有放回的抽样bagging,构造子数据集。不同子数据集的元素可以重复,同一个子数据集中的元素也可以重复 待选特征的随机选取:随机森林中的子树的每一个分裂过程并未用到所有的待选特征,而是从所有的待选特征中随机选取 阅读全文
posted @ 2020-08-03 17:07 电竞杰森斯坦森 阅读(1154) 评论(0) 推荐(0)
摘要:总结 集成学习:通过在数据上构建多个模型,考虑多个弱评估器的建模结果,汇总之后得到一个综合的结果,以此来获取比单个模型更好的回归或分类表现 实现集成学习的方法 Bagging装袋法(有放回的抽样方法):并行集成方法 原理:每轮从原始样本集中使用有放回的方法抽取n个训练样本,共进行k轮抽取,得到k个训 阅读全文
posted @ 2020-08-03 15:49 电竞杰森斯坦森 阅读(194) 评论(0) 推荐(0)
摘要:总结 决策树 (有监督学习方法,集成学习的核心操作):能够从一系列有特征和标签的数据中总结出决策(基于分类或者回归)规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题 API: from sklearn.tree import DecisionTreeClassifier 节点:根节点(针对 阅读全文
posted @ 2020-08-01 11:23 电竞杰森斯坦森 阅读(3397) 评论(0) 推荐(1)
摘要:总结 支持向量机SVM(支持向量网络,用于分类和预测):很牛逼,最接近深度学习的机器学习算法 支持向量机的原理 超平面:超平面是当前空间的子空间,它是维度比所在空间小一维的空间 决策边界:如果以一个超平面为界可以将一组数据集分成不同类别,那么这个超平面就是数据的决策边界(有很多条) 决策边界的边际( 阅读全文
posted @ 2020-07-30 16:19 电竞杰森斯坦森 阅读(425) 评论(0) 推荐(0)
摘要:总结 聚类:把没有类别的一组数据(原始数据没有分类),根据样本与样本之间的相关性,分到已有的类别中(无监督学习) 簇:KMeans算法将一组N个样本的特征矩阵X划分为K个无交集的簇(相当于是一个组)(簇的个数与质心相同 质心:簇中所有数据的均值u通常被称为这个簇的“质心”(x求均值,y求均值,得到的 阅读全文
posted @ 2020-07-29 23:35 电竞杰森斯坦森 阅读(1077) 评论(0) 推荐(0)
摘要:导入数据 import pandas as pd import matplotlib.pyplot as plt import numpy as np from pandas import DataFrame,Series %matplotlib inline states={'SeriousDlq 阅读全文
posted @ 2020-07-29 17:40 电竞杰森斯坦森 阅读(571) 评论(0) 推荐(0)
摘要:总结 混淆矩阵 先看正反,再看真伪 准确率:Accuracy = (TP+TN)/(TP+FN+FP+TN) 预测正确的比例 模型.score()方法返回的就是模型的准确率 召回率:Recal = TP/(TP+FN) 就是TPR,真实正例被找到的概率 API:from sklearn.metric 阅读全文
posted @ 2020-07-28 18:43 电竞杰森斯坦森 阅读(474) 评论(0) 推荐(0)
摘要:总结 逻辑回归 (对数几率回归),是一种名为“回归”的线性分类器,其本质是由线性回归变化而来的,一种广泛使用于分类问题中的广义回归算法 (常用于二分类,但也可以用于多分类)。 API:from sklearn.linear_model import LogisticRegression Sigmoi 阅读全文
posted @ 2020-07-27 20:23 电竞杰森斯坦森 阅读(600) 评论(0) 推荐(0)
摘要:总结 样本类别分布不均衡处理(处理过拟合和欠拟合问题) 过抽样(上采样):通过增加分类中少数类样本的数量来实现样本均衡 from imblearn.over_sampling import SMOTE 欠抽样(下采样):通过减少分类中多数类样本的数量来实现样本均衡 (可能造成样本数据大量丢失) fr 阅读全文
posted @ 2020-07-27 18:19 电竞杰森斯坦森 阅读(1097) 评论(0) 推荐(0)
摘要:总结 IV (信息价值,或者信息量) 作用:可以用来衡量自变量(特征)的预测能力 公式: 对每组的IV值求和就可以求出一个特征的IV值 系数(py-pn):这个系数很好的考虑了这个分组中样本占整体样本的比例,比例越低,这个分组对特征整体预测能力的贡献越低 WOE (证据权重) 公式: 由公式可以看出 阅读全文
posted @ 2020-07-26 15:05 电竞杰森斯坦森 阅读(1868) 评论(0) 推荐(0)
摘要:总结 贝叶斯算法 我们希望模型在分类的时候不是直接返回分类,而是返回属于某个分类的概率 特征与特征之间条件独立(特征之间无任何关联),就可以使用贝叶斯算法,朴素指的就是条件独立 朴素贝叶斯模型常用于文本分类 在sk-learn中提供了三种不同类型的贝叶斯模型算法 高斯模型(基于高斯分布实现分类概率的 阅读全文
posted @ 2020-07-23 18:10 电竞杰森斯坦森 阅读(1198) 评论(0) 推荐(0)
摘要:总结 欠拟合:(对训练集的数据和测试集的数据拟合的都不是很好) 原因:模型学习到样本的特征太少 解决:增加样本的特征数量(多项式回归) 多项式回归:from sklearn.preprocessing import PolynomialFeatures 在原有特征的基础上增加高次方特征 过拟合:(对 阅读全文
posted @ 2020-07-23 17:12 电竞杰森斯坦森 阅读(2031) 评论(0) 推荐(0)
摘要:总结 线性回归 线性回归原理:每个特征需要有一个权重系数,这个权重系数明确后,就可以通过计算预测最终结果,权重越大这个特征就越重要 权重系数的个数一定是和特征维度保持一致。 线性回归模型是否要带截距:如果带截距能够很好拟合就带上,这样的线性回归模型更具有通用性 回归算法就是在不断的自身迭代的减少误差 阅读全文
posted @ 2020-07-22 15:25 电竞杰森斯坦森 阅读(3929) 评论(0) 推荐(0)
摘要:使用knn实现手写数字图片的识别 import pandas as pd import numpy as np import matplotlib.pyplot as plt from sklearn.neighbors import KNeighborsClassifier from sklear 阅读全文
posted @ 2020-07-21 20:58 电竞杰森斯坦森 阅读(516) 评论(0) 推荐(0)
摘要:总结 K近邻法的工作原理:某个未知类型点的特征数据距离K个已有类型近邻点特征数据的距离,根据这个距离对未知类型的数据进行分类 KNN模型超参数K值:K值不同会导致分类结果的不同 距离:采用欧几里得公式求得距离 适用范围:KNN适用于样本量级不够大得项目,因为它得运算成本比较高,数据量级越大,建模会耗 阅读全文
posted @ 2020-07-21 15:10 电竞杰森斯坦森 阅读(1305) 评论(0) 推荐(0)