机器学习 - 随笔分类 - 电竞杰森斯坦森

12-深度学习-手写回归+模型的保存与加载02

摘要：线性回归原理回顾找寻目标值和特征值之间存在的关系，求出w和b即可。 y = (x1w1 + x2w2...+xn*wn)+b 损失函数(均方误差)：表示真实值和预测值之间的误差使用梯度下降将损失函数的误差值最小即可实现流程准备最简单的特征值和目标值 y = 0.8*x+1.5，然后我们需要让阅读全文

posted @ 2020-08-04 18:56 电竞杰森斯坦森阅读(210) 评论(0) 推荐(0)

12-深度学习-TensorFlow基础操作01

摘要：深度学习介绍什么是深度学习？先把这四个字拆解成两个词，“深度”和“学习”，然后在逐一说明。学习 “学习”是我们从小就接触的词，每天听着好好学习，天天向上的教诲。小时候的学习就是上课，做题，最终通过考试验证了学习的效果。抽象的说，学习就是认知的过程，从未知到已知的探索和思考。比如从最早的学习，1 阅读全文

posted @ 2020-08-04 17:52 电竞杰森斯坦森阅读(196) 评论(0) 推荐(0)

12-机器学习-数据探索性分析EDA应用实践

摘要：数据集背景介绍 2009年的《纽约市基准法律》要求对建筑的能源和水的使用信息进行说明和评分。涵盖的建筑包括具有单个建筑物的总建筑面积超过50,000平方英尺（平方英尺），和群建筑面积超过100,000平方英尺。指标是由环境保护署的工具ENERGY STAR Portfolio Manager计算的阅读全文

posted @ 2020-08-04 16:13 电竞杰森斯坦森阅读(1150) 评论(0) 推荐(0)

12-机器学习-数据探索性分析大致流程

摘要：什么是EDA 在拿到数据后，首先要进行的是数据探索性分析（Exploratory Data Analysis），它可以有效的帮助我们熟悉数据集、了解数据集。初步分析变量间的相互关系以及变量与预测值之间的关系，并且对数据进行初步处理，如：数据的异常和缺失处理等，以便使数据集的结构和特征让接下来的预测问阅读全文

posted @ 2020-08-04 14:48 电竞杰森斯坦森阅读(885) 评论(0) 推荐(0)

11-机器学习-xgboost极限梯度提升算法 (boosting提升法)

摘要：总结 xgboost（极限梯度提升算法）：在分类和回归上都拥有超高性能的先进评估器梯度提升树原理：通过不停的迭代，得到很多的弱评估器，当迭代结束后得到 k 个弱评估模型就是一棵树，每棵树都会有叶子节点，给每个叶子节点赋一个权重值，权重值累加得结果就是我们最终得梯度提升树返回得预测结果 xgboos 阅读全文

posted @ 2020-08-03 18:21 电竞杰森斯坦森阅读(2372) 评论(0) 推荐(0)

11-机器学习-随机森林(bagging装袋法的代表)

摘要：总结随机森林 (以决策树为基学习器)：随机的体现数据集的随机选择：从原始数据集中采取有放回的抽样bagging，构造子数据集。不同子数据集的元素可以重复，同一个子数据集中的元素也可以重复待选特征的随机选取：随机森林中的子树的每一个分裂过程并未用到所有的待选特征，而是从所有的待选特征中随机选取阅读全文

posted @ 2020-08-03 17:07 电竞杰森斯坦森阅读(1154) 评论(0) 推荐(0)

11-机器学习-集成学习

摘要：总结集成学习：通过在数据上构建多个模型，考虑多个弱评估器的建模结果，汇总之后得到一个综合的结果，以此来获取比单个模型更好的回归或分类表现实现集成学习的方法 Bagging装袋法（有放回的抽样方法）：并行集成方法原理：每轮从原始样本集中使用有放回的方法抽取n个训练样本，共进行k轮抽取，得到k个训阅读全文

posted @ 2020-08-03 15:49 电竞杰森斯坦森阅读(194) 评论(0) 推荐(0)

10-机器学习-决策树、网格搜索调整参数

摘要：总结决策树 (有监督学习方法,集成学习的核心操作)：能够从一系列有特征和标签的数据中总结出决策（基于分类或者回归）规则，并用树状图的结构来呈现这些规则，以解决分类和回归问题 API: from sklearn.tree import DecisionTreeClassifier 节点：根节点（针对阅读全文

posted @ 2020-08-01 11:23 电竞杰森斯坦森阅读(3397) 评论(0) 推荐(1)

9-机器学习-支持向量机SVM

摘要：总结支持向量机SVM（支持向量网络，用于分类和预测）：很牛逼，最接近深度学习的机器学习算法支持向量机的原理超平面：超平面是当前空间的子空间，它是维度比所在空间小一维的空间决策边界：如果以一个超平面为界可以将一组数据集分成不同类别，那么这个超平面就是数据的决策边界（有很多条）决策边界的边际( 阅读全文

posted @ 2020-07-30 16:19 电竞杰森斯坦森阅读(425) 评论(0) 推荐(0)

8-9-机器学习-聚类算法-Kmeans

摘要：总结聚类：把没有类别的一组数据(原始数据没有分类)，根据样本与样本之间的相关性，分到已有的类别中（无监督学习）簇：KMeans算法将一组N个样本的特征矩阵X划分为K个无交集的簇（相当于是一个组）(簇的个数与质心相同质心：簇中所有数据的均值u通常被称为这个簇的“质心”（x求均值，y求均值，得到的阅读全文

posted @ 2020-07-29 23:35 电竞杰森斯坦森阅读(1077) 评论(0) 推荐(0)

8-机器学习-逻辑回归项目案例

摘要：导入数据 import pandas as pd import matplotlib.pyplot as plt import numpy as np from pandas import DataFrame,Series %matplotlib inline states={'SeriousDlq 阅读全文

posted @ 2020-07-29 17:40 电竞杰森斯坦森阅读(571) 评论(0) 推荐(0)

7-机器学习-分类模型的评价指标

摘要：总结混淆矩阵先看正反，再看真伪准确率：Accuracy = (TP+TN)/(TP+FN+FP+TN) 预测正确的比例模型.score()方法返回的就是模型的准确率召回率：Recal = TP/(TP+FN) 就是TPR，真实正例被找到的概率 API:from sklearn.metric 阅读全文

posted @ 2020-07-28 18:43 电竞杰森斯坦森阅读(474) 评论(0) 推荐(0)

6-7-机器学习-逻辑斯蒂回归

摘要：总结逻辑回归 (对数几率回归)，是一种名为“回归”的线性分类器，其本质是由线性回归变化而来的，一种广泛使用于分类问题中的广义回归算法 (常用于二分类，但也可以用于多分类)。 API：from sklearn.linear_model import LogisticRegression Sigmoi 阅读全文

posted @ 2020-07-27 20:23 电竞杰森斯坦森阅读(600) 评论(0) 推荐(0)

6-机器学习-样本类别分布不均衡处理之过抽样和欠抽样

摘要：总结样本类别分布不均衡处理（处理过拟合和欠拟合问题）过抽样（上采样）：通过增加分类中少数类样本的数量来实现样本均衡 from imblearn.over_sampling import SMOTE 欠抽样（下采样）：通过减少分类中多数类样本的数量来实现样本均衡 (可能造成样本数据大量丢失) fr 阅读全文

posted @ 2020-07-27 18:19 电竞杰森斯坦森阅读(1097) 评论(0) 推荐(0)

5-6-机器学习-特征工程之WOE、IV编码和分箱

摘要：总结 IV (信息价值，或者信息量) 作用：可以用来衡量自变量(特征)的预测能力公式：对每组的IV值求和就可以求出一个特征的IV值系数（py-pn）:这个系数很好的考虑了这个分组中样本占整体样本的比例，比例越低，这个分组对特征整体预测能力的贡献越低 WOE (证据权重) 公式：由公式可以看出阅读全文

posted @ 2020-07-26 15:05 电竞杰森斯坦森阅读(1868) 评论(0) 推荐(0)

4-5-机器学习-朴素贝叶斯算法(分类算法)

摘要：总结贝叶斯算法我们希望模型在分类的时候不是直接返回分类，而是返回属于某个分类的概率特征与特征之间条件独立(特征之间无任何关联)，就可以使用贝叶斯算法，朴素指的就是条件独立朴素贝叶斯模型常用于文本分类在sk-learn中提供了三种不同类型的贝叶斯模型算法高斯模型(基于高斯分布实现分类概率的阅读全文

posted @ 2020-07-23 18:10 电竞杰森斯坦森阅读(1198) 评论(0) 推荐(0)

4-机器学习-多项式回归+过拟合&欠拟合的处理、模型保存与加载

摘要：总结欠拟合：(对训练集的数据和测试集的数据拟合的都不是很好) 原因：模型学习到样本的特征太少解决：增加样本的特征数量（多项式回归）多项式回归：from sklearn.preprocessing import PolynomialFeatures 在原有特征的基础上增加高次方特征过拟合：(对阅读全文

posted @ 2020-07-23 17:12 电竞杰森斯坦森阅读(2031) 评论(0) 推荐(0)

3-机器学习-线性回归+回归算法的评价指标

摘要：总结线性回归线性回归原理：每个特征需要有一个权重系数，这个权重系数明确后，就可以通过计算预测最终结果，权重越大这个特征就越重要权重系数的个数一定是和特征维度保持一致。线性回归模型是否要带截距：如果带截距能够很好拟合就带上，这样的线性回归模型更具有通用性回归算法就是在不断的自身迭代的减少误差阅读全文

posted @ 2020-07-22 15:25 电竞杰森斯坦森阅读(3929) 评论(0) 推荐(0)

2-机器学习-KNN+交叉验证案例实践之手写数字识别项目

摘要：使用knn实现手写数字图片的识别 import pandas as pd import numpy as np import matplotlib.pyplot as plt from sklearn.neighbors import KNeighborsClassifier from sklear 阅读全文

posted @ 2020-07-21 20:58 电竞杰森斯坦森阅读(516) 评论(0) 推荐(0)

2-机器学习-KNN近邻算法分类模型、交叉验证

摘要：总结 K近邻法的工作原理：某个未知类型点的特征数据距离K个已有类型近邻点特征数据的距离，根据这个距离对未知类型的数据进行分类 KNN模型超参数K值：K值不同会导致分类结果的不同距离：采用欧几里得公式求得距离适用范围：KNN适用于样本量级不够大得项目，因为它得运算成本比较高，数据量级越大，建模会耗阅读全文

posted @ 2020-07-21 15:10 电竞杰森斯坦森阅读(1305) 评论(0) 推荐(0)

电竞杰森斯坦森

随笔分类 - 机器学习

公告