2020 年 7月随笔档案 - 闲酒肆中听风吟

决策树

摘要：决策树认识决策树决策树(Decision Tree)是一种有监督学习方法，它能够从一系列有特征和标签的数据中总结出决策（基于分类或者回归）规则，并用树状图的结构来呈现这些规则，以解决分类和回归问题。决策树算法容易理解，适用各种数据，在解决各种问题时都有良好表现，尤其是以树模型为核心的各种集成算法阅读全文

posted @ 2020-07-31 19:34 闲酒肆中听风吟阅读(497) 评论(0) 推荐(0)

机器学习-支持向量机SVM

摘要：支持向量机SVM概述支持向量机(SVM，也称为支持向量网络)，是机器学习中获得关注最多的算法没有之一。从实际应用来看 SVM在各种实际问题中都表现非常优秀。它在手写识别数字和人脸识别中应用广泛，在文本和超文本的分类中举足轻重。同时，SVM也被用来执行图像的分类，并用于图像分割系统。除此之外，生物阅读全文

posted @ 2020-07-30 20:53 闲酒肆中听风吟阅读(481) 评论(0) 推荐(0)

机器学习-聚类算法-Kmeans

摘要：无监督学习与聚类算法概述在此之前我们所学习到的算法模型都是属于有监督学习的模型算法，即模型需要的样本数据既需要有特征矩阵X，也需要有真实的标签y。那么在机器学习中也有一部分的算法模型是属于无监督学习分类的，所谓的无监督学习是指模型只需要使用特征矩阵X即可，不需要真实的标签y。那么聚类算法就是无监阅读全文

posted @ 2020-07-30 17:32 闲酒肆中听风吟阅读(794) 评论(0) 推荐(0)

机器学习-分类模型的评价指标

摘要：分类模型的评价指标问题：如何评判两部手机的好坏？ 1.根据性能评价 2.根据外观评价 3.根据价格评价分析：如果对一个事物进行好坏的评价，首先我们一定是在指定场景下，使用符合该场景相关的评价标准对其进行好坏的评价！那么归于分类模型的评价有如下几种方式：准确率精准率召回率 f1-Score 阅读全文

posted @ 2020-07-28 20:00 闲酒肆中听风吟阅读(452) 评论(0) 推荐(0)

机器学习-逻辑斯蒂回归

摘要：逻辑回归在之前的课程中我们已经学习接触过相关的回归模型了，我们知道回归模型是用来处理和预测连续型标签的算法。然而逻辑回归，是一种名为“回归”的线性分类器，其本质是由线性回归变化而来的，一种广泛使用于分类问题中的广义回归算法。要理解逻辑回归从何而来，得要先理解线性回归。线性回归是机器学习中最简单的的阅读全文

posted @ 2020-07-27 22:07 闲酒肆中听风吟阅读(404) 评论(0) 推荐(0)

机器学习-WOE&IV编码&分箱、样本类别分布不均衡处理（过抽样、欠抽样）

摘要：WOE&IV编码&分箱 IV的概念和作用概念： IV的全称是Information Value，中文意思是信息价值，或者信息量。作用：我们构建分类模型时，经常需要对特征进行筛选。比如我们有200个候选特征，通常情况下，不会直接把200个特征直接放到模型中去进行训练，而是会用一些方法，从这200 阅读全文

posted @ 2020-07-27 21:20 闲酒肆中听风吟阅读(4627) 评论(0) 推荐(1)

机器学习-朴素贝叶斯算法

摘要：朴素贝叶斯算法概率基础算法介绍引出在许多分类算法应用中，特征和标签之间的关系并非是决定性的。比如说，我们想预测一个人究竟是否会在泰坦尼克号海难中生存下来，那我们可以建立某个分类模型来学习我们的训练集。在训练中，其中一个人的特征为:30岁，男，普通舱，他最后在泰坦尼克号海难中去世了。当我们测阅读全文

posted @ 2020-07-23 23:08 闲酒肆中听风吟阅读(571) 评论(0) 推荐(0)

机器学习-多项式回归+过拟合&欠拟合的处理

摘要：由一个案例引出房地产估价数据集数据集（house.xlsx）数据集信息：房地产估值的市场历史数据集来自台湾新北市新店区。“房地产估价” 是一个回归问题。属性信息：输入如下： X1 =交易日期（例如，2013.250 = 2013年3月，2013.500 = 2013年6月，等等） X2 = 阅读全文

posted @ 2020-07-23 22:41 闲酒肆中听风吟阅读(1381) 评论(0) 推荐(0)

机器学习-线性回归+回归算法的评价指标

摘要：线性回归回归问题的目标值是连续性的值，而分类问题的目标值是离散型的值。回归处理的问题为预测：预测房价销售额的预测设定贷款额度总结：上述案例中，可以根据事物的相关特征预测出对应的结果值线性回归在生活中的映射（现实生活中就有线性回归）：生活案例【预测学生的期末成绩】：期末成绩的制定：0. 阅读全文

posted @ 2020-07-22 16:51 闲酒肆中听风吟阅读(967) 评论(0) 推荐(0)

机器学习-手写数字识别实现

摘要：使用knn实现手写数字图片的识别 from sklearn.model_selection import cross_val_score import pandas as pd import numpy as np import matplotlib.pyplot as plt from sklea 阅读全文

posted @ 2020-07-21 22:05 闲酒肆中听风吟阅读(729) 评论(0) 推荐(0)

机器学习-KNN+交叉验证

摘要：KNN分类模型分类：将一个未知归类的样本归属到某一个已知的类群中预测：可以根据数据的规律计算出一个未知的数据概念：简单地说，K-近邻算法采用测量不同特征值之间的距离方法进行分类（k-Nearest Neighbor，KNN） #两点间距离 A(x1,y1) B(x2,y2) dist(A,B 阅读全文

posted @ 2020-07-21 21:14 闲酒肆中听风吟阅读(690) 评论(0) 推荐(0)

机器学习-机器学习基础

摘要：sklearn的数据集数据集划分数据集接口介绍数据集划分前提：机器学习就是从数据中自动分析获得规律，并利用规律对未知数据进行预测。换句话说，我们的模型一定是要经过样本数据对其进行训练，才可以对未知数据进行预测的。问题：我们得到数据后，是否将数据全部用来训练模型呢？当然不是！因为我们如果模阅读全文

posted @ 2020-07-20 23:05 闲酒肆中听风吟阅读(205) 评论(0) 推荐(0)

机器学习-机器学习概述、特征工程

摘要：机器学习简介祖师爷艾伦.图灵，人工智能之父。其最大的成就就是图灵测试。一个人和一个机器跟你去聊天，你不知道对方是人还是机器，如果经过聊天后，你分辨不出谁是人谁是机器则说明这个机器通过了图灵测试人工智能和机器学习的区别？机器学习是实现人工智能的一种技术手段什么是机器学习？官方解释：机器学阅读全文

posted @ 2020-07-20 21:08 闲酒肆中听风吟阅读(346) 评论(0) 推荐(0)

Python数据分析-综合项目需求案例

摘要：第一部分：数据类型处理数据加载字段含义： user_id:用户ID order_dt:购买日期 order_product:购买产品的数量 order_amount:购买金额观察数据查看数据的数据类型数据中是否存储在缺失值将order_dt转换成时间类型查看数据的统计描述在源数据中添阅读全文

posted @ 2020-07-18 13:56 闲酒肆中听风吟阅读(1352) 评论(0) 推荐(0)

Python数据分析-用户对于购买商品的行为分析案例

摘要：用户对于购买商品的行为分析案例 import pandas as pd from pandas import DataFrame,Series import numpy as np import matplotlib.pyplot as plt %matplotlib inline #数据量级达到一阅读全文

posted @ 2020-07-18 11:38 闲酒肆中听风吟阅读(708) 评论(0) 推荐(0)

Python数据分析-淘宝婴儿用品分析案例

摘要：加载购买商品表的数据购买商品表字段信息：用户ID 商品ID 商品二级分类商品一级分类商品属性购买数量购买日期 import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom pandas import Se 阅读全文

posted @ 2020-07-16 22:03 闲酒肆中听风吟阅读(852) 评论(0) 推荐(0)

Python数据分析-matplotlib绘图

摘要：plt.plot()绘制线性图绘制单条线形图绘制多条线形图设置坐标系的比例plt.figure(figsize=(a,b)) 设置图例legend() 设置轴的标识图例保存 fig = plt.figure() plt.plot(x,y) figure.savefig（）曲线的样式和风格（阅读全文

posted @ 2020-07-15 22:08 闲酒肆中听风吟阅读(203) 评论(0) 推荐(0)

Python数据分析-pandas高级操作

摘要：替换操作替换操作可以同步作用于Series和DataFrame中单值替换普通替换：替换所有符合要求的元素:to_replace=15,value='e' 按列指定单值替换： to_replace={列标签：替换值} value='value' 多值替换列表替换: to_replace=[] 阅读全文

posted @ 2020-07-15 21:49 闲酒肆中听风吟阅读(486) 评论(0) 推荐(0)

Python数据分析-人口分析案例、2012美国大选献金项目数据分析

摘要：人口分析案例需求：导入文件，查看原始数据将人口数据和各州简称数据进行合并将合并的数据中重复的abbreviation列进行删除查看存在缺失数据的列找到有哪些state/region使得state的值为NaN，进行去重操作为找到的这些state/region的state项补上正确的值，从阅读全文

posted @ 2020-07-15 21:01 闲酒肆中听风吟阅读(493) 评论(0) 推荐(0)

Python数据分析-DataFrame的级联and合并操作

摘要：级联操作 pd.concat, pd.append pandas使用pd.concat函数，与np.concatenate函数类似，只是多了一些参数： objs axis=0 keys join='outer' / 'inner':表示的是级联的方式，outer会将所有的项进行级联（忽略匹配和不匹配阅读全文

posted @ 2020-07-14 21:13 闲酒肆中听风吟阅读(886) 评论(0) 推荐(0)

Python数据分析-基于pandas的数据清洗

摘要：处理丢失数据有两种丢失数据： None np.nan(NaN) 两种丢失数据的区别 type(None) NoneType type(np.nan) float 为什么在数据分析中需要用到的是浮点类型的空而不是对象类型？数据分析中会常常使用某些形式的运算来处理原始数据，如果原数数据中的空值为NA 阅读全文

posted @ 2020-07-14 20:37 闲酒肆中听风吟阅读(637) 评论(1) 推荐(0)

Python数据分析-numpy模块、pandas模块.基本操作、股票案例

摘要：数据分析三剑客 numpy pandas(重点) matplotlib 重点： numpy数组的创建 numpy索引和切片级联变形矩阵的乘法和转置常见的聚合函数+统计 numpy的创建使用np.array()创建使用plt创建使用np的routines函数创建使用array()创建一阅读全文

posted @ 2020-07-13 22:41 闲酒肆中听风吟阅读(1108) 评论(0) 推荐(0)

07 2020 档案

公告