07 2020 档案
摘要:决策树 认识决策树 决策树(Decision Tree)是一种有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策(基于分类或者回归)规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。决策树算法容易理解,适用各种数据,在解决各种问题时都有良好表现,尤其是以树模型为核心的各种集成算法
阅读全文
摘要:支持向量机SVM概述 支持向量机(SVM,也称为支持向量网络),是机器学习中获得关注最多的算法没有之一。 从实际应用来看 SVM在各种实际问题中都表现非常优秀。它在手写识别数字和人脸识别中应用广泛,在文本和超文本的分类中举足轻重。同时,SVM也被用来执行图像的分类,并用于图像分割系统。除此之外,生物
阅读全文
摘要:无监督学习与聚类算法 概述 在此之前我们所学习到的算法模型都是属于有监督学习的模型算法,即模型需要的样本数据既需要有特征矩阵X,也需要有真实的标签y。那么在机器学习中也有一部分的算法模型是属于无监督学习分类的,所谓的无监督学习是指模型只需要使用特征矩阵X即可,不需要真实的标签y。那么聚类算法就是无监
阅读全文
摘要:分类模型的评价指标 问题:如何评判两部手机的好坏? 1.根据性能评价 2.根据外观评价 3.根据价格评价 分析:如果对一个事物进行好坏的评价,首先我们一定是在指定场景下,使用符合该场景相关的评价标准对其进行好坏的评价!那么归于分类模型的评价有如下几种方式: 准确率 精准率 召回率 f1-Score
阅读全文
摘要:逻辑回归 在之前的课程中我们已经学习接触过相关的回归模型了,我们知道回归模型是用来处理和预测连续型标签的算法。然而逻辑回归,是一种名为“回归”的线性分类器,其本质是由线性回归变化而来的,一种广泛使用于分类问题中的广义回归算法。要理解逻辑回归从何而来,得要先理解线性回归。线性回归是机器学习中最简单的的
阅读全文
摘要:WOE&IV编码&分箱 IV的概念和作用 概念: IV的全称是Information Value,中文意思是信息价值,或者信息量。 作用: 我们构建分类模型时,经常需要对特征进行筛选。比如我们有200个候选特征,通常情况下,不会直接把200个特征直接放到模型中去进行训练,而是会用一些方法,从这200
阅读全文
摘要:朴素贝叶斯算法 概率基础 算法介绍 引出 在许多分类算法应用中,特征和标签之间的关系并非是决定性的。比如说,我们想预测一个人究竟是否会在泰坦尼克号海难中生存下来,那我们可以建立某个分类模型来学习我们的训练集。在训练中,其中一个人的特征为:30岁,男,普 通舱,他最后在泰坦尼克号海难中去世了。当我们测
阅读全文
摘要:由一个案例引出 房地产估价数据集数据集(house.xlsx) 数据集信息: 房地产估值的市场历史数据集来自台湾新北市新店区。“房地产估价” 是一个回归问题。 属性信息: 输入如下: X1 =交易日期(例如,2013.250 = 2013年3月,2013.500 = 2013年6月,等等) X2 =
阅读全文
摘要:线性回归 回归问题的目标值是连续性的值,而分类问题的目标值是离散型的值。 回归处理的问题为预测: 预测房价 销售额的预测 设定贷款额度 总结:上述案例中,可以根据事物的相关特征预测出对应的结果值 线性回归在生活中的映射(现实生活中就有线性回归):生活案例【预测学生的期末成绩】: 期末成绩的制定:0.
阅读全文
摘要:使用knn实现手写数字图片的识别 from sklearn.model_selection import cross_val_score import pandas as pd import numpy as np import matplotlib.pyplot as plt from sklea
阅读全文
摘要:KNN分类模型 分类:将一个未知归类的样本归属到某一个已知的类群中 预测:可以根据数据的规律计算出一个未知的数据 概念: 简单地说,K-近邻算法采用测量不同特征值之间的距离方法进行分类(k-Nearest Neighbor,KNN) #两点间距离 A(x1,y1) B(x2,y2) dist(A,B
阅读全文
摘要:sklearn的数据集 数据集划分 数据集接口介绍 数据集划分 前提:机器学习就是从数据中自动分析获得规律,并利用规律对未知数据进行预测。换句话说,我们的模型一定是要经过样本数据对其进行训练,才可以对未知数据进行预测的。 问题:我们得到数据后,是否将数据全部用来训练模型呢? 当然不是!因为我们如果模
阅读全文
摘要:机器学习简介 祖师爷 艾伦.图灵,人工智能之父。其最大的成就就是图灵测试。一个人和一个机器跟你去聊天,你不知道对方是人还是机器,如果经过聊天后,你分辨不出谁是人谁是机器则说明这个机器通过了图灵测试 人工智能和机器学习的区别? 机器学习是实现人工智能的一种技术手段 什么是机器学习? 官方解释: 机器学
阅读全文
摘要:第一部分:数据类型处理 数据加载 字段含义: user_id:用户ID order_dt:购买日期 order_product:购买产品的数量 order_amount:购买金额 观察数据 查看数据的数据类型 数据中是否存储在缺失值 将order_dt转换成时间类型 查看数据的统计描述 在源数据中添
阅读全文
摘要:用户对于购买商品的行为分析案例 import pandas as pd from pandas import DataFrame,Series import numpy as np import matplotlib.pyplot as plt %matplotlib inline #数据量级达到一
阅读全文
摘要:加载购买商品表的数据 购买商品表字段信息: 用户ID 商品ID 商品二级分类 商品一级分类 商品属性 购买数量 购买日期 import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom pandas import Se
阅读全文
摘要:plt.plot()绘制线性图 绘制单条线形图 绘制多条线形图 设置坐标系的比例plt.figure(figsize=(a,b)) 设置图例legend() 设置轴的标识 图例保存 fig = plt.figure() plt.plot(x,y) figure.savefig() 曲线的样式和风格(
阅读全文
摘要:替换操作 替换操作可以同步作用于Series和DataFrame中 单值替换 普通替换: 替换所有符合要求的元素:to_replace=15,value='e' 按列指定单值替换: to_replace={列标签:替换值} value='value' 多值替换 列表替换: to_replace=[]
阅读全文
摘要:人口分析案例 需求: 导入文件,查看原始数据 将人口数据和各州简称数据进行合并 将合并的数据中重复的abbreviation列进行删除 查看存在缺失数据的列 找到有哪些state/region使得state的值为NaN,进行去重操作 为找到的这些state/region的state项补上正确的值,从
阅读全文
摘要:级联操作 pd.concat, pd.append pandas使用pd.concat函数,与np.concatenate函数类似,只是多了一些参数: objs axis=0 keys join='outer' / 'inner':表示的是级联的方式,outer会将所有的项进行级联(忽略匹配和不匹配
阅读全文
摘要:处理丢失数据 有两种丢失数据: None np.nan(NaN) 两种丢失数据的区别 type(None) NoneType type(np.nan) float 为什么在数据分析中需要用到的是浮点类型的空而不是对象类型? 数据分析中会常常使用某些形式的运算来处理原始数据,如果原数数据中的空值为NA
阅读全文
摘要:数据分析三剑客 numpy pandas(重点) matplotlib 重点: numpy数组的创建 numpy索引和切片 级联 变形 矩阵的乘法和转置 常见的聚合函数+统计 numpy的创建 使用np.array()创建 使用plt创建 使用np的routines函数创建 使用array()创建一
阅读全文
浙公网安备 33010602011771号