07 2017 档案

摘要:一、Standardization 方法一:StandardScaler 方法二:MinMaxScaler 特征缩放至特定范围 , default=(0, 1) 二、Normalization 使单个样本具有单位范数的缩放操作。 经常在文本分类和聚类当中使用。 三、Binarization 特征二值 阅读全文
posted @ 2017-07-26 16:54 5_FireFly 阅读(7035) 评论(0) 推荐(2)
摘要:1、识别出X和Y 2、识别出连续 和 分类变量 3、分割数据集,70%训练集,30%测试集 4、建立模型 5、训练模型、测试模型 离散特征的编码分为两种情况: 1、离散特征的取值之间没有大小的意义,比如color:[red,blue],那么就使用one-hot编码 2、离散特征的取值有大小的意义,比 阅读全文
posted @ 2017-07-24 15:38 5_FireFly 阅读(843) 评论(0) 推荐(0)
摘要:什么是机器学习 机器学习的种类 代价函数,优化目标 模型泛化能力 模型评估 什么是机器学习 机器学习的种类 代价函数,优化目标 模型泛化能力 模型评估 机器学习是人工智能的一个分支。人工智能的研究是从以“推理”为重点到以“知识”为重点,再到以“学习”为重点,一条自然、清晰的脉络。显然,机器学习是实现 阅读全文
posted @ 2017-07-19 15:42 5_FireFly 阅读(736) 评论(0) 推荐(1)
摘要:一、Numpy 数组是一系列同类型数据的集合,可以被非零整数进行索引,可以通过列表进行数组的初始化,数组也可以通过索引进行切片。 Numpy提供了几乎全部的科学计算方式。 ①、创建数组: 1.简单一二维数组 2.范围函数生成 一维数组: 3.均分函数生成 一维数组:(等差数列) 4.创建元素为1 的 阅读全文
posted @ 2017-07-10 22:14 5_FireFly 阅读(1886) 评论(0) 推荐(0)
摘要:索引的主要作用是对数据做切片,能够从pandas的对象中选取数据子集。 1、loc: 基于数据标签,如果标签值不存在,会抛出KeyError 单个的标签值 列表或者数组的标签值 切片范围数据 (基于索引名称,不属于前闭后开!) 布尔型的数组 单个的标签值 列表或者数组的标签值 切片范围数据 (基于索 阅读全文
posted @ 2017-07-09 21:38 5_FireFly 阅读(2190) 评论(0) 推荐(0)
摘要:1. pandas 数据读取: read_csv 的重要参数: 2、Missing data 处理 1、DataFrame 是一个表格型数据结构,既有行索引又有列索引,看作由Series组成的字典。 重要方法: 重要属性: 1.index 2.columns 返回列名 3.shape 4.dtype 阅读全文
posted @ 2017-07-07 14:21 5_FireFly 阅读(13613) 评论(0) 推荐(0)

web
counter