上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 17 下一页
摘要: 什么是缺失值? 缺失值指数据集中某些变量的值有缺少的情况,缺失值也被称为NA(not available)值。在pandas里使用浮点值NaN(Not a Number)表示浮点数和非浮点数中的缺失值,用NaT表示时间序列中的缺失值,此外python内置的None值也会被当作是缺失值。需要注意的是, 阅读全文
posted @ 2019-08-22 13:15 HuZihu 阅读(4530) 评论(0) 推荐(1)
摘要: 数据分析师(Data Analyst):负责从数据中提取出有用的信息,以帮助公司形成业务决策。工作内容包括:对数据进行提取,清洗,分析(用描述统计量,趋势分析,多维度分析,假设检验等统计常用方法对数据进行分析),总结结论并提出建议。数据分析师通常从业务团队那里获取需要分析的具体问题,并提供相应的解决 阅读全文
posted @ 2019-08-21 10:38 HuZihu 阅读(4269) 评论(0) 推荐(1)
摘要: 特征缩放的几种方法: (1)最大最小值归一化(min-max normalization):将数值范围缩放到 [0, 1] 区间里 (2)均值归一化(mean normalization):将数值范围缩放到 [-1, 1] 区间里,且数据的均值变为0 (3)标准化 / z值归一化(standardi 阅读全文
posted @ 2019-08-11 17:50 HuZihu 阅读(12344) 评论(4) 推荐(6)
摘要: 在《定量变量和定性变量的转换(Transform of Quantitative & Qualitative Variables)》一文中,我们可以看到虚拟变量(Dummy Variable)与独热编码( One Hot Encoding)非常相似,其不同之处在于:在虚拟编码方案中,当特征具有 m 阅读全文
posted @ 2019-08-10 16:05 HuZihu 阅读(3917) 评论(0) 推荐(0)
摘要: 虚拟变量陷阱(Dummy Variable Trap):指当原特征有m个类别时,如果将其转换成m个虚拟变量,就会导致变量间出现完全共线性的情况。 假设我们有一个特征“性别”,包含男性和女性两个类别,如果将此特征转换为2个虚拟变量,就是:男x1=[1,0],女x2=[0,1],意思就是:变量x1,当性 阅读全文
posted @ 2019-08-10 10:59 HuZihu 阅读(11162) 评论(1) 推荐(1)
摘要: 定量变量(Quantitative Variables):也称为数值型变量(Numerical Variables),可以用连续值或离散值表示。比如:气温(连续值),学生人数(离散值)。 为什么要对定量变量进行转换?大多数情况下,我们可以直接使用定量变量。但是有时候,特征和目标之间不呈线性关系。比如 阅读全文
posted @ 2019-08-09 17:29 HuZihu 阅读(11223) 评论(0) 推荐(2)
摘要: 数据分析经常要用SQL(Structured Query Language)在数据库中查询所需的数据。以下是经常用到的SQL查询语句(适用于MySQL): SELECT 选择需要查询的内容 SELECT column_name(s) FROM table_name WHERE 给查询结果加上过滤条件 阅读全文
posted @ 2019-08-06 11:01 HuZihu 阅读(430) 评论(0) 推荐(0)
摘要: 用python来操作MySQL,首先需要安装PyMySQL库(pip install pymysql)。 连接MySQL: import pymysql connect=pymysql.connect(host='localhost',user='root',password='xxxx',port 阅读全文
posted @ 2019-08-02 10:38 HuZihu 阅读(994) 评论(0) 推荐(0)
摘要: Pandas是使用python进行数据分析不可或缺的第三方库。我们已经知道,NumPy的ndarray数据结构能够很好地进行数组运算,但是当我们需要进行为数据添加标签,处理缺失值,对数据分组,创建透视表等任务时,NumPy的的限制就非常明显了。而Pandas是在NumPy基础上建立的新程序库,提供了 阅读全文
posted @ 2019-07-29 14:35 HuZihu 阅读(460) 评论(0) 推荐(0)
摘要: 类别不平衡问题是指:在分类任务中,数据集中来自不同类别的样本数目相差悬殊。 类别不平衡问题会造成这样的后果:在数据分布不平衡时,其往往会导致分类器的输出倾向于在数据集中占多数的类别:输出多数类会带来更高的分类准确率,但在我们所关注的少数类中表现不佳。 处理这个问题通常有3种方法: 1. 欠采样 假设 阅读全文
posted @ 2019-07-24 21:20 HuZihu 阅读(4121) 评论(1) 推荐(0)
上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 17 下一页