02 2020 档案

摘要:一 概述 回归分析模型:销售额 =93765+0.3* 百度+0.15 * 社交媒体+0.05 *电话直销+0.02 * 短信 线性回归 研究自变量 x 对因变量 y 影响的一种数据分析方法 可以表示为Y=ax+b+ε,其中Y为因变量,x为自变量,a为影响系数,b为截距,ε为随机误差。 常见应用场景 阅读全文
posted @ 2020-02-29 16:32 机器快点学习 阅读(12269) 评论(0) 推荐(0)
摘要:一 概述 聚类分析目的 将大量数据集中具有“相似”特征的数据点或样本划分为一个类别 常见应用场景 在没有做先验经验的背景下做的探索性分析 样本量较大情况下的数据预处理工作 将数值类的特征分成几个类别 聚类分析能解决的问题包括 数据集可以分为几类 每个类别有多少样本量 不同类别中各个变量的强弱关系如何 阅读全文
posted @ 2020-02-29 15:39 机器快点学习 阅读(6574) 评论(2) 推荐(1)
摘要:参照 http://www.pianshen.com/article/975848769/ 多谢作者哈哈 阅读全文
posted @ 2020-02-28 21:28 机器快点学习 阅读(2996) 评论(0) 推荐(0)
摘要:groupby[根据哪一列][ 对于那一列].进行计算 代码演示: direction:房子朝向 view_num:看房人数 floor:楼层 计算: A 看房人数最多的朝向 df.groupby(['direction'])['view_num'].sum() B 每个朝向的房子的数量 df.gr 阅读全文
posted @ 2020-02-28 16:12 机器快点学习 阅读(27568) 评论(0) 推荐(2)
摘要:说明:目前 只记录了 过采样 和 欠采样 的代码部分 1 样本分布不均衡描述: 主要出现在与分类相关的建模问题上,不均衡指的是不同类别的样本量差异非常大。 样本量差距过大会影响到建模结果 2 出现的场景: 异常检测:如恶意刷单、黄牛,这些数据样本所占的比例通常是整体样本中很少的一部分 客户流失:大型 阅读全文
posted @ 2020-02-28 12:10 机器快点学习 阅读(5068) 评论(1) 推荐(0)
摘要:数据中包含日期、时间类型的数据可以通过 pandas 的 to_datetime 转换成 datetime 类型,方便提取各种时间信息 1 将 object 类型数据转成 datetime64 1> 导入数据 import pandas as pd car_sales = pd.read_csv(' 阅读全文
posted @ 2020-02-28 10:34 机器快点学习 阅读(6676) 评论(0) 推荐(0)
摘要:【分类数据的处理】 问题: 在数据建模过程中,很多算法或算法实现包无法直接处理非数值型的变量,如 KMeans 算法基于距离的相似度计算,而字符串则无法直接计算距离 如: 性别中的男和女 [0,1] [1,0] 用户的价值度分为高、中、低 处理方法: 将字符串表示的 分类特征 转换成 数值 类型(哑 阅读全文
posted @ 2020-02-28 09:20 机器快点学习 阅读(963) 评论(0) 推荐(0)
摘要:1 标准化 & 归一化 导包和数据 import numpy as np from sklearn import preprocessing data = np.loadtxt('data.txt', delimiter='\t') 1.1 标准化 (Z-Score) x'=(x-mean)/std 阅读全文
posted @ 2020-02-27 18:54 机器快点学习 阅读(9988) 评论(0) 推荐(2)
摘要:判断异常值方法:Z-Score 计算公式 Z = (X-μ)/σ 其中μ为总体平均值,X-μ为离均差,σ表示标准差。z的绝对值表示在标准差范围内的原始分数与总体均值之间的距离。当原始分数低于平均值时,z为负,以上为正。 代码演示 1 生成一个 df 1 import pandas as pd # 导 阅读全文
posted @ 2020-02-27 12:16 机器快点学习 阅读(9184) 评论(1) 推荐(0)
摘要:1 简介 scikit-learn,又写作sklearn,是一个开源的基于python语言的机器学习工具包。它通过NumPy, SciPy和Matplotlib等python数值计算的库实现高效的算法应用,并且涵盖了几乎所有主流机器学习算法。 SKlearn官网:http://scikit-lear 阅读全文
posted @ 2020-02-27 11:53 机器快点学习 阅读(588) 评论(0) 推荐(0)
摘要:出现的问题:如图,总消费金额本应该为float类型,此处却显示object 需求:将 TotalCharges 的类型转换成float 使用 pandas.to_numeric(arg, errors='raise', downcast=None) 方法,可将参数转换为数字类型。 (别的类型转换,遇 阅读全文
posted @ 2020-02-26 15:31 机器快点学习 阅读(1667) 评论(0) 推荐(0)
摘要:搞不懂博客园表格的排版。。。 说明: 0 ndarray :多维数组对象 1 np :import numpy as np 2 nda :表示数组的名称 1 生成数组 函数名 描述 np.array 将输入的数据转换为ndarray,默认复制所有的输入数据(深拷贝) np.asarray 将输入转换 阅读全文
posted @ 2020-02-25 16:35 机器快点学习 阅读(2266) 评论(0) 推荐(0)