机器快点学习

2020年3月8日

摘要： 1 DataFrame 统一修改列名大小写列名统一修改成小写 df.columns=df.columns.str.lower() 列名统一修改成大写 df.columns =df.columns.str.upper() 阅读全文

posted @ 2020-03-08 10:36 机器快点学习阅读(313) 评论(0) 推荐(0)

数据预处理 | 使用 Filter Wrapper Embedded 实现特征工程中的特征选择

摘要：目录 1 Filter 1.1 移除低方差特征（Removing features with low variance） 1.2 单变量特征选择 (Univariate feature selection) 1.2.1 卡方检验 (Chi2) 1.2.2 Pearson 相关系数 (Pearson 阅读全文

posted @ 2020-03-08 09:50 机器快点学习阅读(1985) 评论(0) 推荐(0)

数据预处理 | 使用 sklearn.preprocessing.OrdinalEncoder 将分类特征转换为数值型

摘要： from sklearn.preprocessing import OrdinalEncoder model_oe = OrdinalEncoder() string_data_array = model_oe.fit_transform(string_data) string_data_pd = 阅读全文

posted @ 2020-03-08 08:41 机器快点学习阅读(4436) 评论(1) 推荐(0)

2020年3月3日

异常检测 | 使用孤立森林 sklearn.ensemble.IsolationForest 分析异常流量

摘要：孤立森林 Isolation Forest（sklearn.ensemble.IsolationForest）：一种适用于连续数据的无监督异常检测方法。与随机森林类似，都是高效的集成算法，相较于LOF，K-means等传统算法，该算法鲁棒性高且对数据集的分布无假设。 Isolation Fo 阅读全文

posted @ 2020-03-03 22:04 机器快点学习阅读(9722) 评论(0) 推荐(1)

逻辑回归 | 使用 sklearn.linear_model.LogisticRegression 预测不同职业的人优惠券使用情况

摘要：逻辑回归：是一种广义的线性回归分析模型逻辑回归针对的目标变量是类别型的，参数估值上，采用最大似然法。分类问题可以转换成概率的都是逻辑回归的常见场景，如：会不会逾期（风控）会不会是流失客户（会员运营）会不会点击（CTR预估、推荐系统、搜索）优点：模型简单、可解释性强缺点：不能做特征交叉阅读全文

posted @ 2020-03-03 20:25 机器快点学习阅读(1194) 评论(0) 推荐(0)

2020年3月2日

Pandas 的 merge 方法讲解及 how= inner/ outer/ left/ right 的连接方式演示

摘要： merge 的使用 pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_ 阅读全文

posted @ 2020-03-02 20:51 机器快点学习阅读(34298) 评论(0) 推荐(2)

2020年2月29日

回归分析 | 使用Sklearn做线性回归分析及 rmse 和 mae 讲解

摘要：一概述回归分析模型：销售额 =93765+0.3* 百度+0.15 * 社交媒体+0.05 *电话直销+0.02 * 短信线性回归研究自变量 x 对因变量 y 影响的一种数据分析方法可以表示为Y=ax+b+ε，其中Y为因变量，x为自变量，a为影响系数，b为截距，ε为随机误差。常见应用场景阅读全文

posted @ 2020-02-29 16:32 机器快点学习阅读(12325) 评论(0) 推荐(0)

聚类分析 | 概述、 k均值聚类算法 KMeans 处理数据及可视化

摘要：一概述聚类分析目的将大量数据集中具有“相似”特征的数据点或样本划分为一个类别常见应用场景在没有做先验经验的背景下做的探索性分析样本量较大情况下的数据预处理工作将数值类的特征分成几个类别聚类分析能解决的问题包括数据集可以分为几类每个类别有多少样本量不同类别中各个变量的强弱关系如何阅读全文

posted @ 2020-02-29 15:39 机器快点学习阅读(6641) 评论(2) 推荐(1)

2020年2月28日

python 使用 datetime 获取当前时间

摘要：参照 http://www.pianshen.com/article/975848769/ 多谢作者哈哈阅读全文

posted @ 2020-02-28 21:28 机器快点学习阅读(3002) 评论(0) 推荐(0)

Pandas 中对列 groupby 后进行 sum() 与 count() 区别及 agg() 的使用方法

摘要： groupby[根据哪一列][ 对于那一列].进行计算代码演示： direction：房子朝向 view_num：看房人数 floor：楼层计算： A 看房人数最多的朝向 df.groupby(['direction'])['view_num'].sum() B 每个朝向的房子的数量 df.gr 阅读全文

posted @ 2020-02-28 16:12 机器快点学习阅读(27655) 评论(0) 推荐(2)

机器快点学习

Just for fun

公告