随笔档案「2020年3月」 - 机器快点学习

MySQL | windows10 安装MySQL : 无法将“mysql”项识别为 cmdlet、函数、脚本....

摘要：首先按照 https://www.cnblogs.com/xiaokang01/p/12092160.html 方法进行安装和配置环境变量问题：cmd进入mysql时，输入 mysql -uroot -p 提示 """ mysql : 无法将“mysql”项识别为 cmdlet、函数、脚本文件或可阅读全文

posted @ 2020-03-24 09:11 机器快点学习阅读(5225) 评论(0) 推荐(0)

统计知识 | 决定系数 R方、调整后的R方、F值

摘要：指标的意义： R方：拟合出来的线能解释多少实际信息量 F值：验证模型整体显著性水平一、R2 也称拟合优度、决定系数：反应回归模型拟合数据的优良程度先说结论：R2 越接近 1 ，拟合效果越好回归：所有实际数值点向均值回归，认为均值含有所有点最大的信息量实际信息：点的实际值减去均值认为是阅读全文

posted @ 2020-03-16 09:16 机器快点学习阅读(34670) 评论(0) 推荐(1)

R | R语言表达式中常用的符号

摘要：符号用途 ~ 分隔符号，左边为响应变量，右边为解释变量，eg：要通过x、z和w预测y，代码为y~x+z+w + 分隔预测变量 : 表示预测变量的交互项 eg：要通过x、z及x与z的交互项预测y，代码为y~x+z+x:z * 表示所有可能交互项的简洁方式，代码y~x*z*w可展开为y~x+z+w+x 阅读全文

posted @ 2020-03-16 08:06 机器快点学习阅读(5504) 评论(0) 推荐(0)

回归分析 | R语言回归算法、模型诊断

摘要：一、回归算法 1.1 一元线性回归最小二乘法：通过使因变量的真实值和估计值之间的离差平方和达到最小来求 β0 和 β1 1.2 多元回归（今天先略过）通过矩阵来求解最小二乘法二、回归算法相关函数使用 R 自带的 women 数据集一元线性回归 # 模型创建 fit1 = lm(weigh 阅读全文

posted @ 2020-03-15 22:22 机器快点学习阅读(4296) 评论(0) 推荐(0)

R | 探索性数据分析 EDA

摘要：一、集中趋势和离中趋势表示集中趋势的指标们：均值、中位数、众数、百分位数异常值判定： 3σ原则原则（还有很多别的原则）：超出（μ-3σ,μ+3σ)的值，即超出箱线图上下边界的点离散程度指标：极差（range）标准差（sta.dev）方差（variance）变异系数（CV）：对标准差做阅读全文

posted @ 2020-03-15 17:46 机器快点学习阅读(1584) 评论(0) 推荐(0)

R语言基础 | 概率分布的表示方法

摘要：在R中各种概率函数都有统一的形式，即一套统一的前缀+分布函数名(参数)：分布函数注意：不同前缀，第一个参数 n 的意义不同（详见下方讲解）连续型名称英文名 R对应的函数参数高斯分布 gaussian norm n, mean=0, sd=1 指数分布 exponential exp 阅读全文

posted @ 2020-03-15 10:31 机器快点学习阅读(2377) 评论(0) 推荐(1)

R语言基础 | for while 循环、if 条件、function自定义函数

摘要：循环（生成斐波那契数列为例） for 循环 d[1] = 1 d[2] = 1 for(i in 3:20){ d[i] = d[i-1]+d[i-2] print(d[i])} while 循环 e = rep(0, 10) e[1] = 1 e[2] = 1 i = 3 while (i<=10 阅读全文

posted @ 2020-03-14 22:05 机器快点学习阅读(3698) 评论(0) 推荐(0)

R语言基础 | 向量及数据框的生成、拼接、引用

摘要：向量的创建、拼接、转frame # 创建向量 a = c("qiaofen","ouyangfeng","wangyuyan","zhagnwuji","renyingying") b = c(-1/0,1/0,100,100,100) # 向量拼接 rab = rbind(a,b) cab = c 阅读全文

posted @ 2020-03-14 21:32 机器快点学习阅读(6446) 评论(0) 推荐(0)

Pandas 使用中的小技巧记录

摘要：1 DataFrame 统一修改列名大小写列名统一修改成小写 df.columns=df.columns.str.lower() 列名统一修改成大写 df.columns =df.columns.str.upper() 阅读全文

posted @ 2020-03-08 10:36 机器快点学习阅读(308) 评论(0) 推荐(0)

数据预处理 | 使用 Filter Wrapper Embedded 实现特征工程中的特征选择

摘要：目录 1 Filter 1.1 移除低方差特征（Removing features with low variance） 1.2 单变量特征选择 (Univariate feature selection) 1.2.1 卡方检验 (Chi2) 1.2.2 Pearson 相关系数 (Pearson 阅读全文

posted @ 2020-03-08 09:50 机器快点学习阅读(1955) 评论(0) 推荐(0)

数据预处理 | 使用 sklearn.preprocessing.OrdinalEncoder 将分类特征转换为数值型

摘要：from sklearn.preprocessing import OrdinalEncoder model_oe = OrdinalEncoder() string_data_array = model_oe.fit_transform(string_data) string_data_pd = 阅读全文

posted @ 2020-03-08 08:41 机器快点学习阅读(4426) 评论(1) 推荐(0)

异常检测 | 使用孤立森林 sklearn.ensemble.IsolationForest 分析异常流量

摘要：孤立森林 Isolation Forest（sklearn.ensemble.IsolationForest）：一种适用于连续数据的无监督异常检测方法。与随机森林类似，都是高效的集成算法，相较于LOF，K-means等传统算法，该算法鲁棒性高且对数据集的分布无假设。 Isolation Fo 阅读全文

posted @ 2020-03-03 22:04 机器快点学习阅读(9682) 评论(0) 推荐(1)

逻辑回归 | 使用 sklearn.linear_model.LogisticRegression 预测不同职业的人优惠券使用情况

摘要：逻辑回归：是一种广义的线性回归分析模型逻辑回归针对的目标变量是类别型的，参数估值上，采用最大似然法。分类问题可以转换成概率的都是逻辑回归的常见场景，如：会不会逾期（风控）会不会是流失客户（会员运营）会不会点击（CTR预估、推荐系统、搜索）优点：模型简单、可解释性强缺点：不能做特征交叉阅读全文

posted @ 2020-03-03 20:25 机器快点学习阅读(1188) 评论(0) 推荐(0)

Pandas 的 merge 方法讲解及 how= inner/ outer/ left/ right 的连接方式演示

摘要：merge 的使用 pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_ 阅读全文

posted @ 2020-03-02 20:51 机器快点学习阅读(34039) 评论(0) 推荐(2)

机器快点学习

Just for fun

03 2020 档案

公告