03 2020 档案

摘要:首先按照 https://www.cnblogs.com/xiaokang01/p/12092160.html 方法进行安装和配置环境变量 问题:cmd进入mysql时,输入 mysql -uroot -p 提示 """ mysql : 无法将“mysql”项识别为 cmdlet、函数、脚本文件或可 阅读全文
posted @ 2020-03-24 09:11 机器快点学习 阅读(5225) 评论(0) 推荐(0)
摘要:指标的意义: R方:拟合出来的线能解释多少实际信息量 F值:验证模型整体显著性水平 一、R2 也称 拟合优度、决定系数:反应回归模型拟合数据的优良程度 先说结论:R2 越接近 1 ,拟合效果越好 回归:所有实际数值点向均值回归,认为均值含有所有点最大的信息量 实际信息:点的实际值 减去 均值 认为是 阅读全文
posted @ 2020-03-16 09:16 机器快点学习 阅读(34670) 评论(0) 推荐(1)
摘要:符号 用途 ~ 分隔符号,左边为响应变量,右边为解释变量,eg:要通过x、z和w预测y,代码为y~x+z+w + 分隔预测变量 : 表示预测变量的交互项 eg:要通过x、z及x与z的交互项预测y,代码为y~x+z+x:z * 表示所有可能交互项的简洁方式,代码y~x*z*w可展开为y~x+z+w+x 阅读全文
posted @ 2020-03-16 08:06 机器快点学习 阅读(5504) 评论(0) 推荐(0)
摘要:一、回归算法 1.1 一元线性回归 最小二乘法: 通过使因变量的真实值和估计值之间的离差平方和达到最小来求 β0 和 β1 1.2 多元回归(今天先略过) 通过矩阵来求解最小二乘法 二、回归算法相关函数 使用 R 自带的 women 数据集 一元线性回归 # 模型创建 fit1 = lm(weigh 阅读全文
posted @ 2020-03-15 22:22 机器快点学习 阅读(4296) 评论(0) 推荐(0)
摘要:一、集中趋势和离中趋势 表示集中趋势的指标们: 均值、中位数、众数、百分位数 异常值判定: 3σ原则原则(还有很多别的原则):超出(μ-3σ,μ+3σ)的值,即超出箱线图上下边界的点 离散程度指标: 极差(range) 标准差(sta.dev) 方差(variance) 变异系数(CV):对标准差做 阅读全文
posted @ 2020-03-15 17:46 机器快点学习 阅读(1584) 评论(0) 推荐(0)
摘要:在R中各种概率函数都有统一的形式,即一套统一的 前缀+分布函数名(参数): 分布函数 注意:不同前缀,第一个参数 n 的意义不同(详见下方讲解) 连续型 名称 英文名 R对应的函数 参数 高斯分布 gaussian norm n, mean=0, sd=1 指数分布 exponential exp 阅读全文
posted @ 2020-03-15 10:31 机器快点学习 阅读(2377) 评论(0) 推荐(1)
摘要:循环(生成斐波那契数列为例) for 循环 d[1] = 1 d[2] = 1 for(i in 3:20){ d[i] = d[i-1]+d[i-2] print(d[i])} while 循环 e = rep(0, 10) e[1] = 1 e[2] = 1 i = 3 while (i<=10 阅读全文
posted @ 2020-03-14 22:05 机器快点学习 阅读(3698) 评论(0) 推荐(0)
摘要:向量的创建、拼接、转frame # 创建向量 a = c("qiaofen","ouyangfeng","wangyuyan","zhagnwuji","renyingying") b = c(-1/0,1/0,100,100,100) # 向量拼接 rab = rbind(a,b) cab = c 阅读全文
posted @ 2020-03-14 21:32 机器快点学习 阅读(6446) 评论(0) 推荐(0)
摘要:1 DataFrame 统一修改列名大小写 列名统一修改成小写 df.columns=df.columns.str.lower() 列名统一修改成大写 df.columns =df.columns.str.upper() 阅读全文
posted @ 2020-03-08 10:36 机器快点学习 阅读(308) 评论(0) 推荐(0)
摘要:目录 1 Filter 1.1 移除低方差特征(Removing features with low variance) 1.2 单变量特征选择 (Univariate feature selection) 1.2.1 卡方检验 (Chi2) 1.2.2 Pearson 相关系数 (Pearson 阅读全文
posted @ 2020-03-08 09:50 机器快点学习 阅读(1955) 评论(0) 推荐(0)
摘要:from sklearn.preprocessing import OrdinalEncoder model_oe = OrdinalEncoder() string_data_array = model_oe.fit_transform(string_data) string_data_pd = 阅读全文
posted @ 2020-03-08 08:41 机器快点学习 阅读(4426) 评论(1) 推荐(0)
摘要:孤立森林 Isolation Forest(sklearn.ensemble.IsolationForest):一种适用于 连续数据 的 无监督 异常检测方法。与随机森林类似,都是高效的集成算法,相较于LOF,K-means等传统算法,该算法鲁棒性高且对数据集的分布无假设。 Isolation Fo 阅读全文
posted @ 2020-03-03 22:04 机器快点学习 阅读(9682) 评论(0) 推荐(1)
摘要:逻辑回归: 是一种广义的线性回归分析模型 逻辑回归针对的目标变量是类别型的,参数估值上,采用最大似然法。 分类问题可以转换成概率的都是逻辑回归的常见场景,如: 会不会逾期(风控) 会不会是流失客户(会员运营) 会不会点击(CTR预估、推荐系统、搜索) 优点:模型简单、可解释性强 缺点:不能做特征交叉 阅读全文
posted @ 2020-03-03 20:25 机器快点学习 阅读(1188) 评论(0) 推荐(0)
摘要:merge 的使用 pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_ 阅读全文
posted @ 2020-03-02 20:51 机器快点学习 阅读(34039) 评论(0) 推荐(2)