03 2020 档案
摘要:首先按照 https://www.cnblogs.com/xiaokang01/p/12092160.html 方法进行安装和配置环境变量 问题:cmd进入mysql时,输入 mysql -uroot -p 提示 """ mysql : 无法将“mysql”项识别为 cmdlet、函数、脚本文件或可
阅读全文
摘要:指标的意义: R方:拟合出来的线能解释多少实际信息量 F值:验证模型整体显著性水平 一、R2 也称 拟合优度、决定系数:反应回归模型拟合数据的优良程度 先说结论:R2 越接近 1 ,拟合效果越好 回归:所有实际数值点向均值回归,认为均值含有所有点最大的信息量 实际信息:点的实际值 减去 均值 认为是
阅读全文
摘要:符号 用途 ~ 分隔符号,左边为响应变量,右边为解释变量,eg:要通过x、z和w预测y,代码为y~x+z+w + 分隔预测变量 : 表示预测变量的交互项 eg:要通过x、z及x与z的交互项预测y,代码为y~x+z+x:z * 表示所有可能交互项的简洁方式,代码y~x*z*w可展开为y~x+z+w+x
阅读全文
摘要:一、回归算法 1.1 一元线性回归 最小二乘法: 通过使因变量的真实值和估计值之间的离差平方和达到最小来求 β0 和 β1 1.2 多元回归(今天先略过) 通过矩阵来求解最小二乘法 二、回归算法相关函数 使用 R 自带的 women 数据集 一元线性回归 # 模型创建 fit1 = lm(weigh
阅读全文
摘要:一、集中趋势和离中趋势 表示集中趋势的指标们: 均值、中位数、众数、百分位数 异常值判定: 3σ原则原则(还有很多别的原则):超出(μ-3σ,μ+3σ)的值,即超出箱线图上下边界的点 离散程度指标: 极差(range) 标准差(sta.dev) 方差(variance) 变异系数(CV):对标准差做
阅读全文
摘要:在R中各种概率函数都有统一的形式,即一套统一的 前缀+分布函数名(参数): 分布函数 注意:不同前缀,第一个参数 n 的意义不同(详见下方讲解) 连续型 名称 英文名 R对应的函数 参数 高斯分布 gaussian norm n, mean=0, sd=1 指数分布 exponential exp
阅读全文
摘要:循环(生成斐波那契数列为例) for 循环 d[1] = 1 d[2] = 1 for(i in 3:20){ d[i] = d[i-1]+d[i-2] print(d[i])} while 循环 e = rep(0, 10) e[1] = 1 e[2] = 1 i = 3 while (i<=10
阅读全文
摘要:向量的创建、拼接、转frame # 创建向量 a = c("qiaofen","ouyangfeng","wangyuyan","zhagnwuji","renyingying") b = c(-1/0,1/0,100,100,100) # 向量拼接 rab = rbind(a,b) cab = c
阅读全文
摘要:1 DataFrame 统一修改列名大小写 列名统一修改成小写 df.columns=df.columns.str.lower() 列名统一修改成大写 df.columns =df.columns.str.upper()
阅读全文
摘要:目录 1 Filter 1.1 移除低方差特征(Removing features with low variance) 1.2 单变量特征选择 (Univariate feature selection) 1.2.1 卡方检验 (Chi2) 1.2.2 Pearson 相关系数 (Pearson
阅读全文
摘要:from sklearn.preprocessing import OrdinalEncoder model_oe = OrdinalEncoder() string_data_array = model_oe.fit_transform(string_data) string_data_pd =
阅读全文
摘要:孤立森林 Isolation Forest(sklearn.ensemble.IsolationForest):一种适用于 连续数据 的 无监督 异常检测方法。与随机森林类似,都是高效的集成算法,相较于LOF,K-means等传统算法,该算法鲁棒性高且对数据集的分布无假设。 Isolation Fo
阅读全文
摘要:逻辑回归: 是一种广义的线性回归分析模型 逻辑回归针对的目标变量是类别型的,参数估值上,采用最大似然法。 分类问题可以转换成概率的都是逻辑回归的常见场景,如: 会不会逾期(风控) 会不会是流失客户(会员运营) 会不会点击(CTR预估、推荐系统、搜索) 优点:模型简单、可解释性强 缺点:不能做特征交叉
阅读全文
摘要:merge 的使用 pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_
阅读全文

浙公网安备 33010602011771号