10 2019 档案

方差、方差矩阵、协方差矩阵(未完成)
摘要:sdf 阅读全文

posted @ 2019-10-31 09:05 静静的白桦林_andy 阅读(227) 评论(0) 推荐(0)

最优化理论(未完成)
摘要:梯度下降 随机梯度下降 牛顿 拟牛顿 各种优化器的比较 阅读全文

posted @ 2019-10-31 08:55 静静的白桦林_andy 阅读(233) 评论(0) 推荐(0)

机器学习算法之——LR(未完成)
摘要:LR的形式 sklearn中的LR模块sklearn.linear_model.LogisticRegression LR的目标函数 主要的考虑点有三个:处理什么类型的问题?是否正则以及什么正则?求解方法? 从这三个方面可以组合出多种具体使用方式,如下图: 参考资料: sklearn官网中的内容Lo 阅读全文

posted @ 2019-10-31 08:51 静静的白桦林_andy 阅读(676) 评论(0) 推荐(0)

机器学习算法之——KNN、Kmeans
摘要:一、Kmeans算法 kmeans算法又名k均值算法。其算法思想大致为:先从样本集中随机选取 kk 个样本作为簇中心,并计算所有样本与这 kk 个“簇中心”的距离,对于每一个样本,将其划分到与其距离最近的“簇中心”所在的簇中,对于新的簇计算各个簇的新的“簇中心”。 根据以上描述,我们大致可以猜测到实 阅读全文

posted @ 2019-10-31 08:49 静静的白桦林_andy 阅读(775) 评论(0) 推荐(0)

信息熵、信息增益、信息增益率、gini、woe、iv、VIF
摘要:整理一下这几个量的计算公式,便于记忆 采用信息增益率可以解决ID3算法中存在的问题,因此将采用信息增益率作为判定划分属性好坏的方法称为C4.5。需要注意的是,增益率准则对属性取值较少的时候会有偏好,为了解决这个问题,C4.5并不是直接选择增益率最大的属性作为划分属性,而是之前先通过一遍筛选,先把信息 阅读全文

posted @ 2019-10-31 08:48 静静的白桦林_andy 阅读(4134) 评论(0) 推荐(0)

假设检验(未完成)
摘要:一、假设检验定义? 二、假设检验的分类? 三、假设检验的应用? 阅读全文

posted @ 2019-10-31 08:46 静静的白桦林_andy 阅读(128) 评论(0) 推荐(0)

kaggle下载不了比赛数据?
摘要:先看这个 kaggle数据集下载 有时发现下载不了kaggle数据 关于kaggle没有办法下载数据集dataset问题 安装kaggle库时又出现time out的情况? pip 下载报"connection to pypi.org time out" 中间还出现了下载后找不到文件的情况 下载后找 阅读全文

posted @ 2019-10-18 09:34 静静的白桦林_andy 阅读(1544) 评论(0) 推荐(0)

ROC曲线、KS曲线、precision-recall曲线
摘要:一、ROC曲线 ROC曲线由混淆矩阵为基础数据生成。 纵坐标:真阳性比率TPR,预测为正占真正为正的比例。 横坐标:假阳性比率FPR,预测为正占真正为负的比例。 除了roc曲线的纵横坐标外,还有一个准确率也比较常用,是TP/(TP+FP) roc曲线的各个指标记忆以下面维基百科的方式为准。 如何根据 阅读全文

posted @ 2019-10-17 10:56 静静的白桦林_andy 阅读(1382) 评论(0) 推荐(0)

标准化归一化
摘要:感觉很多时候这两个概念没有明确的区分,大家在用的时候也是混着用的。 其实,在英语中他们都属于feature scaling(特征缩放)scale:比例、数值范围 feature scaling的维基百科解释 一、什么是特征缩放? 特征缩放是标准化变量取值范围的一种方法,在数据处理中也被称为数据标准化 阅读全文

posted @ 2019-10-17 09:24 静静的白桦林_andy 阅读(690) 评论(0) 推荐(0)

手撸XGBoost流程(未完成)
摘要:网上的一篇文章,讲的挺清楚的。 XGBoost原理分析及实践 XGBoost的原理 xgboost原理--刘建平博客 要注意的地方: 1.预测值y(pred)和损失函数L(y,y(hat))中的y(hat)是有一个sigmod转换的关系的,而不是直接计算的真实值y和预测值y(pred)的损失函数。 阅读全文

posted @ 2019-10-17 09:03 静静的白桦林_andy 阅读(267) 评论(0) 推荐(0)

矩阵分解技术(未完成)
摘要:https://mp.weixin.qq.com/s/Dv51K8JETakIKe5dPBAPVg 阅读全文

posted @ 2019-10-16 10:36 静静的白桦林_andy 阅读(348) 评论(0) 推荐(0)

Light GBM(未完成)
摘要:https://lightgbm.readthedocs.io/en/latest/index.html https://www.cnblogs.com/jiangxinyang/p/9337094.html 阅读全文

posted @ 2019-10-15 10:12 静静的白桦林_andy 阅读(110) 评论(0) 推荐(0)

python数据结构
摘要: 阅读全文

posted @ 2019-10-13 14:28 静静的白桦林_andy 阅读(130) 评论(0) 推荐(0)

金融逾期类问题数据建模流程概述
摘要:一、数据读取Load Data 二、数据分析、数据展示、EDA 三、数据处理、特征工程 四、建模(模型性能比较、模型选择、超参调优) 五、模型理解、结果分析 一、数据读取Load Data 二、数据分析、数据展示、EDA 目的:对数据有个大体的理解,看有没有明显的特点及反常的表现,增强对数据、业务的 阅读全文

posted @ 2019-10-13 14:08 静静的白桦林_andy 阅读(466) 评论(0) 推荐(0)

python、anaconda、jupyter notebook、pycharm、spyder
摘要:说明: 1.anaconda把任何东西都当做包来管理。 2.anaconda本省集成了python和conda、spyder、numpy等。 3.pip只用于python,conda可用于多种语言。 参考资料: https://blog.csdn.net/Daliuvid/article/detai 阅读全文

posted @ 2019-10-05 18:56 静静的白桦林_andy 阅读(870) 评论(0) 推荐(0)

导航