发量决定水平

2020年5月

摘要：基于贝叶斯定理与特征条件独立假设的分类方法首先基于特征条件独立假设学习输入/输出的联合概率分布，然后基于此模型，对给定的输入x，利用贝叶斯定理求出后验概率最大的输出y，有监督的学习算法，解决的是分类问题，客户是否流失、是否值得投资、信用等级评定等多分类问题简单易懂、学习效率高、在某些领域的分类阅读全文

posted @ 2020-05-14 18:41 发量决定水平阅读(131) 评论(0) 推荐(0)

数据预处理

摘要：数据预处理操作主要包括：数据过滤、处理数据缺失、处理异常值、合并多个数据源数据、汇总数据特征工程主要包括特征构建特征提取特征选择三个部分数据驱动=开发技能+理论技能+特征工程（和场景相关）数据与特征处理数据采集数据格式化确定存储格式，日期等，串成字符串等数据清洗单维度不可信数据阅读全文

posted @ 2020-05-14 17:40 发量决定水平阅读(585) 评论(0) 推荐(0)

ML-Review-SVM

摘要： l拉格朗日乘子法：https://www.matongxue.com/madocs/939.html KKT条件：https://www.zhihu.com/question/23311674 SVM，二分类模型。思路就是找到一个超平面把数据集进行正确的分类。对于现有维度不可分的数据，利用核函数映阅读全文

posted @ 2020-05-11 20:57 发量决定水平阅读(137) 评论(0) 推荐(0)

ML-Review-L1、L2范数正则化

摘要： L1 & L2范数正则化通过让原目标函数加上了所有特征系数绝对值的和来实现正则化，而正则化通过让原目标函数加上了所有特征系数的平方和来实现正则化。在更新w时，L1表现为，每次加上一个常数可能使得w变为0，代表该特征对预测没影响，也就使得特征变稀疏，起到特征选择的作用 L2表现为每次对特征系数阅读全文

posted @ 2020-05-11 19:16 发量决定水平阅读(210) 评论(0) 推荐(0)

ML-Review-LR

摘要：逻辑回归也属于有监督机器学习，逻辑回归就是用回归的办法来做分类的输入变量与输出变量均为连续变量的预测问题是回归问题,输出变量为有限个离散变量的预测问题成为分类问题。判别函数我们用线性的y = ,逻辑回归的函数呢,我们目前就用sigmod函数,函数如下: 该函数具有很强的鲁棒性(鲁棒是Robust 阅读全文

posted @ 2020-05-11 19:07 发量决定水平阅读(153) 评论(0) 推荐(0)

ML-Review-GBDT

摘要： Gradient Boosting Decision Tree适用所有回归问题（线性非线性），也可以做分类，和多分类（设阈值）。LR只适用线性 DT gbdt中全是回归树，核心是累加所有树的结果作为最终结果。回归树累加起来才有意义可以调整后做分类，内部依旧是回归树。调整是softmax函数来产生概阅读全文

posted @ 2020-05-11 15:48 发量决定水平阅读(211) 评论(0) 推荐(0)

ML-Review-Adaboost

摘要：串行生成，只适用二分类（做回归用别的更新公式？）工作机制：先从初始训练集中学习一个基学习器根据基学习器的表现对训练样本分布进行调整，做错的提高权重，对的降低权重基于调整后的样本分布来训练下一个基学习器如此反复，直到基学习器数目达到T，最终将这T个基学习器进行加权结合对训练样本分布调整，主阅读全文

posted @ 2020-05-10 12:53 发量决定水平阅读(106) 评论(0) 推荐(0)

ML-Review-集成-bagging-RF

摘要：集成学习（ensemble learning）—bagging—RF Bagging主要关注降低方差。（low variance）Boosting关注的主要是降低偏差。（low bias） bagging是对许多强（甚至过强）的分类器求平均。在这里，每个单独的分类器的bias都是低的，平均之后bia 阅读全文

posted @ 2020-05-10 12:07 发量决定水平阅读(140) 评论(0) 推荐(0)

ML-Review-决策树

摘要：原理：特征选择-生成树-剪枝根节点包含所有样本集，叶结点对应决策结果（不同叶结点可能对应同一决策结果）内部节点对应决策过程。决策树的生成就是不断的选择最优的特征对训练集进行划分，是一个递归的过程。递归返回的条件有三种：（1）当前节点包含的样本属于同一类别，无需划分（2）当前属性集为空，或阅读全文

posted @ 2020-05-09 16:30 发量决定水平阅读(218) 评论(0) 推荐(0)

公告