摘要:
基于贝叶斯定理与特征条件独立假设的分类方法 首先基于特征条件独立假设学习输入/输出的联合概率分布,然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y, 有监督的学习算法,解决的是分类问题,客户是否流失、是否值得投资、信用等级评定等多分类问题 简单易懂、学习效率高、在某些领域的分类 阅读全文
posted @ 2020-05-14 18:41
发量决定水平
阅读(124)
评论(0)
推荐(0)
摘要:
数据预处理操作主要包括:数据过滤、处理数据缺失、处理异常值、合并多个数据源数据、汇总数据 特征工程主要包括 特征构建 特征提取 特征选择三个部分 数据驱动=开发技能+理论技能+特征工程(和场景相关) 数据与特征处理 数据采集 数据格式化 确定存储格式,日期等,串成字符串等 数据清洗 单维度不可信数据 阅读全文
posted @ 2020-05-14 17:40
发量决定水平
阅读(584)
评论(0)
推荐(0)
摘要:
l拉格朗日乘子法:https://www.matongxue.com/madocs/939.html KKT条件:https://www.zhihu.com/question/23311674 SVM,二分类模型 。思路就是找到一个超平面把数据集进行正确的分类。对于现有维度不可分的数据,利用核函数映 阅读全文
posted @ 2020-05-11 20:57
发量决定水平
阅读(129)
评论(0)
推荐(0)
摘要:
L1 & L2范数 正则化通过让原目标函数加上了所有特征系数绝对值的和来实现正则化,而 正则化通过让原目标函数加上了所有特征系数的平方和来实现正则化。 在更新w时,L1表现为,每次加上一个常数 可能使得w变为0,代表该特征对预测没影响,也就使得特征变稀疏,起到特征选择的作用 L2表现为每次对特征系数 阅读全文
posted @ 2020-05-11 19:16
发量决定水平
阅读(206)
评论(0)
推荐(0)
摘要:
逻辑回归也属于有监督机器学习,逻辑回归就是用回归的办法来做分类的 输入变量与输出变量均为连续变量的预测问题是回归问题,输出变量为有限个离散变量的预测问题成为分类问题。 判别函数我们用线性的y = ,逻辑回归的函数呢,我们目前就用sigmod函数,函数如下: 该函数具有很强的鲁棒性(鲁棒是Robust 阅读全文
posted @ 2020-05-11 19:07
发量决定水平
阅读(148)
评论(0)
推荐(0)
摘要:
Gradient Boosting Decision Tree适用所有回归问题(线性非线性),也可以做分类,和多分类(设阈值)。LR只适用线性 DT gbdt中全是回归树,核心是累加所有树的结果作为最终结果。回归树累加起来才有意义 可以调整后做分类,内部依旧是回归树。调整是softmax函数来产生概 阅读全文
posted @ 2020-05-11 15:48
发量决定水平
阅读(206)
评论(0)
推荐(0)
摘要:
串行生成,只适用二分类(做回归用别的更新公式?) 工作机制: 先从初始训练集中学习一个基学习器 根据基学习器的表现对训练样本分布进行调整,做错的提高权重,对的降低权重 基于调整后的样本分布来训练下一个基学习器 如此反复,直到基学习器数目达到T,最终将这T个基学习器进行加权结合 对训练样本分布调整,主 阅读全文
posted @ 2020-05-10 12:53
发量决定水平
阅读(105)
评论(0)
推荐(0)
摘要:
集成学习(ensemble learning)—bagging—RF Bagging主要关注降低方差。(low variance)Boosting关注的主要是降低偏差。(low bias) bagging是对许多强(甚至过强)的分类器求平均。在这里,每个单独的分类器的bias都是低的,平均之后bia 阅读全文
posted @ 2020-05-10 12:07
发量决定水平
阅读(135)
评论(0)
推荐(0)
摘要:
原理:特征选择-生成树-剪枝 根节点包含所有样本集, 叶结点对应决策结果(不同叶结点可能对应同一决策结果) 内部节点对应决策过程。 决策树的生成就是不断的选择最优的特征对训练集进行划分,是一个递归的过程。递归返回的条件有三种: (1)当前节点包含的样本属于同一类别,无需划分 (2)当前属性集为空,或 阅读全文
posted @ 2020-05-09 16:30
发量决定水平
阅读(210)
评论(0)
推荐(0)
浙公网安备 33010602011771号