决策树
摘要:一.决策树概念 决策树:从根节点开始一步步走到叶子节点 节点(特征): 根节点:第一个选择点 非叶子节点与分支:中间过程 叶子节点:最终的决策结果(容易理解错误) 增加节点相当于在数据中切一刀(节点并不是越多越好) 说明:所有的数据最终都会落到叶子节点;决策树既可以做分类也可以做回归 例子:一家人谁
阅读全文
逻辑回归算法(二分类)
摘要:一、逻辑回归算法简介 目的:经典的二分类算法 机器学习算法选择:先逻辑回归再复杂算法 决策边界:可以是非线性的 逻辑回归算法分三步(原理):(1)需要确定一个预测函数,即预测出一个值来判断归属哪一类,可定义预测值大于某个阈值判断为一类,反之为另一类;(2)为了计算参数,我们需要定义一个损失函数,损失
阅读全文
机器学习中的目标函数与损失函数
摘要:一、基本简介 损失函数(代价函数):对于目标函数来说在有约束条件下的最小化就是损失函数。(度量模型的拟合程度) 公式: 目标函数:更广的概念。 最优化经验风险和结构风险,而这个函数就被称为目标函数。(风险函数是损失函数的期望。) 经验风险最小化: 结构风险最小化(度量模型的复杂度): 公式: 二、详
阅读全文
探索性数据分析(EDA)
摘要:一.描述性统计分析 1.定性变量 频率 频数 2.定量变量 集中趋势的度量:均值、众数、中位数、四分位 变异程度的度量:极差、方差、标准差 相对位置的度量:标准得分 偏度和峰度:
阅读全文
模型优化算法二:最陡峭下降(梯度下降)
摘要:一、梯度下降算法简介 机器学习的套路就是我交给机器一堆数据,然后告诉它什么样的学习方式是对的(目标函数),然后让它朝着这个方向去做。 二、梯队下降算法求线性回归参数 目标函数: (推导过程可参照线性回归部分) 下山的步骤(更新参数) 找到 当前最合适的方向(偏导) 走一小步,快了容易跌倒(步长,又叫
阅读全文
数据挖掘算法的组件化思想
摘要:一、数据挖掘功能 (1) 频繁模式(Frequent Patterns)(2) 分类(Classification)(3) 聚类(Cluster Analysis)(4) 异常检测(Outlier Detection) 二、学习组件化思想的目的 许多著名的数据挖掘算法都是由五个“标准组件”构成的,即
阅读全文
模型优化方法一:爬山
摘要:一、爬山算法简单描述 简介:爬山法是一种优化算法,其一般从一个随机的解开始,然后逐步找到一个最优解(局部最优)。假定所求问题有多个参数,我们在通过爬山法逐步获得最优解的过程中可以依次分别将某个参数的值增加或者减少一个单位。 思想:每次拿相邻点与当前点进行比对,取两者中较优者,作为爬坡的下一步。 主要
阅读全文
模型的搜索和优化方法综述:
摘要:一、常用的优化方法: 1.爬山 2.最陡峭下降 3.期望最大值 二、常用的搜索方法: 1.贪婪搜索 2.分支界定 3.宽度(深度)优先遍历
阅读全文
线性回归算法推导
摘要:一.线性回归算法推导 找到最合适的一条线(想象一个高维)来最好的拟合我们的数据点。 举例:去银行借款,存在共三个变量(年龄、工资、贷款金额),假设是年龄的参数,是工资的参数 拟合的平面: (是偏置项)整合: (偏置项 需要在原数据中加一列全部为1进行运算) 矩阵形式:把方程运算转换为矩阵运算,因矩阵
阅读全文