随笔分类 - 专著学习笔记
            
    十一,专著研读(CART算法)
    
            
            
        
摘要:十一,专著研读(CART算法) CART称为分类回归树,既能用于分类也能用于回归。使用二元切分方法处理连续型变量,给定特定值,如果特征值大于给定值就走左子树,否则走右子树。 CART算法步骤 决策树生成:递归构建二叉决策树过程,生成的决策树要尽可能大,自上而下从根开始建立节点,在节点处选择最好的属性
        阅读全文
            
        
            
    十,专著研读(线性回归)
    
            
            
        
摘要:十,专著研读(线性回归) 分类问题输出离散型变量,回归输出连续型变量。 线性回归 简单线性回归一元线性回归及其一元线性方程 $y=b+\omega x$ 写成矩阵形式 $y=X^{T}\omega$ 多元线性回归多元线性方程 $y=\omega _{0}+\omega _{1}x_{1}+\omeg
        阅读全文
            
        
            
    九,专著研读(集成学习)
    
            
            
        
摘要:九,专著研读(集成学习) 集成学习将若干弱分类器通过一定的策略组合之后产生一个强分类器,弱分类器也称基分类器。 bagging(装袋)装袋又称自主聚集,是根据均匀概率分布从数据集中重复抽样(有放回)的技术,每个新数据集和原始数据集大小相等,有放回的随机抽样可能导致新数据集中可能有重复的值,而原始数据
        阅读全文
            
        
            
    七,专著研读(Logistic回归)
    
            
            
        
摘要:七,专著研读(Logistic回归) 分类:k 近邻算法,决策树,朴素贝叶斯,Logistic回归,支持向量机,AdaBoost算法。 运用 k 近邻算法,使用距离计算来实现分类 决策树,构建直观的树来分类 朴素贝叶斯,使用概率论构建分类器 Logistic回归,主要是通过寻找最优参数来正确分类原始
        阅读全文
            
        
            
    六,专著研读(第九章朴素贝叶斯)
    
            
            
        
摘要:六,专著研读(第九章朴素贝叶斯) 概述:贝叶斯分类是统计学的一种概率分类方法,,朴素贝叶斯分类是贝叶斯分类中最简单的。用贝叶斯公式根据某特征的先验概率计算出其后验概率,选择具有最大后验概率的类作为该特征所属的类。 朴素:假设所有特征之间是独立统计的。 公式推导(略) $ P(A|B)P(B)=P(B
        阅读全文
            
        
            
    四,专著研读(K-近邻算法)
    
            
            
        
摘要:四,专著研读(K 近邻算法) K 近邻算法有监督学习距离类模型, k 近邻算法步骤 计算已知类别数据集中的点与当前点之间的距离 按照距离递增的次序进行排序 选取与当前点距离最小的K个点 确定前k个点出现频率 返回前k个点出现频率最高的类别作为当前点的预测类别 欧氏距离 $dist\left ( x,
        阅读全文
            
        
            
    五,专著研读(第八章)
    
            
            
        
摘要:五,专著研读(第八章) 分类的目的通过构建分类模型来预测一些数据元组的类标签。 分类的过程 决策树(Decision Tree):是有监督学习的一种算法,并且是一种基本的分类与回归的方法。两种:分类树,回归树。 决策树构建 特征选择如何选择最优特征来划分:决策树的分支节点所包含的样本尽可能属于同一类
        阅读全文
            
        
            
    三,专著研读
    
            
            
        
摘要:三,专著研读 支持度:几个关联的数据在数据集中出现的次数所占数据集的比重。支持度是针对項集来说的,可以定义一个最小支持度,保留满足最小支持度的項集,起到項集过滤。 置信度:一个数据出现后,另外一个数据出现的概率(数据的条件概率),(例:豆奶 莴苣/莴苣)$Confidence\left ( X\ri
        阅读全文
            
        
            
    二,专著研读(第六章  挖掘频繁模式,关联和相关性)
    
            
            
        
摘要:二,专著研读(第六章 挖掘频繁模式,关联和相关性)日期 7 21 22 支持度和置信度支持度和置信度是规则兴趣的两种度量分别反映所发生规则的有用性和确定性。(13)支持度(相对支持度): $s=support\left ( A\rightarrow B \right )=P\left ( A\cup
        阅读全文
            
        
            
    一,专著研读(第三章-数据预处理)
    
            
    
摘要:一,专著研读(第三章 数据预处理) 数据预处理的主要任务主要步骤:数据清理 数据集成 数据规约 数据变换 数据清理缺失值处理(忽略元组,人工填充,全局常量填充,中心值填充,同一类中值填充,概率最大的值填充)噪声和离群点噪声(分箱法,回归方法平滑数据)离群点分析(通过聚类检测离群点,剔除离群点) 数据
        阅读全文
            
        
 
                    
                     
                    
                 
                    
                 
 浙公网安备 33010602011771号
浙公网安备 33010602011771号