随笔分类 - 机器学习
摘要:1、PCA介绍 2、算法流程 假设有n个样本,每个样本有d维的特征: 1、通过每个样本计算各个特征的平均值,然后各个样本的特征分别减去各自的平均值: 2、计算得到协方差矩阵A: 3、对A矩阵进行特征值分解,得到特征值和特征向量,按特征值从大到小排序: 4、选取前d'个作为降维后的特征值及特征向量,得
阅读全文
摘要:一、传统机器学习算法 回归预测 Logistic回归 关联规则之Apriori AdaBoost PageRank k近邻 KNN 聚类之k-means 支持向量机SVM、优化问题、核函数 决策树:ID3、C4.5、CART 朴素贝叶斯 最大期望算法 EM 马尔可夫决策 TF-IDF
阅读全文
摘要:1、数据质量分析 脏数据:缺失值、异常值、不一致的值、重复数据及含有特殊符号的数据 缺失值处理 产生原因 1、信息无法获取或者获取代价大 2、信息因个人原因或客观原因被遗漏 3、根据实际而言,属性值不存在 影响 1、丢失大量有用信息 2、不确定性更加显著,难以把握规律 3、不可靠输出 分析 1、含有
阅读全文
摘要:1、基础 适用数据:数值型。 (1)相关系数(R2)衡量 有时候,我们需要计算预测值与实际值的匹配程度,来衡量所建立模型的好坏。此时,需要计算Y、Y‘的相关系数: 其中,Cov表示协方差,Var表示方差。 (2)缩减系数 当数据的特征比样本数目还多时,此时n>m,输入的样本矩阵非满秩矩阵,在求逆时会
阅读全文
摘要:聚类,就是根据数据的“相似性”将数据分为多类的过程。 评估不同样本之间的“相似性”,通常使用的方法为计算样本之间的“距离”。距离计算方法的不同会影响聚类结果的好坏。 1)簇类型 (1)明显分离的簇 簇是对象的集合。 每个点到同簇中任意点的距离比到不同簇中所有点的距离更近。簇的形状任意。 (2)基于中
阅读全文
摘要:1、混淆矩阵 一般情况下,分类器的好坏是通过错误率来衡量的。错误率指的是在测试数据中错误分类的样本所占比例。然而,这样进行度量掩盖了样例如何被分错的原因。 三类问题混淆矩阵示例: 当该矩阵中非对角元素均为0,那么就会得到完美的分类器。 二分类混淆矩阵: 在分类中,当某个类别的重要性高于其他类别时,可
阅读全文
摘要:1、介绍 Logistic回归主要用于二分类。属于监督学习算法的一种。 2、过程 1)logistic sigmoid函数 其具体公式为: 下图给出了其图像: 当x为0时,其函数值为0.5,随着x的增大,对应的函数值会逼近于1;随着x的减少,其值会趋于0.当横坐标刻度足够大时,其看上去会像一个阶跃函
阅读全文

浙公网安备 33010602011771号