随笔分类 - 数据挖掘
主要记录我的数据挖掘学习过程,遇到的问题,解决方法,仅代表个人意见,如有错误,请大家指正,共同讨论
摘要:请参考: https://www.cnblogs.com/think-and-do/p/6509239.html
阅读全文
摘要:参考:https://blog.csdn.net/qq_33638791/article/details/74926573 常见分布:高斯分布 来源:中心极限定理 定义:大量独立的随机变量之和趋向于正态分布(高斯分布) 前提:样本之间相互独立 可以看出期望U代表了正态分布的偏移量;方差代表了幅度 当
阅读全文
摘要:最近在做城市计算的项目,数据文件是以.h5的格式存储的,总结下其用法和特点 来自百度百科的简介: HDF(Hierarchical Data Format),可以存储不同类型的图像和数码数据的文件格式,并且可以在不同类型的机器上传输,同时还有统一处理这种文件格式的函数库。大多数计算机都支持这种文件格
阅读全文
摘要:问题的由来 在很多机器学习任务中,特征并不总是连续值,而有可能是分类值。 例如,考虑以下三个特征: 如果将上述特征用数字表示,效率会高很多。例如: 但是,即使转化为数字表示之后,上述数据也不能直接用在我们的分类器中。因为,分类器往往默认数据是连续的,并且是有序的。但是,按照我们上述的表示,数组并不是
阅读全文
摘要:1、c4.5 c4.5算法是机器学习算法中的一种分类决策树算法,其核心是ID3算法,c4.5算法继承了ID3算法的优点,并在一下几个放米娜对ID3算法进行了改进: 1)用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足。 2)在树构造过程中进行剪枝。 3)能够完成对不连续属
阅读全文
摘要:PCA操作流程 1、去平均值,每一位特征减去均值,(当然,为了避免量纲以及数据量级差异的影响,先标准化是必要的) 2、计算协方差矩阵 3、计算协方差矩阵的特征值与特征向量 4、对特征值从大到小排序 5、保留最大的几个特征向量 6、将数据转换到特征特征向量构建的新空间中
阅读全文
摘要:维特比算法(Viterbi) 维特比算法 维特比算法shiyizhong 动态规划算法用于最可能产生观测时间序列的-维特比路径-隐含状态序列,特别是在马尔可夫信息源上下文和隐马尔科夫模型中。术语“维特比路径”和“维特比算法”也被用于寻找观察结果最有可能解释的相关dongtai 规划算法。例如在统计句
阅读全文
摘要:本次赛题需要利用历史某3年的汽车日上牌数据,预测某2年每天的汽车上牌数。初赛将挑选出5个汽车品牌,给出这些品牌每天的上牌数,当天是星期几,来预测5个汽车品牌未来每天的上牌总数。 数据说明 1、数据分成训练数据(train.txt)和测试数据(test.txt)。其中 前3个字段是特征变量,”cnt“
阅读全文
摘要:应用: 一、图像分析 NMF最成功的一类应用是在图像的分析和处理领域。图像本身包含大量的数据,计算机一般将图像的信息按照矩阵的形式进行存放,针对图像的识别、分析和处理也是在矩阵的基础上进行的。这些特点使得NMF方法能很好的与图像分析处理相结合。人们已经利用NMF算法,对卫星发回的图像进行处理,以自动
阅读全文
摘要:一、矩阵分解回想 矩阵分解是指将一个矩阵分解成两个或者多个矩阵的乘积。对于上述的用户-商品(评分矩阵),记为能够将其分解为两个或者多个矩阵的乘积,如果分解成两个矩阵和 。我们要使得矩阵和 的乘积能够还原原始的矩阵 当中,矩阵表示的是m个用户于k个主题之间的关系,而矩阵表示的是k个主题与n个商品之间的
阅读全文
摘要:这个是liaspace函数 这个是np.newaxis的用法,增加维度,写一个表示增加一维,两个表示增加2维2位置的:号是对a的取值范围,如果把np.newaxis作为第一个参数是对行增加维度,作为第二个参数是对列增加维度
阅读全文

浙公网安备 33010602011771号