随笔分类 -  数据挖掘

主要记录我的数据挖掘学习过程,遇到的问题,解决方法,仅代表个人意见,如有错误,请大家指正,共同讨论
摘要:请参考: https://www.cnblogs.com/think-and-do/p/6509239.html 阅读全文
posted @ 2018-11-16 16:28 我们都是大好青年 阅读(629) 评论(0) 推荐(0)
摘要:参考:https://blog.csdn.net/qq_33638791/article/details/74926573 常见分布:高斯分布 来源:中心极限定理 定义:大量独立的随机变量之和趋向于正态分布(高斯分布) 前提:样本之间相互独立 可以看出期望U代表了正态分布的偏移量;方差代表了幅度 当 阅读全文
posted @ 2018-09-05 10:00 我们都是大好青年 阅读(496) 评论(0) 推荐(0)
摘要:最近在做城市计算的项目,数据文件是以.h5的格式存储的,总结下其用法和特点 来自百度百科的简介: HDF(Hierarchical Data Format),可以存储不同类型的图像和数码数据的文件格式,并且可以在不同类型的机器上传输,同时还有统一处理这种文件格式的函数库。大多数计算机都支持这种文件格 阅读全文
posted @ 2018-09-04 15:01 我们都是大好青年 阅读(15875) 评论(0) 推荐(0)
摘要:问题的由来 在很多机器学习任务中,特征并不总是连续值,而有可能是分类值。 例如,考虑以下三个特征: 如果将上述特征用数字表示,效率会高很多。例如: 但是,即使转化为数字表示之后,上述数据也不能直接用在我们的分类器中。因为,分类器往往默认数据是连续的,并且是有序的。但是,按照我们上述的表示,数组并不是 阅读全文
posted @ 2018-09-03 14:16 我们都是大好青年 阅读(1016) 评论(0) 推荐(0)
摘要:1、c4.5 c4.5算法是机器学习算法中的一种分类决策树算法,其核心是ID3算法,c4.5算法继承了ID3算法的优点,并在一下几个放米娜对ID3算法进行了改进: 1)用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足。 2)在树构造过程中进行剪枝。 3)能够完成对不连续属 阅读全文
posted @ 2018-08-07 22:09 我们都是大好青年 阅读(454) 评论(0) 推荐(0)
摘要:PCA操作流程 1、去平均值,每一位特征减去均值,(当然,为了避免量纲以及数据量级差异的影响,先标准化是必要的) 2、计算协方差矩阵 3、计算协方差矩阵的特征值与特征向量 4、对特征值从大到小排序 5、保留最大的几个特征向量 6、将数据转换到特征特征向量构建的新空间中 阅读全文
posted @ 2018-08-03 11:47 我们都是大好青年 阅读(188) 评论(0) 推荐(0)
摘要:维特比算法(Viterbi) 维特比算法 维特比算法shiyizhong 动态规划算法用于最可能产生观测时间序列的-维特比路径-隐含状态序列,特别是在马尔可夫信息源上下文和隐马尔科夫模型中。术语“维特比路径”和“维特比算法”也被用于寻找观察结果最有可能解释的相关dongtai 规划算法。例如在统计句 阅读全文
posted @ 2018-07-30 15:54 我们都是大好青年 阅读(23208) 评论(5) 推荐(2)
摘要:本次赛题需要利用历史某3年的汽车日上牌数据,预测某2年每天的汽车上牌数。初赛将挑选出5个汽车品牌,给出这些品牌每天的上牌数,当天是星期几,来预测5个汽车品牌未来每天的上牌总数。 数据说明 1、数据分成训练数据(train.txt)和测试数据(test.txt)。其中 前3个字段是特征变量,”cnt“ 阅读全文
posted @ 2018-07-28 15:42 我们都是大好青年 阅读(311) 评论(0) 推荐(0)
摘要:应用: 一、图像分析 NMF最成功的一类应用是在图像的分析和处理领域。图像本身包含大量的数据,计算机一般将图像的信息按照矩阵的形式进行存放,针对图像的识别、分析和处理也是在矩阵的基础上进行的。这些特点使得NMF方法能很好的与图像分析处理相结合。人们已经利用NMF算法,对卫星发回的图像进行处理,以自动 阅读全文
posted @ 2018-07-26 18:15 我们都是大好青年 阅读(1674) 评论(0) 推荐(0)
摘要:一、矩阵分解回想 矩阵分解是指将一个矩阵分解成两个或者多个矩阵的乘积。对于上述的用户-商品(评分矩阵),记为能够将其分解为两个或者多个矩阵的乘积,如果分解成两个矩阵和 。我们要使得矩阵和 的乘积能够还原原始的矩阵 当中,矩阵表示的是m个用户于k个主题之间的关系,而矩阵表示的是k个主题与n个商品之间的 阅读全文
posted @ 2018-07-26 17:23 我们都是大好青年 阅读(14578) 评论(5) 推荐(2)
摘要:这个是liaspace函数 这个是np.newaxis的用法,增加维度,写一个表示增加一维,两个表示增加2维2位置的:号是对a的取值范围,如果把np.newaxis作为第一个参数是对行增加维度,作为第二个参数是对列增加维度 阅读全文
posted @ 2018-05-25 18:51 我们都是大好青年 阅读(5176) 评论(0) 推荐(0)