随笔分类 -  大数据分析

摘要:转自:数据标准化/归一化normalization 这里主要讲连续型特征归一化的常用方法。离散参考[数据预处理:独热编码(One-Hot Encoding)]。 基础知识参考: [均值、方差与协方差矩阵 ] [矩阵论:向量范数和矩阵范数 ] 数据的标准化(normalization)和归一化 数据的 阅读全文
posted @ 2017-07-19 21:07 月是故乡明95 阅读(2716) 评论(0) 推荐(0)
摘要:1、贝叶斯公式及应用: 详见:链接ruanyifeng.com/blog/2011/08/bayesian_inference_part_one.html 阅读全文
posted @ 2017-03-09 20:22 月是故乡明95 阅读(200) 评论(0) 推荐(0)
摘要:梯度下降法是机器学习和神经网络学科中我们最早接触的算法之一。但是对于初学者,我们对于这个算法是如何迭代运行的从而达到目的有些迷惑。在这里给出我对这个算法的几何理解,有不对的地方请批评指正! 梯度下降法定义 (维基百科)梯度下降法,基于这样的观察:如果实值函数 在点 处可微且有定义,那么函数 在 点沿 阅读全文
posted @ 2017-02-14 21:44 月是故乡明95 阅读(1034) 评论(0) 推荐(0)
摘要:一、粗略聚类结果 1、 dbScan 对于交集,不合并为一个大类。(下图所有操作均为针对300条名航轨迹,大约24000个点,聚类半径:5000米,类最小元素个数:2) 2、层次聚类,相邻重复出现的类,记录一次,减少其影响程度 (300条轨迹,差异度 0.3) 阅读全文
posted @ 2016-05-19 22:18 月是故乡明95 阅读(1008) 评论(0) 推荐(0)
摘要:一、dbScan 对关键点聚类 二、根据轨迹上关键点,对每两条轨迹上点的类别序列进行最长匹配 例如:(1-2-3-4 ,0-2-3-4) ——> 2-3-4,得出两两轨迹之间的差异度。 两两轨迹之间的差异度矩阵: 三、进行层次聚类 聚类结果:上图选取 300 条轨迹进行聚类,聚类后,轨迹缩减为 23 阅读全文
posted @ 2016-05-06 19:13 月是故乡明95 阅读(359) 评论(0) 推荐(0)