随笔分类 -  机器学习

Python的传递引用
摘要:在研究神经网络的反向传播的时候,不解一点,就是修改的是神经网络的paramets,为什么影响内部的神经元(层),比如Affine层;因为除了创建的时候,使用params作为Affine层的构造函数参数之外,根本没有再使用。关系如下: 后来才发现其实python里面也是和Java一样,对于对象类型传值 阅读全文

posted @ 2019-06-06 09:21 张叫兽的技术研究院 阅读(299) 评论(0) 推荐(0)

机器学习梳理
摘要:机器学习的思路梳理一下:机器学习的分类,分类和预测;分类这里包括逻辑回归,贝叶斯分类,决策树分类,adaboost几种;回归则包括:线性回归,本质是根据样本来推测系数(权重,weight),基于损失函数,不断地调整系数以实现损失函数值最小,说的了损失函数,我们就来讨论一下有哪几类损失函数,因为损失函 阅读全文

posted @ 2019-04-16 13:53 张叫兽的技术研究院 阅读(245) 评论(0) 推荐(0)

关于PCA
摘要:PCA是常见的降维技术。 对于使用PCA来进行降维的数据,需要进行预处理,是指能够实现均值为0,以及方差接近。如何来确定到底哪个维度是"主成分"?就要某个axis的方差。 为什么要减去均值?目的就是要获取矩阵为0,以及方差相同。为什么均值会为0? mean = (a + b + c)/3 val = 阅读全文

posted @ 2019-04-05 15:02 张叫兽的技术研究院 阅读(567) 评论(0) 推荐(0)

关于SVD
摘要:下面的公式是基于物品的计算: 我之所以要把粘出来,是因为这种计算模式是公式界常用的一种方式:体会一下,单个来讲SiN*Run / |Sin|,分子分母公约之后只剩下了Run了;但是公式记录的是一种和运算,所以这就代表Run的某种运算,试想,如果两个物品完全相同,那么真的就是可以分子分母约分;那评分本来就是应该一样的; 当然没有两个物品是完全相似的。 U是用于行压缩(减少... 阅读全文

posted @ 2019-04-05 14:55 张叫兽的技术研究院 阅读(271) 评论(0) 推荐(0)

如何研究算法
摘要:第一要义就是要在宏观上对于算法进行了解;然后再看代码,看代码过程中再回过头来看一下宏观算法 阅读全文

posted @ 2019-03-24 18:46 张叫兽的技术研究院 阅读(275) 评论(0) 推荐(0)

FP-Growth算法
摘要:FP-Growth算法的目标是发现模式,其特点就是高效,因为可以通过设置发生频次直接过滤掉一些低频次的元素;而且秉承了和Apriori的思想,对于低频次的元素,其父级和子级的组合都是低频的。 FP-Growth利用的树结构;在发现模式的过程就是一个不断构建树的过程。其核心组成是两部分,一个就是FPT 阅读全文

posted @ 2019-03-24 18:38 张叫兽的技术研究院 阅读(549) 评论(0) 推荐(0)

线性模型
摘要:线性模型最终训练出来的是w列向量;验证以及判断都是基于这个训练出来的w列向量进行的。所以,所谓的线性模型是指数据的分布大体是满足一次方程的;线性模型学习的结果就是把这个一次方程的w给获得,这样就可以得到一个模型了;未来只要向这个模型(一次方程)传入样本即可得到结果。模型是一个什么概念?总体来讲模型是 阅读全文

posted @ 2019-03-10 21:28 张叫兽的技术研究院 阅读(541) 评论(0) 推荐(0)

关于回归树的创建和剪枝
摘要:之前对于树剪枝一直感到很神奇;最近参考介绍手工写了一下剪枝代码,才算理解到底什么是剪枝。 首先要明白回归树作为预测的模式(剪枝是针对回归树而言),其实是叶子节点进行预测;所以在使用回归树进行预测的时候,本质都是在通过每层(每个层代表一个属性)的值的大于和小于来作为分值,进行二叉树的遍历。最后预测值其 阅读全文

posted @ 2019-03-10 20:56 张叫兽的技术研究院 阅读(1462) 评论(0) 推荐(0)

KNN手写实践:Python基于数据集整体计算以及排序
摘要:1. 距离计算,不要通过遍历每个样本来计算和指定样本距离,而是通过对于指定样本进行广播(复制)成为一个shape和全局一致后,再进行整体计算,这里的广播 / 复制采用的是tile函数来实现的: 2. numpy的排序函数argsort,这个函数可以默认按照冒泡排序进行排序;对于一维数组,正序排列正常 阅读全文

posted @ 2019-03-02 15:24 张叫兽的技术研究院 阅读(471) 评论(0) 推荐(0)

关于svm
摘要:svm的研究一下,越研究越发现深入。下面谈一些我个人一些拙见。 svm计算基础是逻辑回归(logistic regression),其实一切二元分类的鼻祖我觉得都是logistic regress。 公式如下: 那么当我们谋求一个超平面(在二维里面超"线")y = w.T * x + b来实现分类,其实就是g(w.T *x + b),注意这里有点反人类,在前者y是因变... 阅读全文

posted @ 2019-03-01 13:56 张叫兽的技术研究院 阅读(501) 评论(0) 推荐(0)

关于Adaboost算法
摘要:我花了将近一周的时间,才算搞懂了adaboost的原理。这根骨头终究还是被我啃下来了。 Adaboost是boosting系的解决方案,类似的是bagging系,bagging系是另外一个话题,还没有深入研究。Adaboost是boosting系非常流行的算法。但凡是介绍boosting的书籍无不介绍Adaboosting,也是因为其学习效果很好。 Adaboost首先要建立一个概念:... 阅读全文

posted @ 2019-03-01 13:53 张叫兽的技术研究院 阅读(478) 评论(0) 推荐(0)

关于adaboost分类器
摘要:我花了将近一周的时间,才算搞懂了adaboost的原理。这根骨头终究还是被我啃下来了。 Adaboost是boosting系的解决方案,类似的是bagging系,bagging系是另外一个话题,还没有深入研究。Adaboost是boosting系非常流行的算法。但凡是介绍boosting的书籍无不介 阅读全文

posted @ 2019-02-18 21:59 张叫兽的技术研究院 阅读(2584) 评论(0) 推荐(0)

到底什么是贝叶斯?
摘要:朴素贝叶斯,到底什么是贝叶斯? 先验概率:就是在某个元素在某个分类中概率,比如一个公司,里面有运维团队,开发团队(分类)里面有100个人;有海事大学的10个人,那么海事大学在开发团队中概率是10%; 后验概率:那么作为该公司的一个海事大学的毕业生,是在开发团队中概率是多少?(还有测试团队,运维团队);贝叶斯解决的,就是根据先验概率来求解后验概率。 体会一下,贝叶斯问题其实就是一个... 阅读全文

posted @ 2019-02-17 12:22 张叫兽的技术研究院 阅读(542) 评论(0) 推荐(0)

逻辑回归(logic regression)的分类梯度下降
摘要:首先明白一个概念,什么是逻辑回归;所谓回归就是拟合,说明x是连续的;逻辑呢?就是True和False,也就是二分类;逻辑回归即使就是指对于二分类数据的拟合(划分)。 那么什么是模型呢?模型其实就是函数。函数是由三部分组成:自变量,因变量以及参数。 此次采用模型是sigmoid函数: sigmoid函 阅读全文

posted @ 2019-02-17 12:02 张叫兽的技术研究院 阅读(1237) 评论(0) 推荐(0)

nonzero
摘要:在python的numpy里面这个函数的意义是返回参数数组中不为0的元素的索引(indics)。 from numpy import array output: [[1 0 0] [0 2 0] [1 1 0]] (array([0, 1, 2, 2], dtype=int64), array([0 阅读全文

posted @ 2019-02-11 07:49 张叫兽的技术研究院 阅读(251) 评论(0) 推荐(0)

时间序列的预测的基本套路
摘要:第一步: 获取到序列,切割序列。这里测试用途可以通过arima.sim来进行模拟,下面的就是模拟一个36个数据,模式为MA(1),系数为0.6的时间序列;然后将序列进行分割,前半部分是序列图,后半部分是待预测验证部分。 set.seed(13256) serias = arima.sim(n=36, 阅读全文

posted @ 2019-01-13 21:10 张叫兽的技术研究院 阅读(711) 评论(0) 推荐(0)

贝叶斯公式
摘要:P(A∩B)和P(A|B)有什么区别? 这个问题困惑了我这么多年,是最近半年才发现的。前者注意,基数是全部样本数量,后者是B P(A∩B) = AB同时满足的个数/ Num(total) P(A | B) =AB同时满足的个数/ Num(B) 二者分子是一样的,区别在于分母。 贝叶斯是什么思想? P(h|D) = P(D|h)P(h)/P(D),这里P(D... 阅读全文

posted @ 2019-01-01 18:12 张叫兽的技术研究院 阅读(956) 评论(0) 推荐(0)

关于时间序列
摘要:参数估计 在分析模型参数(系数)的时候,如果发现AR(1)和AR(2),其中第二个参数非常小,接近0,比如0.0XXX那么就要维持AR(1)的模型,因为对于小系数可以忽略不计。 ARIMA稳态判断 基本思路: 首先判断是AR,MA还是ARMA;判断的依据是是否存在Yt-k,有则必然是AR,在判断是否有et-k,有则必然是MA;在判断是否变形后可以转化为差分形式... 阅读全文

posted @ 2019-01-01 18:07 张叫兽的技术研究院 阅读(230) 评论(0) 推荐(0)

R语言入门
摘要:引入R的package(库) 首先是要安装TSA库,TSA是作者自己开发的一套基于R的pacakge,里面包含了函数以及数据;安装的方式是在R的控制台(console)中敲入install.package("TSA") 使用的时候,首先要引入,在书中给的代码中直接上代码,但是要在前面添加上: library(TSA) 否则后面的data(larain)直接报错,找不到数据源;这个和java里面的i... 阅读全文

posted @ 2019-01-01 18:07 张叫兽的技术研究院 阅读(881) 评论(0) 推荐(0)

统计学基本概念
摘要:方差 体现的是一组数据的波动情况,值越小波动越小。 协方差 两种不同数据的方差,体现两组数据的变化趋势如何,正值变化趋势一致,负值变化趋势相反,0不相关。 相关系数 两组不同数据的相关程度,取值范围[-1,1],越接近与0越不相关,0时却不意味着两组数据独立,相关系数是两个变量之间的线性关联的一个度 阅读全文

posted @ 2018-12-25 15:27 张叫兽的技术研究院 阅读(385) 评论(0) 推荐(0)

导航