随笔分类 -  机器学习

摘要:python求向量集合中两两向量对应的欧式距离 为了使用矩阵加速运算,因此向量集合转换成矩阵的形式,如n×m的矩阵,n为向量的个数,m为向量的维度。 方法1 def f(mat): """ :param mat: 矩阵n*m :return: n个向量间两两之间对应的长度,共n*(n-1)/2个 " 阅读全文
posted @ 2021-05-06 17:08 来一点音乐 阅读(1115) 评论(0) 推荐(0)
摘要:余弦相似度公式 \(\cos\alpha={\vec a} {\cdot} {\vec b}{|\vec a||\vec b|}\) 向量$\vec a$与向量$\vec b$的余弦相似度等于,向量$\vec a$与向量$\vec b$的点积,除以向量$\vec a$与向量$\vec b$的长度 函 阅读全文
posted @ 2020-12-23 19:53 来一点音乐 阅读(1159) 评论(0) 推荐(0)
摘要:官方文档上表示logs内存的内容为 python on_epoch_end: logs include and , and optionally include (if validation is enabled in ), and (if validation and accuracy monit 阅读全文
posted @ 2019-10-08 17:28 来一点音乐 阅读(561) 评论(0) 推荐(0)
摘要:1 为何使用RNN(Recurrent Neural Network) 传统神经网络,如卷积,全连接神经网络,同样的输入只能输出相同的输出。但在如语义识别的时候我们想要相同的输入对应不同的输出。如购票系统中,去‘’北京‘’,中的北京是目的地,而离开’北京‘,’中的北京是出发地。通过上下文来跟当前的输 阅读全文
posted @ 2019-10-02 00:18 来一点音乐 阅读(492) 评论(0) 推荐(0)
摘要:原理是通过numpy的数组索引,注意不能用label[:,my_label 1]的方式,因为使用切片操作,之后会操作某一列,而不是对应行的列。 比如 结果为 可以看到使用切片之后会操作某一列,而不是对应行的列 阅读全文
posted @ 2019-07-17 20:38 来一点音乐 阅读(477) 评论(0) 推荐(0)
摘要:1 Recipe of Deep Learning 我们在搭建与训练神经网络的时候最好使用上图步骤: 1. 快速搭建好神经网络模型 2. 看训练集上有没有好的结果,如果有那么执行3,如果没有高偏差执行4 3. 看测试集上有没有好的结果,如果有执行6,如果没有高方差执行5 4. 选择更好的模型,如增加 阅读全文
posted @ 2019-07-08 21:42 来一点音乐 阅读(413) 评论(0) 推荐(0)
摘要:步态能量图生成主要有两步,主要为: 在原始轮廓图上对人的轮廓进行裁剪,在下面制作步态能量图图片叠加以什么为中心位置也是一个问题。一般有两种方式,一种是中心位置为人体宽的一半。另一种是以头顶为中心位置。如:下图为原始图像与裁剪后的图像 为人体宽一般为中心位置 以头顶为中心位置 对裁剪后图像合成,一个步 阅读全文
posted @ 2019-05-24 12:32 来一点音乐 阅读(4852) 评论(13) 推荐(7)
摘要:CNN 神经网络的每个神经元相当于一个分类器,当检测到对应特征时,这个神经元的激活值就会变得非常大。 越靠前面的层检测的就是越基础的特征,后面的层根据前面层检测到的特征来检测更复杂的特征,如下图,第一个隐含层可以表示最基本的分类器,检测颜色,基本条纹如斜线等。而第二个隐含层就可以通过第一个隐含层检测 阅读全文
posted @ 2019-04-22 22:02 来一点音乐 阅读(742) 评论(0) 推荐(1)
摘要:反向传播算法 反向传播算法实质就是链式求导法则的应用,那为什么叫反向传播算法。 前提我们已经熟悉如何求偏导。有下面式子 第二个就是链式求导法则,$\Delta s$会分别影响$\Delta x$与$\Delta y$。$\Delta x$跟$\Delta y$会在会影响$\Delta z$。因此$z 阅读全文
posted @ 2019-04-16 12:07 来一点音乐 阅读(808) 评论(0) 推荐(0)
摘要:1. 使用回归进行分类 机器学习中分类是指输入一个样本点,输出这个样本点所属的类别,预测的是一个离散值,如类别(1,2)。 而回归问题是输入一个样本点,预测一个值,这个值是连续值,可以介于$[1,2]$之间。 以二分类问题为例,我们可不可以通过回归的方法来进行分类呢?比如输入一个样本点,如果是第1类 阅读全文
posted @ 2019-04-03 16:37 来一点音乐 阅读(831) 评论(0) 推荐(0)
摘要:1. 梯度 梯度的本质: 梯度是方向导数最大值的反方向,因此梯度是函数值下降最快的方向。 在谈梯度之前我们需要先了解导数,跟方向导数的概念 1.1 导数 导数大家都很熟悉,即某个点在函数上的变化率。这个点不止是一元函数上的点,即只有一个变量。也有可能是二元,三元函数上的点不止一个自变量。但都表示某个 阅读全文
posted @ 2019-03-27 20:34 来一点音乐 阅读(2604) 评论(0) 推荐(0)
摘要:1. 正则化 正则化是指,在损失函数的基础上加上了正则化项,即原来的loss function$ \frac{1}{m}\sum_{i=1}^n(y_i \hat y)^2$ 变为$ \frac{1}{m}\sum_{i=1}^n(y_i \hat y)^2+\frac{\lambda}{2m} \ 阅读全文
posted @ 2019-03-26 21:46 来一点音乐 阅读(1389) 评论(0) 推荐(0)
摘要:有一个带标签的数据集X,标签为y。我们想通过这个数据集预测目标点x0的所属类别。 K近邻算法是指在X的特征空间中,把x0放进去,然后找到距离x0最近的K个点。通过这K个点所属类别,一般根据少数服从多数的原则,这K个点哪个类别多,就将x0设为哪一类。 关键有三个部分: 1.距离度量:目标点与训练集中的 阅读全文
posted @ 2019-03-11 16:18 来一点音乐 阅读(250) 评论(0) 推荐(0)
摘要:感知器学习的目标是求得一个能够将训练集正实例点和负实例点·完全正确分开的分离超平面。即找到这超平面的参数w,b。 超平面定义 w*x+b=0 其中w是参数,x是数据。公式很好理解以二维平面为例,w有两个参数x0,x1。确定其中一个参数x0就可以确定另一个参数x1所以,二维中超平面w*x+b=0就是一 阅读全文
posted @ 2019-03-07 15:59 来一点音乐 阅读(344) 评论(0) 推荐(0)
摘要:国内博客,上介绍实现的K-medodis方法为: 与K-means算法类似。只是距离选择与聚类中心选择不同。 距离为曼哈顿距离 聚类中心选择为:依次把一个聚类中的每一个点当作当前类的聚类中心,求出代价值最小的点当作当前聚类中心。 维基百科上,实现的方法为PAM算法。 分成K类,把每个点都尝试当作聚类 阅读全文
posted @ 2018-12-23 20:07 来一点音乐 阅读(1773) 评论(0) 推荐(0)
摘要:K-modes算法主要用于分类数据,如 国籍,性别等特征。 距离使用汉明距离,即有多少对应特征不同则距离为几。 中心点计算为,选择众数作为中心点。 主要功能: 随机初始化聚类中心,计算聚类。 选择每次聚类次数,选择最佳聚类初始化。 kmodes.m代码 Main.m 执行Main.m,返回聚类的代价 阅读全文
posted @ 2018-12-23 11:13 来一点音乐 阅读(3058) 评论(0) 推荐(1)
摘要:拐点图,最佳聚类数目,随机初始化聚类中心 阅读全文
posted @ 2018-12-21 17:56 来一点音乐 阅读(1206) 评论(0) 推荐(1)
摘要:监督学习: 线性回归,逻辑回归,神经网络,支持向量机。 非监督学习: K-means,PCA,异常检测 应用: 推荐系统,大规模机器学习 机器学习系统优化: 偏差/方差,正则化,下一步要进行的工作:评估学习算法(精确率,召回率),学习曲线,错误分析,上限分析 1. 监督学习 1.1 线性回归 假设函 阅读全文
posted @ 2018-12-20 11:01 来一点音乐 阅读(567) 评论(0) 推荐(2)
摘要:作业文件 machine-learning-ex8 在本次练习,第一节我们将实现异常检测算法,并把它应用到检测网络故障服务器上。在第二部分,我们将使用协同过滤来构建电影推荐系统。 1. 异常检测 在这节练习,我们将实现一个异常检测算法来检测服务器电脑异常行为。特征衡量的是每个服务器的吞吐量和延迟。当 阅读全文
posted @ 2018-12-19 21:46 来一点音乐 阅读(636) 评论(0) 推荐(0)
摘要:作业文件 machine-learning-ex7 1. K-means聚类 在这节练习中,我们将实现K-means聚类,并将其应用到图片压缩上。我们首先 从二维数据开始,获得一个直观的感受K-means算法是如何工作的。之后我们将K-means算法应用到图片压缩上,通过减少出现在图片上的颜色的数量 阅读全文
posted @ 2018-12-18 20:54 来一点音乐 阅读(1051) 评论(0) 推荐(0)