随笔分类 - Machine Learning
摘要:在colab和kaggle内核的Jupyter notebook中如何可视化深度学习模型的参数对于我们分析模型具有很大的意义,相比tensorflow, pytorch缺乏一些的可视化生态包,但是幸好pytorch1.1官方添加了tensorboard的库,可以直接从TORCH.UTILS.TENS
阅读全文
摘要:当数据量比较小时,可以使用 7 :3 训练数据和测试数据,或者 6:2 : 2 训练数据,验证数据和测试数据。 (西瓜书中描述常见的做法是将大约 2/3 ~ 4/5 的样本数据用于训练,剩余样本用于测试) 当数据量非常大时,可以使用 98 : 1 : 1 训练数据,验证数据和测试数据。 传统机器学习
阅读全文
摘要:一个深度学习模型在各类任务中的表现都需要定量的指标进行评估,才能够进行横向的对比比较,包含了分类、回归、质量评估、生成模型中常用的指标。 1 分类评测指标 图像分类是计算机视觉中最基础的一个任务,也是几乎所有的基准模型进行比较的任务,从最开始比较简单的10分类的灰度图像手写数字识别mnist,到后来
阅读全文
摘要:简单的特征脸识别实验 实现特征脸的过程其实就是主成分分析(Principal Component Analysis,PCA)的一个过程。关于PCA的原理问题,它是一种数学降维的方法。是为了简化问题。在二维的坐标空间内,找到一个单位向量U,使得所有数据在U上的投影之和最大。这样就能把数据分的尽可能的开
阅读全文
摘要:什么是SVM SVM是Support Vector Machine(支持向量机)的英文缩写,是上世纪九十年代兴起的一种机器学习算法,在目前神经网络大行其道的情况下依然保持着生命力。有人说现在是神经网络深度学习的时代了,AI从业者可以不用了解像SVM这样的古董了。姑且不说SVM是否真的已经没有前途了,
阅读全文
摘要:这涉及到数学的概率问题。 二元变量分布: 伯努利分布,就是0-1分布(比如一次抛硬币,正面朝上概率) 那么一次抛硬币的概率分布如下: 假设训练数据如下: 那么根据最大似然估计(MLE),我们要求u: 求值推导过程如下: 所以可以求出: 以上的推导过程就是极大似然估计,我们可以看出u就是样本出现的频率
阅读全文
摘要:缩小图像(或称为下采样(subsampled)或降采样(downsampled))的主要目的有两个:1、使得图像符合显示区域的大小;2、生成对应图像的缩略图。 放大图像(或称为上采样(upsampling)或图像插值(interpolating))的主要目的是放大原图像,从而可以显示在更高分辨率的显
阅读全文
摘要:范数(norm) 数学中的一种基本概念。在泛函分析中,它定义在赋范线性空间中,并满足一定的条件,即①非负性;②齐次性;③三角不等式。它常常被用来度量某个向量空间(或矩阵)中的每个向量的长度或大小。 这里简单地介绍以下几种向量范数的定义和含义 1、 L-P范数 与闵可夫斯基距离的定义一样,L-P范数不
阅读全文
摘要:predict_proba返回的是一个 n 行 k 列的数组, 第 i 行 第 j 列上的数值是模型预测 第 i 个预测样本为某个标签的概率,并且每一行的概率和为1。
阅读全文
摘要:一、ROC,AUC ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣 。 ROC曲线一般的横轴是FPR,纵轴是FPR。AUC为曲线下面的面积,作为评估指标,AUC值越大,说明模型越好。如下图
阅读全文

浙公网安备 33010602011771号