文章分类 - 上手MindSpore系列
摘要:一. 概述 在之前介绍过的卷积神经网络计算中,前一个输入和后一个输入之间是没有关联关系的。但很多任务需要利用序列关系做处理。例如在自然语言处理中,需要理解一句话的时候,单独的只理解每一个词语是不行的,我们需要处理的是这些词连接起来的整体序列。为了解决这一问题,就诞生了循环神经网络(Recurrent
阅读全文
摘要:一. 摘要 本次分享内容是基于上篇文本向量方法的继续,上次内容中,主要分享了文本向量化的两种方法:词袋模型表示方法和基于深度学习词向量方法。词袋模型虽然能够很简单的将词表示为向量,但会造成维度灾难,并且不能够利用到文本中词顺序等信息。NNLM模型的目标是构建一个语言概率模型,但是在nnlm模型求解的
阅读全文
摘要:一. 摘要 本次内容将分享文本向量化的一些方法。文本向量化的方法有很多,主要可分为以下两个大类:基于统计的方法、基于神经网络的方法。在自然语言处理的领域中,文本向量化是文本表示的一种重要方式。文本向量化的主要目的是将文本表示成一系列能够表达文本语义的向量。无论是中文还是英文,词语都是表达文本处理的最
阅读全文
摘要:一. 摘要 在自然语言处理的一个重要分支领域——机器翻译中,句法分析占据着核心的地位,句法分析也是自然语言处理的核心技术,是机器理解语言的关键部分。句法分析的主要任务是识别出句子所包含的句法成分以及这些成分之间的关系,通常会以句法树来表示句法分析的结果。本次分享将介绍句法分析相关的技术。 二. 概述
阅读全文
摘要:一. 摘要 在通常的情况下,使用TF-IDF和TextRank算法就可以完成大部分关键词提取的任务。但还会有一些特殊场景,仅基于文档本身的关键词提取还不够准确和全面。例如记录国家地理的文档,文档中会有新疆、辽宁、四川等地名的频次会很高,但文中并不会显示的出现地理等词语。此场景下TF-IDF和Text
阅读全文
摘要:1. 摘要 基于上次分享的分词技术介绍,本次继续分享在分词后与词相关联的两个技术:词性标注和命名实体识别。词性是词汇基本的语法属性,也可以称为词类。词性标注的行为就是在给定的中文句子中判定每个词的语法作用,确定每个词的词性并加以标注。命名实体识别在信息检索方面有着很重要作用,检测出代表性的名称,下面
阅读全文
摘要:1. 摘要 在前面两次的分享中,我们主要探讨了LeNet卷积神经网络,分析了卷积、池化、全连接这些操作运算的特点和用法,以及LeNet中每一层的计算和作用。在了解过该网络的原理后,那么本次我们将通过使用MindSpore工具实现MNIST数据集的分类。 2. 模型的构造 对于一个完整图片分类模型,通
阅读全文
摘要:1. 摘要 在上一篇分享中,主要介绍了卷积操作,我们可以通过构造卷积核作用到图像中,对比输入和输出数组就可以精确的找到像素变化的位置。这便是图像物体边缘检测功能。设任意的二维数组X的i行j列的元素为X[i,j]。如果我们构造的卷积核输出Y[i,j]=1,那么说明输入中X[i,j]和X[i,j+1]数
阅读全文
摘要:1. 摘要 本系列分享我们将一起理解MindSpore官网中展示的MNIST图片数据集分类项目。此项目中使用的是LeNet卷积神经网络,卷积神经网络(convolutional neural network)是含有卷积层(convolutional layer)的神经网络,卷积神经网络均使用最常见的
阅读全文
摘要:一、 摘要 通过之前两篇分类评价指标的分享,我们已经基本了解到每个评价指标表达式的意义,那么本次分享我们将通过列举现实中的例子,结合不同的场景,体验不同指标的意义。 MindSpore分类指标之准确率、AUC/ROC详解(一) MindSpore分类指标之精准率、召回率和F值详解(二) 二、 评价指
阅读全文
摘要:一、评价指标基本概念 评价指标是针对模型性能优劣的一个定量指标。 一种评价指标只能反映模型一部分性能,如果选择的评价指标不合理,那么可能会得出错误的结论,故而应该针对具体的数据、模型选取不同的的评价指标。 本文将详细的介绍一下在教程中的图片分类项目为什么要用准确率(Accuracy)来作为评价指标。
阅读全文
摘要:初读:2020年11月20日-2020年11月25日 啃书进度会在目录中标出来。本次目标是完成第二章2.1节回归问题算法(P14-P16)。 这一节讲了三个问题: 只有一个特征值的线性回归问题 简单介绍交叉熵 多个属性的线性回归问题 关于线性回归的作用,P14有这样一句话很提神:线性回归是一个很简单
阅读全文
摘要:初读:2020年11月30日至2020年12月3日 啃书进度会在目录中标出来。本次目标是完成第二章2.2节梯度下降算法(P17-P19)。 这一节内容非常聚焦,只讲了梯度下降的原理,介绍了三种实际的梯度下降方法——批量梯度下降算法、随机梯度下降算法和小批量梯度下降算法。 “梯度下降”真是如雷贯耳,好
阅读全文
摘要:初读:2020年12月6日至2020年12月9日 啃书进度会在目录中标出来。本次目标是完成第二章2.3节分类问题算法(P19-P22)。 与回归问题不同,分类问题的输出不再是连续值,而是离散值 ,即样本的类别。 分类问题在现实中应用非常广泛,例如区分图片上的猫和狗、手写数字识别、垃圾邮件分类、人脸识
阅读全文
摘要:初读:2020年12月28日至2020年12月31日 啃书进度会在目录中标出来。本次目标是完成第三章 3.2节反向传播(P27-P30) 神经网络与2.2 节回归模型一样,都需要用梯度下降算法训练模型。2.2节可以类比成一层的神经网络,然而一个实际的神经网络动不动就几十几百层,上百万甚至上千万上亿的
阅读全文
摘要:初读:2020年12月23日至2020年12月25日 啃书进度会在目录中标出来。本次目标是完成第三章 3.1节前向网络(P25-P27) 深度学习(Deep Learning)与传统机器学习最大的不同在于其利用神经网络对数据进行高级抽象。而最基础的神经网络结构为前向神经网络(Feed forward
阅读全文
摘要:初读:2021年1月25日至2021年1月28日 啃书进度会在目录中标出来。本次目标是完成第4章 4.2节 正则化(P39-P42)。 2.4节和上一节都说到了过拟合,感觉过拟合是深度学习的核心问题了,起码是之一。本节说的就是如何防止过拟合,方法就是正则化(Regularization)。天下没有免
阅读全文
摘要:初读:2020年12月6日至2020年12月9日 二读:2021年2月10日至11日,补充交叉熵损失函数梯度求解推导。 啃书笔记的详细内容请见附件。 <ignore_js_op class="ignore"> 02-3-分类问题算法(二读).pdf894.11 KB
阅读全文
摘要:初读:2021年2月1日-2021年2月3日 啃书进度会在目录中标出来。本次目标是完成第4章 4.3节 Dropout(P42-P45)。 在深度学习系统中,训练大型的网络往往会有两个问题:过拟合和费时。4.2节正则化方法可以在一定程度上缓解过拟合问题。本节介绍的Dropout,不但能解决过拟合问题
阅读全文
摘要:初读:2021年3月8日-2021年3月10日 啃书进度会在目录中标出来。本次目标是完成第4章 4.4节 自适应学习率(P45-P49)。 在2.2节我们认识了学习率。学习率是非常重要的超参数,如果学习率不可变,模型的训练将会既费时又费力。当学习率可变时,模型收敛速度会明显提升。 本节将介绍3种常用
阅读全文