随笔分类 - AI基础知识
机器学习、深度学习基础知识。
摘要:LDA是什么 隐含狄利克雷分布(Latent Dirichlet Allocation,以下简称LDA),是由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出的一种主题模型,是一种无监督机器学习技术,它可以将文档集中每篇文档的主题以概率分布的形式给出,从而通过分
阅读全文
摘要:特征选择的目标 构造机器学习的模型的目的是希望能够从原始的特征数据集中学习出问题的结构与问题的本质,此时的挑选出的特征就应该能够对问题有更好的解释;特征决定了机器学习的上限,而模型和算法只是去逼近这个上限,所以特征选择的目标大概如下: 提高预测的准确性; 减少模型的运行时间; 能够对模型有更好的理解
阅读全文
摘要:数据降维简介 数据降维即对原始数据特征进行变换,使得特征的维度减少。 依据降维过程是否可以用一个线性变换表示,降维算法可以分为线性降维算法和非线性降维算法,下图展示了各种降维算法及其类别: 降维的必要性: 多重共线性和预测变量之间相互关联。多重共线性会导致解空间的不稳定,从而可能导致结果的不连贯。
阅读全文
摘要:什么是线性回归 不同于分类问题的待预测变量为离散变量,回归问题中待预测变量即因变量为连续变量。人们在测量事物的时候因为客观条件所限,求得的都是测量值,而不是事物真实的值,为了能够得到真实值,无限次的进行测量,最后通过这些测量数据计算回归到真实值,这就是回归的由来。 线性回归假设自变量与因变量之间存在
阅读全文
摘要:什么是BERT BERT的全称是Bidirectional Encoder Representation from Transformers,是Google2018年提出的预训练模型,其结构采用Transformer的Encoder部分,主要创新点都在pre-train方法上,即用了Masked L
阅读全文
摘要:什么是聚类算法 聚类是一种机器学习技术,它涉及到数据点的分组。给定一组数据点,我们可以使用聚类算法将每个数据点划分为一个特定的组。理论上,同一组中的数据点应该具有相似的属性和/或特征,而不同组中的数据点应该具有高度不同的属性和/或特征。聚类是一种无监督学习的方法,是许多领域中常用的统计数据分析技术。
阅读全文
摘要:深度学习中的优化问题通常指的是:寻找神经网络上的一组参数$\theta$,它能显著地降低代价函数$J(\theta)$。 这里介绍的方法都基于以下两点: 梯度的负方向是函数在当前点减小最快的方向; 使用一阶泰勒展开式近似当前点的函数值,即: \[ f(x)\approx f(x_0)+f'(x_0)
阅读全文
摘要:Transformer是什么 Transformer是Google在2017年的论文《Attention Is All You Need》中所提出的一种Seq2Seq的模型,该模型完全的抛弃了以往深度学习所使用的CNN、RNN等结构而全部使用Attention结构。Transformer的效果和并行
阅读全文
摘要:什么是Seq2Seq Seq2Seq模型,全称Sequence to sequence,由Encoder和Decoder两个部分组成,每部分都是一个RNNCell(RNN、LSTM、GRU等)结构。Encoder将一个序列编码为一个固定长度的语义向量,Decoder将该语义向量解码为另一个序列。输入
阅读全文
摘要:什么是CNN 卷积神经网络(Convolutional Neural Networks, CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deep learning)的代表算法之一。CNN最常用于CV领域,但是在NLP等其
阅读全文
摘要:什么是TextCNN Yoon Kim在论文(2014 EMNLP) Convolutional Neural Networks for Sentence Classification提出TextCNN,该模型将卷积神经网络CNN应用到文本分类任务,是卷积神经网络应用到文本分析的开创性工作之⼀。 T
阅读全文
摘要:什么是FastText FastText是Facebook于2016年开源的一个词向量计算和文本分类工具,它提出了子词嵌入的方法,试图在词嵌入向量中引入构词信息。一般情况下,使用fastText进行文本分类的同时也会产生词的embedding,即embedding是fastText分类的产物。 Fa
阅读全文
摘要:什么是GloVe GloVe(Global Vectors for Word Representation)是一个基于全局词频统计(count-based & overall statistics)的词表征(word representation)工具,它可以把一个单词表达成一个由实数组成的向量,这
阅读全文
摘要:词嵌入要解决什么问题 在自然语言系统中,词被看作最为基本的单元,如何将词进行向量化表示是一个很基本的问题,词嵌入(word embedding)就是把词映射为低维实数域向量的技术。 下面先介绍几种词的离散表示技术,然后总结其缺点,最后介绍词的分布式表示及其代表技术(word2vec)。 词的离散表示
阅读全文
摘要:LSTM简介 LSTM是RNN的一种变体,引入了门控单元,旨在减缓RNN中的梯度消失现象,使得模型能够建模长距离的依赖关系。LSTM的结构图如下: 对比原始的RNN,LSTM中存在两种在不同时刻间传递的状态,分别为单元状态$c_t$以及隐藏状态$h_t$,其中$c_t$被用于保存长期记忆。 LSTM
阅读全文
摘要:什么是RNN RNN(循环神经网络)是一种用于处理时序数据的特殊结构的神经网络。所谓时序数据,是指句子、语音、股票这类具有时间顺序或者是逻辑顺序的序列数据。 RNN的折叠图和展开图为: RNN的参数为U、W和V三个矩阵,其中U为输出到隐藏层的参数矩阵,W为上一个时刻到当前时刻的参数矩阵,V为隐藏层到
阅读全文
摘要:什么是神经网络 逻辑回归、感知机均只包含一个输入层以及一个输出层,只能处理线性可分问题。如果在输入层与输出层之间加入一层到多层的隐藏层,就会得到神经网络结构。 神经网络一般由输入层、隐藏层、输出层构成,下图展示了其一般结构: 隐藏层之所称之为隐藏层,是因为在训练集中,这些中间结点的准确值我们是不知道
阅读全文
摘要:为什么使用LSTM+CRF进行序列标注 直接使用LSTM进行序列标注时只考虑了输入序列的信息,即单词信息,没有考虑输出信息,即标签信息,这样无法对标签信息进行建模,所以在LSTM的基础上引入一个标签转移矩阵对标签间的转移关系进行建模。这一点和传统CRF很像,CRF中存在两类特征函数,一类是针对观测序
阅读全文
摘要:什么是XGBoost XGBoost是陈天奇等人开发的一个开源机器学习项目,高效地实现了GBDT算法并进行了算法和工程上的许多改进。XGBoost本质上还是一个GBDT,但是力争把速度和效率发挥到极致,所以叫X (Extreme) GBoosted。 先来举个例子,我们要预测一家人对电子游戏的喜好程
阅读全文
摘要:什么是随机森林 自助法(Bootstrap Method,Bootstrapping,或自助抽样法、拔靴法)是一种从给定训练集中有放回的均匀抽样,也就是说,每当选中一个样本,它等可能地被再次选中并被再次添加到训练集中。 Bagging思想 Bagging(bootstrap aggregating)
阅读全文
浙公网安备 33010602011771号