随笔分类 - 机器(深度)学习
注意力机制
摘要:但不论哪一种注意力,其实都是让你在某一时刻将注意力放到某些事物上,而忽略另外的一些事物,这就是注意力机制(Attention Mechanism) 注意力机制是一种在人工智能和机器学习中广泛使用的技术,用于模拟人类的视觉和认知系统中的注意力过程。这个概念源自生物学,描述了人类大脑在处理信息时如何选择
阅读全文
朴素贝叶斯
摘要:贝叶斯 朴素贝叶斯 朴素贝叶斯(Naive Bayes)是一种基于贝叶斯定理的分类算法,通常用于文本分类和模式识别任务。它被称为"朴素"因为它做出了一个朴素的假设,即特征之间是相互独立的,这在实际情况中并不总是成立,但这个假设使得算法计算简单且高效。 特征之间的独立性意味着在贝叶斯公式中,特征之间的
阅读全文
主成分分析 (PCA)
摘要:高纬度数据定义 高维度数据指的是数据集中包含大量特征或维度的情况。每个特征都可以看作是数据点的一个属性或测量值。例如,一张彩色图像可以被看作是一个高维度的数据集,其中每个像素的颜色值是一个特征。同样,一个文本文档也可以被视为高维度数据,其中每个单词可以被认为是一个特征 低纬度数据定义 低维度数据是指
阅读全文
潜在狄利克雷分布模型(LDA)原理
摘要:理解 在我们阅读一篇文章的时候,需要明确文章的类别(体育类、新闻类)、内容以及中心思想。通常情况下,一篇文章可能包含多个主题,比如在介绍一座城市的时候,可能会从历史、经济、政治、教育、交通等多个方面做介绍。LDA 正是一种自动分析每篇文档,统计文档中的词语,根据统计的信息判断文档包含哪些主题以及各个
阅读全文
狄利克雷分布(Dirichlet distribution)
摘要:历史 相关概念 概率密度函数: 概念 狄利克雷分布(Dirichlet Distribution)是概率统计学中的一个概率分布,通常用于描述多维度的随机变量。 通俗点,当我们谈论多维度的随机变量时,我们指的是一个包含多个随机事件或可能性的情况。每个维度代表一个不同的事件或可能性,而整个多维度空间表示
阅读全文
摘要模型是什么-Bart
摘要:摘要模型分为两种 提取式摘要模型: 提取式摘要模型不生成新的文本,而是从原始文本中选择或提取现有句子、段落或短语,以创建摘要。 这些模型通过评估文本中的句子的相关性、重要性或其他特征来选择最相关的部分,以构建摘要。 提取式摘要通常更易实现,因为它不涉及文本生成,而是依赖于选择和筛选原始文本的一部分。
阅读全文
词性标注
摘要:什么是词性标注 自然语言处理(NLP)中的词性标注(Part-of-Speech Tagging,简称POS Tagging)是文本处理的一项重要任务,其目标是为给定的文本中的每个单词或标记分配一个词性标签,表示该单词在句子中的语法角色和词性类别。这些标签通常用于分析文本的语法结构和语义含义,有助于
阅读全文
文本分类入门
摘要:文本分类是自然语言处理(NLP)领域中的一项任务,它涉及将文本文档分配到一个或多个预定义的类别或标签中。其主要目标是使用计算机算法来自动识别和归纳文本的内容,以便更好地组织、检索和理解大量的文本数据。文本分类在许多应用中都有广泛的用途,包括: 情感分析: 将文本分为积极、消极或中性情感,以了解人们对
阅读全文
NLP是什么
摘要:NLP代表自然语言处理(Natural Language Processing),是人工智能(AI)的一个子领域,专注于计算机与人类语言之间的交互。NLP的目标是使计算机能够以有意义和有用的方式理解、解释和生成人类语言。该领域涵盖了广泛的任务和应用,包括: 文本分类 文本分类是自然语言处理(NLP)
阅读全文
GAN(生成对抗网络,Generative Adversarial Network)
摘要:生成对抗网络(GAN)是一种深度学习模型架构,由生成器(Generator)和判别器(Discriminator)两个神经网络组成。这两个网络之间进行博弈式训练。 生成器(Generator):生成器是一个神经网络模型,它接收一个随机噪声向量作为输入,并试图生成与训练数据相似的新数据样本。生成器的目
阅读全文
监督学习-分类算法-KNN
摘要:定义:KNN最核心的功能“分类”是通过多数表决来完成的,具体方法是在待分类点的K个最近邻中查看哪个类别占比最多。哪个类别多,待分类点就属于哪个类别 如果选择K=3,那么模型将考虑目标数据点的3个最近邻居, 对于图像的分类。他的邻居是什么 每个图像样本通常会被表示为一个特征向量,其中每个特征可以代表图
阅读全文
非监督学习-聚类算法-Kmeans
摘要:K均值聚类算法是一种用于将数据集中的数据点分成不同组的方法。这些组通常称为簇。这个算法的核心思想是把相似的数据点放在同一个簇中,从而把数据分成几个组,每个组内的数据点彼此相似。 这是一个简单的K均值聚类过程: 选择簇的数量(K):首先,将数据分成k个簇。 随机选择K个点作为初始簇中心:从数据集中随机
阅读全文
监督学习-分类算法
摘要:分类算法是一类监督学习算法,用于将数据点分为预定义的类别或标签之一。在分类问题中,算法通过学习从已知输入数据到其对应类别的映射来训练模型,然后使用该模型来对新的、未标记的数据进行分类。分类问题通常涉及到预测离散的输出,即将数据分为几个互斥的类别之一。 以下是一些常见的分类算法: 逻辑回归(Logis
阅读全文
监督学习和非监督学习
摘要:总结来说,监督学习侧重于从带有标签的数据中学习预测模型,用于分类或回归等任务,而非监督学习侧重于从未标记的数据中发现数据的内在结构和模式。这两种学习方式在机器学习中都具有重要作用,具体选择哪种取决于任务的性质和数据的特点 监督学习(Supervised Learning): 任务:监督学习是一种有监
阅读全文
LSTM
摘要:LSTM(Long Short-Term Memory)是一种递归神经网络(Recurrent Neural Network,RNN)的变体,用于处理和建模序列数据,尤其在处理长序列时表现出色。它的设计目的是克服传统RNN架构中的梯度消失问题,以便更好地捕捉和记忆序列数据中的长期依赖关系。 LSTM
阅读全文
什么随机森林
摘要:随机森林通过对训练数据随机抽样生成多个决策树,每个决策树都是根据随机选择的特征子集进行构建。在决策树的构建过程中,随机森林采用了自助采样(Bootstrap Sampling)和特征随机选择(Feature Randomness)的策略,使得每个决策树都具有一定的差异性。 在进行预测时,随机森林通过
阅读全文
什么决策树
摘要:决策树是一种基于树形结构的机器学习算法,用于解决分类和回归问题。它通过构建一棵树来对输入数据进行判断和预测。 决策树的构建过程是从根节点开始,根据特征的取值将数据集划分为不同的子集,然后再对每个子集递归地进行划分,直到满足停止条件。在构建过程中,决策树通过选择最优的特征和划分方式来使得每个子集的纯度
阅读全文
什么是SVM
摘要:支持向量机(Support Vector Machine,SVM) 概念: 在支持向量机中,样本数据被看作是在空间中的点,不同类别的样本被尽可能大的间隔分开。超平面是一个划分空间的决策边界,具有最大间隔,使得离超平面最近的样本点称为支持向量 原理: 支持向量机可以用于线性可分和线性不可分的数据集。对
阅读全文
什么是非监督学习
摘要:非监督学习(Unsupervised Learning)是一种机器学习任务,其中算法从未标记的数据中学习模式、结构和关系,以发现数据中的隐藏信息和有意义的结构。与监督学习不同,非监督学习中没有标签或输出变量来指导学习过程,算法需要自行发现数据的内在模式。 在非监督学习中,算法的目标是对数据进行聚类、
阅读全文
浙公网安备 33010602011771号