10 2019 档案
摘要:单链表,用于存储逻辑关系为 "一对一" 的数据,与顺序表不同,链表不限制数据的物理存储状态,换句话说,使用链表存储的数据元素,其物理存储位置是随机的。 结点在存储器中的位置是任意的,即逻辑上相邻的数据元素在物理上不一定相邻。 例如{1,2,3}: 线性表的链式表示又称为非顺序映像或链式映像。 各结点
阅读全文
摘要:HMM定义 1)隐马尔科夫模型 (HMM, Hidden Markov Model) 可用标注问题,在语音识别、 NLP 、生物信息、模式识别等领域被实践证明是有效的算法。 2)HMM 是关于时序的概率模型,描述由一个隐藏的马尔科夫链生成不可观测的状态随机序列,再由各个状态生成观测随机序列的过程。
阅读全文
摘要:LDA常见的应用方向: 信息提取和搜索(语义分析);文档分类/聚类、文章摘要、社区挖掘;基于内容的图像聚类、目标识别(以及其他计算机视觉应用);生物信息数据的应用; 对于朴素贝叶斯模型来说,可以胜任许多文本分类问题,但无法解决语料中一词多义和多词一义的问题--它更像是词法分析,而非语义分析。如果使用
阅读全文
摘要:关于奇异值分解具体的可以看看这篇博文SVD 奇异值分解(Singular Value Decomposition)是一种重要的矩阵分解方法,可以看做对称方阵在任意矩阵上的推广。 假设A是一个m×n阶实矩阵,则存在一个分解使得: 通常将奇异值由大而小排列。这样,Σ便能由A唯一确定了。 与特征值、特征向
阅读全文
摘要:概率公式 条件概率: 全概率公式: 贝叶斯(Bayes)公式: 例题: 8支步枪中有5支已校准过,3支未校准。一名射手用校准过的枪射击,中靶概率为 0.8用未校准的枪射击,中靶概率为0.3;现从8支枪中随机取一支射击,结果中靶。求该枪是已校准过的概率。 解:G=1为校准过的步枪,G=0为未校准过的步
阅读全文
摘要:虽然学习了机器学习的一些算法,其中涉及的数学知识虽然也能看明白,但是为了加强记忆与理解以及提高对机器学习的认识,特又跟着老师们一起具体学习一下相关的数学知识,当然了刚考完研或者数学专业的孩子对下面的数学知识还是可以略过的。 首先了解什么是机器学习 对于某给定的 任务T,在合理的性能度量方案P的前提下
阅读全文
摘要:贝叶斯网络描述: 1)贝叶斯网络(Bayesian network),又称信念网络(Belief Network),或有向无环图模型(directedacyclic graphical model),是一种概率图模型,是一种模拟人类推理过程中因果关系的不确定性处理模型,其网络拓朴结构是一个有向无环图
阅读全文
摘要:pLSA模型--基于概率统计的pLSA模型(probabilistic Latent Semantic Analysis,概率隐语义分析),增加了主题模型,形成简单的贝叶斯网络,可以使用EM算法学习模型参数。概率潜在语义分析应用于信息检索,过滤,自然语言处理,文本的机器学习或者其他相关领域。 D代表
阅读全文
摘要:GMM即高斯混合模型,下面根据EM模型从理论公式推导GMM: 随机变量X是有K个高斯分布混合而成,取各个高斯分布的概率为φ1,φ2,... ,φK,第i个高斯分布的均值为μi,方差为Σi。若观测到随机变量X的一系列样本x1,x2,...,xn,试估计参数φ,μ,Σ。 E-step M-step 将多
阅读全文
摘要:EM算法也称期望最大化(Expectation-Maximum,简称EM)算法,它是一个基础算法,是很多机器学习领域算法的基础,比如隐式马尔科夫算法(HMM), LDA主题模型的变分推断,混合高斯模型GMM,基于概率统计的pLSA模型。 EM算法概述(原文) 我们经常会从样本观察数据中,找出样本的模
阅读全文
摘要:在学习谱聚类算法之前,首先复习一下:实对称阵的特征值是实数 实对称阵不同特征值的特征向量正交 令实对称矩阵为A,其两个不同的特征值λ1λ2对应的特征向量分别是μ1μ2; λ1λ2 μ1μ2都是实数或是实向量。 正式介绍谱聚类 谱和谱聚类 方阵作为线性算子,它的所有特征值的全体统称方阵的谱。 方阵的
阅读全文
摘要:密度聚类方法:1.DBSCAN 2.密度最大值算法 密度聚类方法的指导思想是,只要样本点的密度大于某阈值,则将该样本添加到最近的簇中。 这类算法能克服基于距离的算法只能发现“类圆形”(凸)的聚类的缺点,可发现任意形状的聚类,且对噪声数据不敏感。但计算密度单元的计算复杂度大,需要建立空间索引来降低计算
阅读全文
摘要:层次聚类方法 层次聚类方法对给定的数据集进行层次的分解,直到某种条件满足为止。具体又可分为: 1)凝聚的层次聚类:AGNES算法 一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到某个终结条件被满足。 2)分裂的层次聚类:DIANA算法 采用自顶向下的策略,
阅读全文
摘要:聚类的定义: 聚类就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小,它是无监督学习。 聚类的基本思想: 给定一个有N个对象的数据集,构造数据的k个簇,k≤n。满足下列条件: 1. 每一个簇至少包含一个对象 2. 每一个对象属于且仅
阅读全文

浙公网安备 33010602011771号