上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 14 下一页
摘要: 统计学习:EM算法及其在高斯混合模型(GMM)中的应用 我们在应用中所面对的数据有时是缺损的/观测不完全的。我们将数据分为:可观测数据,用Y表示;缺失数据,用Z表示; 完全数据,用X=(Y, Z)表示。EM算法的基本思想是通过P(Y,Z)和P(Z |Y)这两个容易进行估计的分布来估计P(Y)。事实上,在应用中缺失数据Z常常并不是真实存在,而是人为造出来的(为了方便概率分布的估计)。我们此时将缺失数据Z称为隐含数据(latent data)。 阅读全文
posted @ 2022-03-09 11:03 orion-orion 阅读(702) 评论(0) 推荐(0) 编辑
摘要: 联邦学习中的优化算法 联邦学习做为一种特殊的分布式机器学习,仍然面临着分布式机器学习中存在的问题,那就是设计分布式的优化算法。 不过相比传统的分布式机器学习,它需要关注系统异质性(system heterogeneity)、统计异质性(statistical heterogeneity)和数据隐私性(data privacy)。系统异质性体现为昂贵的通信代价和节点随时可能宕掉的风险(容错);统计异质性数据的不独立同分布(Non-IID)和不平衡。由于以上限制,传统分布式机器学习的优化算法便不再适用,需要设计专用的联邦学习优化算法。 阅读全文
posted @ 2022-03-04 15:37 orion-orion 阅读(4598) 评论(0) 推荐(2) 编辑
摘要: 分布式多任务学习及联邦学习个性化 现在多任务学习根据数据的收集方式可以粗略地被分为两种,一个是集中化的计算方法,即假定数据被事先收集到一个中心节点上然后再运行模型, 大多数基于神经网络的多任务学习应用,比如CV和NLP,主要都用的这种方法。另外还有一种是分布式的计算方法,这种方法假定异构的(heterogeneous)数据分别由各个任务分别以分布式的方式收集。近年来由于联邦学习的火热,该方法得到了很多的重视。 阅读全文
posted @ 2022-03-01 18:50 orion-orion 阅读(1384) 评论(0) 推荐(1) 编辑
摘要: Pytorch:自定义Subset/Dataset类完成数据集拆分 我们常常会在训练集的基础上拆分出验证集(或者只用部分数据来进行训练)。我们想到的第一个方法是使用torch.utils.data.random_split对dataset进行划分,但这样拆分后已经不再是原本的dataseet对象,而是一个所谓的Subset对象!此时Subset对象虽然仍然还存有data属性,但是内置的target和classes属性已经不复存在,那么该如何做到前后代码的一致性呢?这里有一个trick,那就是以继承SubSet类的方式的方式定义一个新的CustomSubSet类。 阅读全文
posted @ 2022-02-17 19:29 orion-orion 阅读(6747) 评论(0) 推荐(0) 编辑
摘要: Chrome:用uBlacklist屏蔽CSDN搜索结果 CSDN现在广告满天飞,且很多博客需要先关注才能复制,非常令人无语。如果每次用Google搜索的时候都要加上"-csdn"选项,就非常麻烦。有没有更方便的办法呢?我们可以利用Chrome的uBlacklist插件。 阅读全文
posted @ 2022-02-16 11:37 orion-orion 阅读(3168) 评论(0) 推荐(0) 编辑
摘要: 联邦学习:按Dirichlet分布划分Non-IID样本 我们在联邦学习中,经常会假设不同client间的数据集不满足独立同分布(non-iid)。那么我们如何将一个现有的数据集按照non-iid划分呢?我们知道带标签样本的生成分布看可以表示为p(x,y),我们进一步将其写作p(x,y)=p(x|y)p(y)。其中如果要估计p(x|y)的计算开销非常大,但估计p(y)的计算开销就很小。所有我们按照样本的标签分布来对样本进行non-iid划分是一个非常高效、简便的做法。 阅读全文
posted @ 2022-02-15 19:15 orion-orion 阅读(4438) 评论(2) 推荐(1) 编辑
摘要: 深度学习:多层感知机和异或问题(Pytorch实现) 感知机的模型是一个线性分类模型,只能处理线性可分问题(你可以试试让其学习与、或、非等线性可分问题)。可以证明,若两类模式是线性可分的,即存在一个线性超平面能将他们分开,则感知机的学习过程一定会收敛(converge)而求得适当的权向量w;否则感知机学习过程将会发生振荡(fluctuation),w难以稳定下来,不能求得合适解。亦或问题就是一种非线性可分问题。如图d所示,我们无法用线性超平面去将正负样本分隔开。 阅读全文
posted @ 2022-02-15 09:47 orion-orion 阅读(2033) 评论(0) 推荐(2) 编辑
摘要: 统计学习:逻辑回归与交叉熵损失(Pytorch实现) 在Logistic 回归模型中,一个事件的几率(odds)是指该事件发生的概率与不发生的概率的比值。如果事件发生的概率是p,那么该事件的几率是p/(1-p),该事件的对数几率(log odds,简称对率)或 logit 函数是log(p/1-p)。这玩意在统计学里面称之为“对率回归”,其实就是“Logistic regression 名称”的由来。这里的 Logistic 和“逻辑”没有任何关系,和对率才是有关系的。 可以看出,输出Y=1的对数几率是由输入x的线性函数表示的模型,即 Logistic回归模型。 阅读全文
posted @ 2022-02-14 11:34 orion-orion 阅读(897) 评论(0) 推荐(0) 编辑
摘要: 统计推断:极大似然估计、贝叶斯估计与方差偏差分解 人类对客观世界的认识分为“先验”和“后验”。后验是指人类通过经验所产生的认识,而先验是指人类在经验之外通过自身的理性对客观世界的认识。先验和后验的概念贯穿了整个概率论与统计学。在统计学中由于对概率本身看法的不同,也分化为了频率学派和贝叶斯学派,他们的思想正好分别对应于哲学上的经验主义与理性主义。 阅读全文
posted @ 2022-02-13 11:43 orion-orion 阅读(1454) 评论(2) 推荐(0) 编辑
摘要:  数值分析:最小二乘与岭回归(Pytorch实现) 我们在学习数值线性代数时,学习了当方程的解存在时,如何找到Ax=b的解。但是当解不存在的时候该怎么办呢?当方程不一致(无解)时,有可能方程的个数超过未知变量的个数,我们需要找到第二可能好的解,即最小二乘近似。这就是最小二乘法的数值计算视角。 阅读全文
posted @ 2022-02-12 19:01 orion-orion 阅读(1876) 评论(2) 推荐(1) 编辑
上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 14 下一页