orion-orion - 博客园

2022年3月9日

摘要：

我们在应用中所面对的数据有时是缺损的/观测不完全的。我们将数据分为：可观测数据，用Y表示；缺失数据，用Z表示; 完全数据，用X=(Y, Z)表示。EM算法的基本思想是通过P(Y,Z)和P(Z |Y)这两个容易进行估计的分布来估计P(Y)。事实上，在应用中缺失数据Z常常并不是真实存在，而是人为造出来的（为了方便概率分布的估计）。我们此时将缺失数据Z称为隐含数据(latent data)。阅读全文

posted @ 2022-03-09 11:03 orion-orion 阅读(702) 评论(0) 推荐(0) 编辑

2022年3月4日

联邦学习中的优化算法

摘要：

联邦学习做为一种特殊的分布式机器学习，仍然面临着分布式机器学习中存在的问题，那就是设计分布式的优化算法。不过相比传统的分布式机器学习，它需要关注系统异质性(system heterogeneity)、统计异质性(statistical heterogeneity)和数据隐私性(data privacy)。系统异质性体现为昂贵的通信代价和节点随时可能宕掉的风险(容错)；统计异质性数据的不独立同分布(Non-IID)和不平衡。由于以上限制，传统分布式机器学习的优化算法便不再适用，需要设计专用的联邦学习优化算法。阅读全文

posted @ 2022-03-04 15:37 orion-orion 阅读(4598) 评论(0) 推荐(2) 编辑

2022年3月1日

分布式多任务学习及联邦学习个性化

摘要：

现在多任务学习根据数据的收集方式可以粗略地被分为两种，一个是集中化的计算方法，即假定数据被事先收集到一个中心节点上然后再运行模型，大多数基于神经网络的多任务学习应用，比如CV和NLP，主要都用的这种方法。另外还有一种是分布式的计算方法，这种方法假定异构的（heterogeneous）数据分别由各个任务分别以分布式的方式收集。近年来由于联邦学习的火热，该方法得到了很多的重视。阅读全文

posted @ 2022-03-01 18:50 orion-orion 阅读(1384) 评论(0) 推荐(1) 编辑

2022年2月17日

Pytorch：自定义Subset/Dataset类完成数据集拆分

摘要：

我们常常会在训练集的基础上拆分出验证集（或者只用部分数据来进行训练）。我们想到的第一个方法是使用torch.utils.data.random_split对dataset进行划分，但这样拆分后已经不再是原本的dataseet对象，而是一个所谓的Subset对象！此时Subset对象虽然仍然还存有data属性，但是内置的target和classes属性已经不复存在，那么该如何做到前后代码的一致性呢？这里有一个trick，那就是以继承SubSet类的方式的方式定义一个新的CustomSubSet类。阅读全文

posted @ 2022-02-17 19:29 orion-orion 阅读(6747) 评论(0) 推荐(0) 编辑

2022年2月16日

Chrome：用uBlacklist屏蔽CSDN搜索结果

摘要：

CSDN现在广告满天飞，且很多博客需要先关注才能复制，非常令人无语。如果每次用Google搜索的时候都要加上"-csdn"选项，就非常麻烦。有没有更方便的办法呢？我们可以利用Chrome的uBlacklist插件。阅读全文

posted @ 2022-02-16 11:37 orion-orion 阅读(3168) 评论(0) 推荐(0) 编辑

2022年2月15日

联邦学习：按Dirichlet分布划分Non-IID样本

摘要：

我们在联邦学习中，经常会假设不同client间的数据集不满足独立同分布(non-iid)。那么我们如何将一个现有的数据集按照non-iid划分呢？我们知道带标签样本的生成分布看可以表示为p(x,y)，我们进一步将其写作p(x,y)=p(x|y)p(y)。其中如果要估计p(x|y)的计算开销非常大，但估计p(y)的计算开销就很小。所有我们按照样本的标签分布来对样本进行non-iid划分是一个非常高效、简便的做法。阅读全文

posted @ 2022-02-15 19:15 orion-orion 阅读(4438) 评论(2) 推荐(1) 编辑

深度学习：多层感知机和异或问题(Pytorch实现)

摘要：

感知机的模型是一个线性分类模型，只能处理线性可分问题（你可以试试让其学习与、或、非等线性可分问题）。可以证明，若两类模式是线性可分的，即存在一个线性超平面能将他们分开，则感知机的学习过程一定会收敛(converge)而求得适当的权向量w；否则感知机学习过程将会发生振荡(fluctuation)，w难以稳定下来，不能求得合适解。亦或问题就是一种非线性可分问题。如图d所示，我们无法用线性超平面去将正负样本分隔开。阅读全文

posted @ 2022-02-15 09:47 orion-orion 阅读(2033) 评论(0) 推荐(2) 编辑

2022年2月14日

统计学习：逻辑回归与交叉熵损失（Pytorch实现）

摘要：

在Logistic 回归模型中，一个事件的几率(odds)是指该事件发生的概率与不发生的概率的比值。如果事件发生的概率是p，那么该事件的几率是p/(1-p)，该事件的对数几率(log odds，简称对率)或 logit 函数是log(p/1-p)。这玩意在统计学里面称之为“对率回归”，其实就是“Logistic regression 名称”的由来。这里的 Logistic 和“逻辑”没有任何关系，和对率才是有关系的。可以看出，输出Y=1的对数几率是由输入x的线性函数表示的模型，即 Logistic回归模型。阅读全文

posted @ 2022-02-14 11:34 orion-orion 阅读(897) 评论(0) 推荐(0) 编辑

2022年2月13日

统计推断：极大似然估计、贝叶斯估计与方差偏差分解

摘要：

人类对客观世界的认识分为“先验”和“后验”。后验是指人类通过经验所产生的认识，而先验是指人类在经验之外通过自身的理性对客观世界的认识。先验和后验的概念贯穿了整个概率论与统计学。在统计学中由于对概率本身看法的不同，也分化为了频率学派和贝叶斯学派，他们的思想正好分别对应于哲学上的经验主义与理性主义。阅读全文

posted @ 2022-02-13 11:43 orion-orion 阅读(1454) 评论(2) 推荐(0) 编辑

2022年2月12日

数值分析：最小二乘与岭回归（Pytorch实现）

摘要：

我们在学习数值线性代数时，学习了当方程的解存在时，如何找到Ax=b的解。但是当解不存在的时候该怎么办呢？当方程不一致(无解)时，有可能方程的个数超过未知变量的个数，我们需要找到第二可能好的解，即最小二乘近似。这就是最小二乘法的数值计算视角。阅读全文

posted @ 2022-02-12 19:01 orion-orion 阅读(1876) 评论(2) 推荐(1) 编辑

Orion's Blog

联邦学习、图机器学习、推荐系统

公告