连接
摘要: '''' 假设目标分布是: 一维的正太分布, i.e., N(0, 1) 建议的转移矩阵Q(i,j)也是正太分布, j 服从 N(i, 2^2) pi(i)Q(i,j)*alpha(i,j) = pi(j)Q(i,j)*alpha(i,j) where alpha(i,j) = pi(j)Q(j,i 阅读全文
posted @ 2020-06-28 23:43 朱群喜_QQ囍_海疯习习 阅读(303) 评论(0) 推荐(0) 编辑
摘要: TinyBERT: 提出了一种基于Transformer架构的蒸馏方法(Transformer distillation) 两阶段的框架, a.预训练阶段 ( generaldistillation) b.fine-tuning阶段 (task-specific distillation) 对Emb 阅读全文
posted @ 2020-05-19 23:21 朱群喜_QQ囍_海疯习习 阅读(200) 评论(0) 推荐(0) 编辑
摘要: 首先看下BERT和ALBERT模型的一些版本配置 1. Layer个数和performance的关系:24层是个临界点,大于24后效果有下降趋势 2. 隐藏层节点数目和performance的关系:4096个是个临界点,大于4096后效果有下降趋势 3. 宽的ALBERT需要深的架构吗?作者的答案是 阅读全文
posted @ 2020-05-19 14:38 朱群喜_QQ囍_海疯习习 阅读(162) 评论(0) 推荐(0) 编辑
摘要: # 二分法 def solve(): l, r = 1, 2 eps = 1e-7 while l + eps < r: mid = (l + r) / 2 if mid * mid < 2: l = mid else: r = mid return l # print('{:.6f}'.forma 阅读全文
posted @ 2020-04-22 14:07 朱群喜_QQ囍_海疯习习 阅读(208) 评论(0) 推荐(0) 编辑
摘要: 代码链接:https://github.com/zhuqunxi/pytorch-implement-NLP P01 -- Two layer model Numpy to tensor: x_tensor = torch.from_numpy(np_x) Cpu tensor to cuda: x 阅读全文
posted @ 2020-04-15 00:18 朱群喜_QQ囍_海疯习习 阅读(210) 评论(0) 推荐(0) 编辑
摘要: 文章1: NICE: NON-LINEAR INDEPENDENT COMPONENTS ESTIMATION 文章2:Real-valued Non-Volume Preserving (RealNVP) 文章3:Glow: Generative Flow with Invertible 1x1 阅读全文
posted @ 2019-12-05 04:13 朱群喜_QQ囍_海疯习习 阅读(670) 评论(0) 推荐(0) 编辑
摘要: RNN:难以并行 CNN:filter只能考虑局部的信息,要叠多层 Self-attention:可以考虑全局的信息,并且可以并行 (Attention Is All You Need) 示意图:x1, x2, x3, x4先embedding成a1, a2, a3, a4,然后输入到Self-At 阅读全文
posted @ 2019-12-04 02:24 朱群喜_QQ囍_海疯习习 阅读(932) 评论(0) 推荐(0) 编辑
摘要: wiki:https://zh.wikipedia.org/wiki/Tf-idf 参考:https://zhuanlan.zhihu.com/p/31197209 tf-idf(英语:term frequency–inverse document frequency)是一种用于信息检索与文本挖掘的 阅读全文
posted @ 2019-12-03 02:30 朱群喜_QQ囍_海疯习习 阅读(547) 评论(0) 推荐(0) 编辑
摘要: 转:https://www.cnblogs.com/eyeszjwang/articles/2429382.html k-d树(k-dimensional树的简称)核心: 构建索引树,快速查找 下面是6个二维数据点{(2,3),(5,4),(9,6),(4,7),(8,1),(7,2)}的k-d树空 阅读全文
posted @ 2019-12-03 02:16 朱群喜_QQ囍_海疯习习 阅读(192) 评论(0) 推荐(0) 编辑
摘要: EM算法 EM算法是含隐变量图模型的常用参数估计方法,通过迭代的方法来最大化边际似然。 带隐变量的贝叶斯网络 给定N 个训练样本D={x(n)},其对数似然函数为: 通过最大化整个训练集的对数边际似然L(D; θ),可以估计出最优的参数θ∗。然而计算边际似然函数时涉及p(x) 的推断问题,需要在对数 阅读全文
posted @ 2019-11-16 05:37 朱群喜_QQ囍_海疯习习 阅读(1207) 评论(0) 推荐(0) 编辑
摘要: 原文链接:https://arxiv.org/abs/1901.10444 发表在:ICLR 2019 介绍了3中sentence嵌入的结构(RANDOM SENTENCE ENCODERS), 思路:利用预训练的word embedding作为输入,然后句子的encoder不进行训练(i.e., 阅读全文
posted @ 2019-09-26 06:37 朱群喜_QQ囍_海疯习习 阅读(344) 评论(0) 推荐(0) 编辑
摘要: 原文链接:https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.100.114101 发表在:PRL 2008 传统的模型的coupling的形式, 其中,Aij 代表j到i的coupling强度,Aii=0, xi(t)是对应节点i的n 阅读全文
posted @ 2019-08-30 06:55 朱群喜_QQ囍_海疯习习 阅读(132) 评论(0) 推荐(0) 编辑
摘要: 网址:https://dianshi.baidu.com/competition/30/rank 初赛:第一 复赛:第二 决赛:并列第一 github: https://github.com/zhuqunxi/Urban-Region-Function-Classification 感受 第一次参加 阅读全文
posted @ 2019-08-01 07:22 朱群喜_QQ囍_海疯习习 阅读(1626) 评论(3) 推荐(1) 编辑
摘要: 原文链接:https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.76.4705 发表在:PRL 1996 考虑一维的情况,假设map为f(x), 我们的目标是去估计不动点x*=f(x*)。接下来,我们考虑下面的变换 其中, 对于k=0的情 阅读全文
posted @ 2019-07-28 05:40 朱群喜_QQ囍_海疯习习 阅读(192) 评论(0) 推荐(0) 编辑
摘要: 原文链接:https://arxiv.org/abs/1902.09689 发表在:ICLR 2019 考虑下面的ODE, 将其离散化,假设步长为,我们有 命题1: 如果f的Jacobian矩阵的最大特征值实部小于0,那么ODE的解时稳定的. 我们希望的是,不仅要稳定,而且还希望系统不要稳定的收敛速 阅读全文
posted @ 2019-07-23 04:29 朱群喜_QQ囍_海疯习习 阅读(333) 评论(0) 推荐(0) 编辑
Map