深度学习中的Attention机制

博主头像 RNN做机器翻译有它自身的弱点,Attention正是为了克服这个弱点而出现的。所以,要理解Attention,就要搞明白两件事: RNN在做机器翻译时有什么弱点 Attention是如何克服这个弱点的 本文试图从解答这两个问题的角度来理解Attention机制。 一、RNN做机器翻译的经典思路 e ...

《统计学习方法》第10章习题

习题10.1 由题, \(T=4, N=3,M=2\) 根据算法10.3 第一步,计算终期 \(\beta\) : \(\beta_4(1) = 1, \beta_4(2) = 1, \beta_4(3) = 1\) 第二步,计算中间每期 \(\beta\) : \(\beta_3(1) = a_{ ...

AI的想法很大?你忍一下

博主头像 本文经1616AI开放平台-AI星球官媒授权转载,原文链接:https://www.1616ai.com/bbf/star/look_article.html?article_id=867431880377499648 AI是一个充满想象力的领域,但技术落地却不易 如今常常会看到各种AI科技类新闻报 ...

【Pytorch】:x.view() view()方法的使用

博主头像 在pytorch当中,我们经常会用到x.view()方法来进行数据维度的变化,但是这个方法具体该如何使用呢? 下面我来记录一下笔记: 一.按照传入数字使数据维度进行转换 首先,我们可以传入我们想要的维度,然后按照传入的数字对数据进行维度变化。比如,x.view()当中可以放入列表或者是单个数字,比如 ...

Counterfactual VQA: A Cause-Effect Look at Language Bias

博主头像 Counterfactual VQA: A Cause-Effect Look at Language Bias Abstract VQA模型可能倾向于依赖语言偏见作为切入点,因此无法从视觉和语言两个方面充分学习多模态知识。最近提出了一种在推理过程中排除语言先验的借记方法。然而,他们未能从整体上理清 ...

深度强化学习算法(深度强化学习框架)为考虑可以快速适用多种深度学习框架建议采用弱耦合的软件设计方法——快速适用于多种深度学习计算框架的深度强化学习框架设计方案

博主头像 如题: 深度强化学习算法(深度强化学习框架)为考虑可以快速适用多种深度学习框架建议采用弱耦合的软件设计方法 今日在看强化学习的框架,发现现在的深度强化学习框架不论是依赖Tensorflow的还是PyTorch的,在设计时都没有考虑过耦合这个问题,虽然强化学习算法源于学术界,而且现在也还是主要停留于学 ...

《统计学习方法》第9章习题

习题9.1 EM算法分为E步与M步 对于E步,计算期望。 \(\mu_j^{(i+1)} = \frac{\pi^{(i)}(p^{(i)})^{y_j}(1-p^{(i)})^{1-y_j}}{\pi^{(i)}(p^{(i)})^{y_j}(1-p^{(i)})^{1-y_j} + (1 - \ ...

深入浅出图神经网络 第6章 GCN的性质 读书笔记

博主头像 第6章 GCN的性质 第5章最后讲到GCN结束的有些匆忙,作为GNN最经典的模型,其有很多性质需要我们去理解。 6.1 GCN与CNN的区别与联系 CNN卷积卷的是矩阵某个区域内的值,图卷积在空域视角下卷的是节点的邻居的值,由此粗略来看二者都是在聚合邻域的信息。 再具体来看一些区别与联系: 图像是一 ...

深入浅出图神经网络 GCN代码实战

博主头像 GCN代码实战 书中5.6节的GCN代码实战做的是最经典Cora数据集上的分类,恰当又不恰当的类比Cora之于GNN就相当于MNIST之于机器学习。 有关Cora的介绍网上一搜一大把我就不赘述了,这里说一下Cora这个数据集对应的图是怎么样的。 Cora有2708篇论文,之间有引用关系共5429个, ...

《统计学习方法》第8章习题

习题8.1 可使用 scikit-learn 库的 sklearn.ensemble.AdaBoostClassifier 进行模型的训练 略 习题8.2 列出表格进行对比 模型名称 学习策略 学习的损失函数 学习算法 支持向量机 极小化正则化合页损失,软间隔最大化 合页损失 序列最小最优化算法(S ...

深入浅出图神经网络 第5章 图信号处理与图卷积神经网络 读书笔记

博主头像 前面废点话: 终于!来到了GNN最相关的内容!前面四章来说都是一些预备知识,或者说是介绍性的认识的东西,其实和GNN的关系不是特别大。但从这一章开始一上来就是GNN最核心的东西:图信号处理。这部分其实非常关键,但大部分人学的时候可能都会忽视这一点,认为自己可以直接进入GCN的部分,这是错误的。入门G ...

RUBi: Reducing Unimodal Biasesfor Visual Question Answering

博主头像 RUBi: Reducing Unimodal Biasesfor Visual Question Answering Abstract 视觉问答(VQA)是回答有关图片的问题的任务。一些VQA模型通常利用单峰偏差来提供正确的答案,而不使用图像信息。因此,当对训练集分布之外的数据进行评估时,它们的性 ...

《统计学习方法》第7章习题

习题7.1 感知机的对偶形式与支持向量机的对偶形式的区别在于:感知机是通过假设参数变化的增量进行转换;而支持向量机是通过求解带约束的最优化问题,通过拉格朗日对偶性转为无约束最优化问题去求解。 感知机的原始形式 最优化目标函数: \(\mathop{min} \limits_{w,b} L(w,b) ...

元学习——从MAML到MAML++

博主头像 元学习——从MAML到MAML++ 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ Few-shot learning领域最近有了实质性的进展。这些进步大多来自于将few-shot learning作为元学习问题。Model-Agnostic Meta ...

《统计学习方法》第6章习题

习题6.1 首先解释什么是指数分布族。组数分布族,也称指数族分布(后面用这个名词替代),指数族分布为满足 \(f(x|\theta) = h(x) *exp(\eta(\theta)*T(x) - A(\eta))\) 形式的概率分布 (\(f(x|\theta)\) 可为概率分布的概率密度函数)。 ...

机器学习-牛顿法详解

博主头像 恢复内容开始 我们现在学习的机器学习算法,大部分算法的本质都是建立优化模型,通过特定的最优化算法对目标函数(或损失函数)进行优化,通过训练集和测试集选择出最好的模型,所以,选择合适的最优化算法是非常重要的。常见的最优化方法有梯度下降法、牛顿法和拟牛顿法、共轭梯度法,拉格朗日乘数法(约束优化)等等。 ...

123···31>