随笔分类 - 读书笔记
呜,苦鲁西 o(TωT)o
好好读书,天天向上
该分类下所有文字只是学习过程中个人的理解,非常可能有错误!!!!!
且并不保证未来将对其正确性进行维护,请知晓
(当确定对某知识点提供正确性维护时,相关博文将被重新编辑并转移到其他分类下)
摘要:21/9/4 读书笔记 强化学习 其他算法 Asynchronous Advantage Actor-Critic (A3C) 之前我们介绍了通过经验回放的方式降低每次网络更新间的相关性(即Double DQN的方式),但是这种方式仍然有一定的瓶颈,因为经验回放池中的数据相关性还是太强。这种相关性归
阅读全文
摘要:21/9/3 读书笔记 强化学习 Actor-Critic Actor-Critic思想的来源 Actor-Critic的基本思想来自于Policy Gradient,用于在连续的动作空间内选取动作。Actor-Critic中的Actor就是采用了Policy Gradient的算法,而Critic
阅读全文
摘要:21/9/2 读书笔记 强化学习 Policy Gradient Policy Gradient是一种policy-based的强化学习方法,其直接基于概率进行方法的选择。与value-based的Q-Learning不同,Policy Gradient能够在一个连续的空间内挑选动作。 Policy
阅读全文
摘要:21/9/1 读书笔记 强化学习 DQN的改进 Double DQN Double DQN是为了解决DQN的overestimate问题。 DQN的overestimate问题指对state-value对的Q值进行Q-现实的计算时,由于直接采用maxQ(即选择现实神经网络中Q值最大的动作),得到的Q
阅读全文
摘要:21/8/31 读书笔记 强化学习 Deep Q Network why DQN? Deep Q Network(简称DQN)是融合了神经网络和Q-Learning方法的一种强化学习方式。 传统的利用表格形式存储Q-Table的方式,在面临极其复杂(乃至无限复杂)的情况下,将会耗费大量的存储空间。
阅读全文
摘要:21/8/30 读书笔记 强化学习 Q-Learning Q-Learning算法简介 Q-Learning是一种value-based的off-policy方法,其采用Q-Table描述状态$s$下采取动作$a$的预期收益,表示为$Q(s,a)$。 价值取向value-based &
阅读全文
摘要:21/8/29 读书笔记 程序员的数学2 马尔可夫链 对于一个随机过程,如果其未来状态仅由当前状态决定,而与历史状态无关,那么该随机过程是一个马尔可夫过程。 如果一个马尔可夫过程的状态的取值范围有限或无限可数,则称其为马尔可夫链。 之前介绍的随机游走、卡尔曼滤波器都属于马尔可夫过程。 由转移概率$p
阅读全文
摘要:21/8/28 读书笔记 今天20岁了,还是一个人,果然还是不要学计算机最好…… 程序员的数学2 随机过程 对于(看似)随机的时间序列,比如一段音频、股票的涨落,我们将其视作随机变量序列(即随机过程)进行研究。 从数学的角度上看,时间轴就是单纯的一条序列,但是对于处在现实中的我们来说,我们无法在当下
阅读全文
摘要:21/8/27 读书笔记 程序员的数学2 最小二乘法 最小二乘法是回归分析领域最为基础的手段。 我们通常认为解决最小二乘法问题等价于解决: \[ 试求a,b,使得\sum_{i=1}^n(\check y_i-(ax_i+b))^2最小 \] 为什么我们只要让观测值和计算值差的平方的和最小,就能保证
阅读全文
摘要:21/8/26 读书笔记 程序员的数学2 协方差矩阵和椭圆的关系 我们在之前的学习中可以得知,对于一个随机变量$\bold X$,我们可以通过其协方差矩阵得到其在任意方向上的发散程度(即方差): $$ V[\bold u^T\bold X]=\bold u^TV[\bold X]\bold u $$
阅读全文
摘要:21/8/25 读书笔记 程序员的数学2 多元正态分布 假设$\bold Z=(z_1,z_2,...,z_k)T$是k个随机变量组成的列向量,设$g=c\exp(-\frac{z_i2}{2})$是$z_i$的概率密度函数(即$z_i$满足标准正态分布),那么得到$\bold Z$的
阅读全文
摘要:21/8/24 读书笔记 看完机器学习后最大的感触是数学基础太差了。拜我校一位“传奇”所赐,现在我对概率统计基本毫无印象 故捞了一本数学书看,顺便拿python写点程序模拟一下。由于知识点确实比较碎,所以笔记会比较零散。 程序员的数学2 协方差 对于两个随机变量$X$,$Y$,我们用协方差$Co
阅读全文
摘要:21/8/23 读书笔记 Code Complete 调试 调试不同于测试。测试偏重于从功能的角度中找出问题,重点回答“什么情况下这个程序会挂掉”;调试偏重于从程序的角度定位问题,重点回答“程序的哪里导致了错误,以及如何修改”。 时刻注意,开发高质量软件的最佳途径永远是用高质量的代码改进代码质量,而
阅读全文
摘要:21/8/22 读书笔记 西瓜书不愧最好的入门教材 很多看不懂的概念,在写笔记的时候就能更深入地思考和理解 而且实在看不懂的话,围绕西瓜书的内容可以在网上找到很多的详解 但愿我的读书笔记也能像各位前辈的一样,帮助更多人理解书的内容 不过我更希望的是,我的笔记不要误人子弟hhh 机器学习 强化学习 强
阅读全文
摘要:21/8/21 读书笔记 机器学习 规则学习 规则学习的目标是从数据中学习出一组能够对未见示例进行判别的逻辑规则。一条规则可以视作$规则头\leftarrow 规则体$,规则体是多个逻辑文字组成的合取式;规则头同样是逻辑文字,用于表示判定目标的类别或概念。 规则学习具有良好的解释性,并且具有数理
阅读全文
摘要:21/8/20 读书笔记 机器学习 概率图模型 当我们谈到生成式模型和判别式模型时,对目标变量集合$Y$、可观测变量集合$O$、其他变量集合$R$,我们总是由联合概率分布$P(Y,R,O)$或者条件概率分布$P(Y,R|O)$来计算条件概率分布$P(Y|O)$,这个过程称之为推断。
阅读全文
摘要:21/8/19 读书笔记 Code Complete 开发者测试 开发者测试是“白盒”测试,需要由开发者进行完成。与之相对的是独立测试,由测试人员完成。测试一般按层次分为: 单元测试:对一个完整的类、子程序或者小程序进行测试。通常只涉及一个程序员或团队 组件测试:将一个包、组件从系统中隔离出来进行测
阅读全文
摘要:21/8/18 读书笔记 Code Complete 编写直线型代码 直线型代码是最简单的控制流,按先后顺序放置语句和语句块。 对于明确先后顺序逻辑的代码,我们应当尽可能地设法组织代码,让子程序能够他们的依赖关系,包括: 上上策:设计合适的子程序名,比如将初始化函数命名有Initialize前缀以表
阅读全文
摘要:21/8/17 读书笔记 Code Complete 协同构建 协同构建包括结对编程、正式检查、非正式复查、文档阅读等让开发人员共同承担创建代码和其他产品责任的技术。 测试和协同构建所能发现的缺陷是不同的。由人进行的复查能够发现不恰当的注释、硬编码的变量值、重复的代码模式等,这些是测试所不能覆盖的。
阅读全文
摘要:21/8/16 读书笔记 Code Complete 软件构建前的准备 将主要的风险提前清除,使得项目能够尽可能平稳进行。前期准备倾向改进需求分析和项目规划,其中心目标是降低风险,包括糟糕的需求分析和糟糕的项目计划带来的风险。 项目规划、商业案例分析、需求分析、高质量架构设计都属于前期工作,但是这些
阅读全文

浙公网安备 33010602011771号