随笔列表第2页 - dynmi

2020年11月25日

摘要： ./keep 阅读全文

posted @ 2020-11-25 15:52 dynmi 阅读(100) 评论(0) 推荐(0) 编辑

摘要： intro 以下均基于分组交换技术我们将以下这样的一段连接称为一段链路假设发送端到接收端间有N条链路，对于对一个分组而言，忽略其他因素，端到端总时延$d(end-end) = N × ( d(proc) + d(queue) + d(trans) + d(prop) )$ statement 处阅读全文

posted @ 2020-11-25 15:43 dynmi 阅读(1843) 评论(1) 推荐(0) 编辑

<计算机网络 / 基础知识> 对原始的"报文交换"作出改进，得到"分组交换"技术

摘要： intro 分组交换是以报文交换为基础的，所以分组交换其实也可以叫做“报文分组交换”。 statement 报文的传送过程依赖于“存储转发机制”，从发送端开始，每经过一个交换机，该交换机的任务是：接收完整的报文，然后对报文进行缓存，此即为“存储” 等到下一个交换机节点空闲的时候，再将该报文发送给阅读全文

posted @ 2020-11-25 15:30 dynmi 阅读(250) 评论(0) 推荐(0) 编辑

线性支持向量机中的硬间隔(hard margin)和软间隔(soft margin)

摘要： intro The support-vector mechine is a new learning machine for two-group classification problems. The machine conceptually implements the following id 阅读全文

posted @ 2020-11-25 14:33 dynmi 阅读(2670) 评论(0) 推荐(0) 编辑

2020年11月24日

circle loss：统一softmax CrossEntropy loss 和 triplet loss / 2020

摘要： intro 刚看完《Circle Loss: A Unified Perspective of Pair Similarity Optimization》，随手写了一个overview。一句话总结这篇paper干了什么事情 "an unified perspective of learning w 阅读全文

posted @ 2020-11-24 19:28 dynmi 阅读(1318) 评论(0) 推荐(0) 编辑

针对PPO的一些Code-level性能优化技巧

摘要： Intro 这篇blog是我在看过Logan等人的“implementation matters in deep policy gradients: a case study on ppo and trpo“之后的总结。 reward clipping clip the rewards within 阅读全文

posted @ 2020-11-24 18:08 dynmi 阅读(416) 评论(0) 推荐(0) 编辑

2020年11月19日

Proximal Policy Optimization(PPO)算法 / 2017

摘要： Intro 2016年Schulman等人提出了Trust Region Policy Optimization算法。后来他们又发现TRPO算法在scalable（用于大模型和并行实现）, data efficient（高效利用采样数据）, robust（同一套超参，在大量不同的env上取得成功）上阅读全文

posted @ 2020-11-19 11:50 dynmi 阅读(3809) 评论(1) 推荐(1) 编辑

prioritied replay buffer / 2016

摘要： intro priority replay buffer提出于2016年。当时Deepmind的Tom Schaul等人对DQN中vanilla replay buffer不满意，于是在原来的ReplayBuffer基础上作出改进。prioritied relay buffer出现后，取代vanil 阅读全文

posted @ 2020-11-19 11:38 dynmi 阅读(633) 评论(0) 推荐(0) 编辑

2020年11月17日

linux中使用awk命令

摘要：准备 awk的取名是贝尔实验室的Alfred.Aho和Peter.Weinberger和Brain.Kernigham三个人的名字取首字母组成的。awk命令能从一个或多个文本文件或字符串中逐个记录或逐行扫描；将每个记录与匹配模式相比较；当发现匹配格式时抽取数据或格式化报文，或执行相应的文本操作。 a 阅读全文

posted @ 2020-11-17 16:24 dynmi 阅读(110) 评论(0) 推荐(0) 编辑

DQN中的ReplayBuffer和TargetNetwork有什么好处？

摘要： Intro 众所周知，在2014年，Deepmind使用DQN刷新了强化学习在Atari游戏上的SOTA记录。使DQN成为当年的SOTA，主要依靠两大利器：ReplayBuffer和TargetNetwork。 ReplayBuffer 采样与更新是这样的：更新是在采样中的，更新和采样靠repla 阅读全文

posted @ 2020-11-17 15:18 dynmi 阅读(1975) 评论(0) 推荐(0) 编辑

2020年10月27日

删除github仓库的commit历史记录

摘要：清空commit历史记录建立并切换到新分支 git checkout --orphan new_branch 将工作区和暂存区的内容全部入库 git add -A git commit -am "reinitialize" 删除master(main)分支 git branch -D master 阅读全文

posted @ 2020-10-27 16:17 dynmi 阅读(481) 评论(0) 推荐(0) 编辑

2020年10月3日

linux中使用sed命令

摘要：准备 sed是“stream editor”的简称。sed命令有两种玩法，一个是直接在命令行使用，一个是写成seq脚本使用。 sed命令行 sed命令格式如下： sed [options] [command] [files] 例如： $ sed -f scriptf.sed 1.txt > 2.tx 阅读全文

posted @ 2020-10-03 20:20 dynmi 阅读(184) 评论(0) 推荐(1) 编辑

2020年9月16日

向你的C语言项目中加入多线程

摘要： C语言在标准库<pthread.h>中为程序员提供了多线程操作接口。先从简单操作入手 int pthread_create(pthread_t *thread, pthread_attr_t *attr, void *(*start_routine) (void *arg), void *arg) 阅读全文

posted @ 2020-09-16 15:24 dynmi 阅读(461) 评论(0) 推荐(0) 编辑

2020年9月10日

python是如何自动管理内存的

摘要： ./keep 阅读全文

posted @ 2020-09-10 19:41 dynmi 阅读(153) 评论(0) 推荐(0) 编辑

ML框架中静态图和动态图区别

摘要：在现行的Python机器学习框架中，模型都是由两部分组成：张量Tensor和计算图。计算图决定了整个模型数据流动的方向，和数据的组合方式。Tensor是在计算图中流动的数据。如下图：流动的数据Tensor在所有现行框架中基本没什么区别，因为它就是单纯的数。各个框架之间的最大区别在于计算图的形式。阅读全文

posted @ 2020-09-10 13:35 dynmi 阅读(2866) 评论(0) 推荐(0) 编辑

Haris Wang's Blog