07 2019 档案

摘要:多对多关系。顶点的有穷非空集合和顶点之间边的集合构成,表示为G(V, E)。 数据元素在线性表中叫元素、树中叫结点、图中叫顶点vertex。边无方向称为无向边,用无序偶(Vi, Vj)来表示。有向边(也称为弧)用有序偶<Vi, Vj>来表示。<弧尾,弧头> 基础概念 简单图:不存在顶点到自身的边,且 阅读全文
posted @ 2019-07-27 23:14 王朝君BITer 阅读(439) 评论(0) 推荐(0)
摘要:树:n(n>=0)个节点的有限集。有且只有一个root,子树的个数没有限制但互不相交。结点拥有的子树个数就是该结点的度(Degree)。度为0的是叶结点,除根结点和叶结点,其他的是内部结点。结点的层次(Level)从根结点开始从1计数,树中结点的最大深度称为树的深度(Depth)。树中结点的子树看成 阅读全文
posted @ 2019-07-25 22:30 王朝君BITer 阅读(1054) 评论(0) 推荐(0)
摘要:用数值模拟非数值,比如ASCII码表 string:由零个或多个字符组成的有限序列 字符串的存储结构和线性表一样,也分顺序存储和链式存储,习惯上还是用顺序表。 子串匹配: Brute Force 算法 朴素的模式匹配方法,按字符依次匹配,一个文本串s和一个模式串p,查找p在s中的位置,最坏时间复杂度 阅读全文
posted @ 2019-07-24 20:57 王朝君BITer 阅读(231) 评论(0) 推荐(0)
摘要:递归 Recursion 通过函数体来进行的循环,一种编程技巧。倒着思考,看到问题的尽头。思路简单但效率低(建立函数的副本,消耗大量时间和内存)。递归是分治和动态规划的基础,而贪心是动态规划中的一种特殊情况(局部最优也是全局最优)。 终止条件(最简子问题的答案) + 自身调用(解决子问题),不要试图 阅读全文
posted @ 2019-07-24 20:08 王朝君BITer 阅读(1468) 评论(0) 推荐(0)
摘要:栈 一种重要的线性结构;后进先出。特殊的线性表,只能在表尾进行插入(push)和删除(pop)操作。 表尾称为栈顶(top),表头称为栈底(bottom)。一般用顺序表实现。 清空一个栈:s->base = s->top 销毁一个栈:释放其所占的物理内存空间。 for(i=0, i<s->stack 阅读全文
posted @ 2019-07-22 23:49 王朝君BITer 阅读(350) 评论(0) 推荐(0)
摘要:线性表:由零个或多个数据元素组成的有限序列。 元素之间有先后关系,若有多个元素,第一个无前驱最后一个无后继,其他元素都只有一个前驱和后继。(一对一关系) 数据类型:一组性质相同的值的集合及定义在此集合上的一些操作的总称。 抽象数据类型:一个数学模型及定义在该模型上的一组操作。(对已有数据类型进行抽象 阅读全文
posted @ 2019-07-22 16:21 王朝君BITer 阅读(397) 评论(0) 推荐(0)
摘要:程序设计 = 数据结构 + 算法 数据结构:逻辑结构(数据对象中数据元素之间的相互关系)和物理结构(数据的逻辑结构在计算机中的存储形式)。 逻辑结构:集合结构(只有同属一个集合的关系)、线性结构(一对一的关系)树形结构(存在一对多的层次关系)、图形结构(多对多的关系)。 物理结构:顺序存储(把数据放 阅读全文
posted @ 2019-07-22 15:10 王朝君BITer 阅读(152) 评论(0) 推荐(0)
摘要:docker是什么?为什么会出现? 容器虚拟化技术;轻量级的虚拟机(但不是虚拟机) 开发:提交代码 ——> 运维:部署 在这中间,因为环境和配置,出现问题 ——> 把代码/配置/系统/数据...自底至上一起打包成镜像 一次封装构建,到处运行 docker:用于将应用以轻量级容器的形式pack、shi 阅读全文
posted @ 2019-07-22 10:22 王朝君BITer 阅读(307) 评论(0) 推荐(0)
摘要:一、bagging 用于基础模型复杂、容易过拟合的情况,用来减小 variance(比如决策树)。基础模型之间没有太多联系(相对于boosting来说),训练可以并行。但用 bagging 并不能有助于把数据拟合的更准(那是减小 bias,要用 boosting)。 每次训练一个基础模型,都从 N 阅读全文
posted @ 2019-07-18 16:29 王朝君BITer 阅读(3417) 评论(0) 推荐(0)
摘要:关于特征工程很棒的一篇博客。地址:https://www.cnblogs.com/jasonfreak/p/5448385.html 阅读全文
posted @ 2019-07-18 11:40 王朝君BITer 阅读(185) 评论(0) 推荐(0)
摘要:一、主要思想:最大间隔 间隔(最小距离;函数间隔与几何间隔)、对偶(KKT条件;拉格朗日乘数法)、核方法(低维直接算高维内积;Gram 矩阵半正定) 二、hard-margin 线性可分 三、soft-margin 基本上线性可分,允许存在一点点错误。 引入松弛变量 四、kernel trick 非 阅读全文
posted @ 2019-07-17 21:13 王朝君BITer 阅读(196) 评论(0) 推荐(0)
摘要:一、深度学习建模与调试流程 先看训练集上的结果怎么样(有些机器学习模型没必要这么做,比如决策树、KNN、Adaboost 啥的,理论上在训练集上一定能做到完全正确,没啥好检查的) Deep Learning 里面过拟合并不是首要的问题,或者说想要把神经网络训练得好,至少先在训练集上结果非常好,再考虑 阅读全文
posted @ 2019-07-16 17:41 王朝君BITer 阅读(1268) 评论(0) 推荐(1)
摘要:前向计算:没啥好说的,一层一层套着算就完事了 y = f( ... f( Wlayer2T f( Wlayer1Tx ) ) ) 反向求导:链式法则 单独看一个神经元的计算,z (就是logit)对 wi 的偏微分等于 xi : 再看多层的情况,z 经过 激活函数得到 a,而 a 在下一层和 w3  阅读全文
posted @ 2019-07-16 17:31 王朝君BITer 阅读(287) 评论(0) 推荐(0)
摘要:软分类:y 的取值只有正负两个离散值,例如 {0, 1} 硬分类:y 是正负两类区间中的连续值,例如 [0, 1] 一、感知机 主要思想:分错的样本数越少越好 用指示函数统计分错的样本数作为损失函数,不可微; 对错误分类样本,∑ -yi * f(xi) = ∑ -yi * WTxi (因为求和项一定 阅读全文
posted @ 2019-07-15 22:41 王朝君BITer 阅读(3008) 评论(0) 推荐(0)
摘要:θ* = argmin L(θ) 梯度方向:损失函数等高线的法线方向(切线方向,变化最快的方向) θt+1 = θt - ηg(θt) 关于梯度下降的Tips: 1. 调整学习率 adaptive learning rates 简单直觉的想法:训练刚开始的时候可以用比较大的学习率;经过一些epoch 阅读全文
posted @ 2019-07-15 17:51 王朝君BITer 阅读(552) 评论(0) 推荐(0)
摘要:误差来自于偏差和方差(bias and variance) 对于随机变量 X,假设其期望和方差分别为 μ 和 σ2。随机采样 N 个随机变量构成样本,计算算术平均值 m,并不会直接得到 μ (除非采样无穷多个样本点)。 假设 m 和 s2 是样本均值和样本方差,由于样本都是随机抽取的,m 和 s2  阅读全文
posted @ 2019-07-15 15:57 王朝君BITer 阅读(397) 评论(0) 推荐(0)
摘要:一、主要思想 利用正交变换把可能线性相关变量表示的观测数据,转换为由少数几个线性无关变量(主成分)表示的数据。(重构原始特征空间;线性降维) 要尽可能保留原始数据中的信息,两个思路:最大投影方差、最小投影距离。 完全的无监督,只需要通过方差来衡量信息量(但也是一种局限性)。各个主成分正交,降维后不同 阅读全文
posted @ 2019-07-15 10:00 王朝君BITer 阅读(1925) 评论(0) 推荐(0)
摘要:一、主要思想 在 L2-norm 的误差意义下寻找对所有观测目标值 Y 拟合得最好的函数 f(X) = WTX 。 其中 yi 是 scalar,xi 和 W 都是 P 维向量(比实际的 xi 多一维,添加一维 xi(0) = 1,用于将偏置 b 写入 W 中) 1. 定义模型:f(X) = WTX 阅读全文
posted @ 2019-07-13 14:31 王朝君BITer 阅读(1482) 评论(0) 推荐(0)
摘要:决定在博客园上记录自己的课程学习笔记、论文阅读总结、以及个人生活所见所感。 机器学习: 1. 李宏毅老师:http://speech.ee.ntu.edu.tw/~tlkagk/courses.html 诙谐幽默、深入浅出 2. 徐亦达老师:https://github.com/roboticcam 阅读全文
posted @ 2019-07-10 09:36 王朝君BITer 阅读(740) 评论(0) 推荐(0)