随笔分类 -  machine learning

摘要:通过前面集成学习的介绍我们知道,欲得到泛化性能强的集成学习器,集成中个体学习器应尽量相互独立;虽然“独立”在现实任务中无法做到,但可以设法使基学习器尽可能具有较大差异。 1. Bagging 自助采样(bootstrap sampling): 给定包含$m$个样本的数据集,我们有放回地取$m$次放入 阅读全文
posted @ 2017-02-22 13:53 xuanyuyt 阅读(266) 评论(0) 推荐(0)
摘要:1. 神经网络 首先引入一些便于稍后讨论的新标记: $L$:代表神经网络层数$S_l$:代表第$l$层处理单元的个数$K$:代表多分类中类别种数 2. 前向传播(forward propagation) 以上图为例: 令$\textbf{z}^{(2)} = \Theta^{(1)}\textbf{ 阅读全文
posted @ 2017-02-11 20:00 xuanyuyt 阅读(231) 评论(0) 推荐(0)
摘要:1. 基本形式 给定由$d$个属性描述的示例 $\textbf{x} =(x_1;x_2;...,x_n)$,其中$x_i$是$x$在第$i$个属性上的取值,线性模型(linear model)试图学习一个通过属性的线性组合来进行预测的函数,即 $f(\textbf{x}) = \theta_0+\ 阅读全文
posted @ 2017-02-11 15:00 xuanyuyt 阅读(297) 评论(0) 推荐(0)
摘要:1. 算法流程 一般的,一颗决策树包含一个根结点、若干内部结点和若干叶结点;叶节点对应于决策结果,其他每个结点则对应于一个属性测试结果;每个结点包含的样本集合根据属性测试的结果被划分到子结点中;根结点包含样本全集。从根结点到每个叶子结点的路径对应了一个判定测试序列。决策树学习的目的是为了产生一颗泛化 阅读全文
posted @ 2016-12-09 20:54 xuanyuyt 阅读(324) 评论(0) 推荐(0)
摘要:1. ensemble learning 集成学习 集成学习是通过构建并结合多个学习器来完成学习任务,如下图: 集成学习通过将多个学习学习器进行结合,常可以获得比单一学习器更优秀的泛化性能 从理论上来说,使用“弱学习器”集成足以获得好的性能,当实践中出于种种考虑,人们往往会使用比较强的学习器。 以下 阅读全文
posted @ 2016-12-09 20:54 xuanyuyt 阅读(893) 评论(0) 推荐(0)
摘要:1. 了解SVM 1. Logistic regression回顾 Logistic regression目的是从特征中学习出一个0/1二分类模型,而这个模型是将特性的线性组合作为自变量,由于自变量的取值范围是负无穷到正无穷。因此,使用logistic function(或称作sigmoid fun 阅读全文
posted @ 2016-12-09 20:54 xuanyuyt 阅读(310) 评论(0) 推荐(0)
摘要:在构造决策树时,我们需要解决的第一个问题就是,当前数据集上哪个特征在划分数据分类时起决定性作用。为了找到决定性特征,划分出最好的结果,我们必须评估每个特征。完成测试之后,原始数据集就被划分为几个数据子集。这些数据子集会分布在第一个决策点的所有分支上。如果某个分支下的数据属于同一类型,则此分支无需继续 阅读全文
posted @ 2016-11-30 09:39 xuanyuyt 阅读(1652) 评论(0) 推荐(0)
摘要:$k$-近邻算法(kNN)的工作原理:存在一个训练样本集,样本集中的每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对于关系。输入没有标签的新数据后,将新数据的每一个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集 阅读全文
posted @ 2016-11-27 22:29 xuanyuyt 阅读(1451) 评论(0) 推荐(0)