随笔分类 -  Machine Learning

对偶学习及其在机器翻译中的应用
摘要:作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明。谢谢! 本文主要是翻译及整理MSRA 刘铁岩团队在NIPS 2016 会议上发表的论文“Dual Learning for Machine Translation”。对于论文 阅读全文
posted @ 2016-12-27 08:29 老顽童2007 阅读(3177) 评论(2) 推荐(29) 编辑
SVM算法
摘要:本文主要介绍支持向量机理论推导及其工程应用。 1 基本介绍 支持向量机算法是一个有效的分类算法,可用于分类、回归等任务,在传统的机器学习任务中,通过人工构造、选择特征,然后使用支持向量机作为训练器,可以得到一个效果很好的base line训练器。 支持向量机具有如下的优缺点, 优点: 1. 高维空间 阅读全文
posted @ 2016-10-18 18:55 老顽童2007 阅读(5060) 评论(0) 推荐(0) 编辑
Spark中决策树源码分析
摘要:1.Example 使用Spark MLlib中决策树分类器API,训练出一个决策树模型,使用Python开发。 """ Decision Tree Classification Example. """ from __future__ import print_function from pysp 阅读全文
posted @ 2016-09-29 17:56 老顽童2007 阅读(2150) 评论(0) 推荐(0) 编辑
常见的相似或相异程度计算方法
摘要:如何衡量数据点之间的相似或相异程度是聚类算法的基础问题,会直接影响聚类分析的效果,最直观的方法是使用距离函数或者相似性函数。 常见的相似或相异程度计算方法。 1.计算公式 1.Minkowski distance 很多距离计算方法都可以归结为基于向量p范数的距离,即Minkowski distanc 阅读全文
posted @ 2016-09-13 21:49 老顽童2007 阅读(1299) 评论(0) 推荐(0) 编辑
集成学习
摘要:本文档主要用于梳理集成学习相关知识点。 1.Bagging Bagging基本流程,有放回地采样出T个含有m个训练样本的采样集,然后基于每个采样集训练出一个基学习器,再将这些基学习器进行结合,对预测输出进行结合时,通常采用简单投票法(分类任务),通常采用简单平均法(回归任务); 1.1 Random 阅读全文
posted @ 2016-07-31 18:25 老顽童2007 阅读(478) 评论(0) 推荐(0) 编辑
决策树
摘要:1.基本流程 一棵决策树包含一个根结点、若干个内部结点和若干个叶结点;叶结点对应决策结果,其他每个节点则对应于一个属性测试;每个结点包含的样本集合根据属性测试的结果被划分到字节点中;根结点包含样本全集。从根结点到每个叶结点的路径对应了一个判定测试序列。决策树学习的目的是为了产生一个泛化能力强,即处理 阅读全文
posted @ 2016-06-30 20:08 老顽童2007 阅读(1274) 评论(0) 推荐(1) 编辑
KNN算法
摘要:1.算法讲解 KNN算法是一个最基本、最简单的有监督算法,基本思路就是给定一个样本,先通过距离计算,得到这个样本最近的topK个样本,然后根据这topK个样本的标签,投票决定给定样本的标签; 训练过程:只需要加载训练数据; 测试过程:通过之前加载的训练数据,计算测试数据集中各个样本的标签,从而完成测 阅读全文
posted @ 2016-05-25 18:42 老顽童2007 阅读(491) 评论(2) 推荐(0) 编辑