机器学习 - 随笔分类 - 小唯THU

十分钟了解分布式计算:Petuum

摘要：Petuum是一个机器学习专用分布式计算框架，本文介绍其架构，并基于文章 More Effective Distributed ML via a Stale Synchronous Parallel Parameter Server，NIPS 2013 重点探讨其核心内容SSP协议。 Paramet 阅读全文

posted @ 2014-06-13 19:01 小唯THU 阅读(13846) 评论(1) 推荐(0) 编辑

十分钟了解分布式计算:GraphLab

摘要：GraphLab是一个面向大规模机器学习/图计算的分布式内存计算框架，由CMU在2009年开始的一个C++项目，这里的内容是基于论文 Low, Yucheng, et al. "Distributed GraphLab: A Framework for Machine Learning in the 阅读全文

posted @ 2014-06-13 16:03 小唯THU 阅读(5691) 评论(0) 推荐(1) 编辑

摘要：Word2vec 是 Google 在 2013 年年中开源的一款将词表征为实数值向量的高效工具, 其利用深度学习的思想，可以通过训练，把对文本内容的处理简化为 K 维向量空间中的向量运算，而向量空间上的相似度可以用来表示文本语义上的相似度。Word2vec输出的词向量可以被用来做很多 NLP 相关的工作，比如聚类、找同义词、词性分析等等。如果换个思路，把词当做特征，那么Word2vec就可以把特征映射到 K 维向量空间，可以为文本数据寻求更加深层次的特征表示。阅读全文

posted @ 2014-05-16 19:59 小唯THU 阅读(76648) 评论(0) 推荐(6) 编辑

Ensemble Approaches分类技术

摘要：所谓ensemble learning，简单来说，是指综合多种基础模型或弱分类器来完成最终的决策的机器学习方法。Bagging和Boosting（之前所提到的Adaboost）都属于这类方法。Combining a series of T learned classifiers C1,…,CTwith the aim of creating an improved composite classifier C*Random Forest也是一种基于ensemble learning思想的算法，该算法在决策树Bagging的基础上又增加了一层随机因素，在实际的分类和回归任务中，都取得了非常好的效阅读全文

posted @ 2014-02-18 18:06 小唯THU 阅读(1231) 评论(0) 推荐(0) 编辑

多媒体数据索引--四叉树

摘要：先来一张CS中各种树的全家福这里讨论的是Spatial indexSpatial indexSpatial indices使用于spatial databases (databases which store information related to objects in space)用以优化spatial queries.许多传统(conventional) index类型不能有效处理一些特征，比如说how far two points differ或者whether points fall within a spatial area of interest.Common spatial 阅读全文

posted @ 2012-12-03 21:58 小唯THU 阅读(693) 评论(0) 推荐(0) 编辑

Node Signature用于Attributed Graph Matching

摘要：法国University of Nancy的Salim Jouili and Salvatore Tabbone写的一篇文章Attributed Graph Matching using Local Descriptions，发表在Advanced Concepts For Intelligent Vision Systems, Proceedings,2009，不算很牛，在web of science上引用为3，且多自引，由于跟我做的课题十分相关，所以姑且一读。文章主要有三点：1 用简单向量Node Signature来描述attributed graph (AG)each graph is 阅读全文

posted @ 2012-07-25 23:59 小唯THU 阅读(1091) 评论(0) 推荐(0) 编辑

也谈Ensemble Methods做特征选择

摘要：特征处理特征是对象的表达，模式识别中处理特征的方法可以分为两类：1 特征选择特征选择就是在原始特征集合中，挑选出一些最具有代表性、可分性最好的特征子集——典型的组合优化问题、NP问题。从统计观点——变量的选择特征选择：1)可以降低特征空间维数；2)特征本身常常具有明确的意义。搜索策略顺序前进法——不... 阅读全文

posted @ 2012-07-02 18:01 小唯THU 阅读(1591) 评论(0) 推荐(1) 编辑

Probabilistic Graphical Models-Knowledge Engineering

摘要：设计图模型时面临着以下选择：Template based vs specificDirected vs undirectedGenerative vs discriminativeHybrid（混合） model是很常见的，有时候会同时有Template based部分和非Template level的部分。：Template-basedHybridSpecificimage segmentati... 阅读全文

posted @ 2012-03-26 20:41 小唯THU 阅读(479) 评论(0) 推荐(0) 编辑

网络公开课资源 ——关注CS/AI/Math

摘要：当当当当~请看这个网址 - http://www.class-central.com/ - 它是一个列表，列出几大在线课程网站（有英文字幕和习题就是好啊^^）的课程表 (比网易云课堂更原汁原味哦，现在也可以看课程图谱，学累了可以轻松几分钟，还有浙大的计算机中的数学)Stanford's Course... 阅读全文

posted @ 2012-03-24 01:53 小唯THU 阅读(2808) 评论(0) 推荐(4) 编辑

Probabilistic Graphical Models-Markov Network(Pairwise MN| General Gibbs Distribution| CRF)

摘要：Pairwise Markov NetworkThe normalized measure to get normalized probability distribution is called the partition function(or simply normalizing constant).Consider the pairwise factor ϕ1(A,B). That pot... 阅读全文

posted @ 2012-03-21 16:38 小唯THU 阅读(1057) 评论(2) 推荐(0) 编辑

Probabilistic Graphical Models-Template Models

摘要：factor(a function/table)是对于variables(the scope of the factor)的某种combination的fitness。在BN中factor就是conditional probability distribution(CPD);但factor并不总对应着某种概率（当然也不一定取0~1），比如说在MRF中。和数据库table的操作类似，factor上的... 阅读全文

posted @ 2012-03-20 01:38 小唯THU 阅读(816) 评论(0) 推荐(0) 编辑

3D shape matching

摘要：毕设是Graph Matching课题，读到了2009年的一篇paper，Applying Sum and Max Product Algorithms of Belief Propagation to 3D Shape Matching and Registration, 2009 Digital Image Computing: Techniques and Applications,记下收获... 阅读全文

posted @ 2012-03-08 14:56 小唯THU 阅读(706) 评论(0) 推荐(0) 编辑

线搜索line-search和强Wolfe条件

摘要：最近在看数值优化的论文，里面几乎都有line-search作为一个子步骤。单从字面上不怎么好理解。http://en.wikipedia.org/wiki/Line_searchhttp://en.wikipedia.org/wiki/Backtracking_line_search看来还是要搜中文了http://reference.wolfram.com/mathematica/tutorial... 阅读全文

posted @ 2011-12-08 11:48 小唯THU 阅读(5358) 评论(0) 推荐(0) 编辑

交叉验证--模型参数选择

摘要：机器学习中有监督的学习，通过标注data训练model时，通常采用交叉验证的方法选择模型参数。将有标注的data分为训练集，（交叉）验证集，测试集三份：机器学习的model中，有些模型参数是需要事先指定的，在training之前就是一个常量（与在training过程中通过minimize目标函数阅读全文

posted @ 2011-12-01 11:13 小唯THU 阅读(8381) 评论(3) 推荐(0) 编辑

R语言处理Time series

摘要：Time seriesIntroductionSimple time series modelsARIMAValidating a modelSpectral AnalysisWaveletsDigital Signal Processing (DSP)Modeling volatility: GARCH models (Generalized AutoRegressive Conditionnal Heteroscedasticity)Multivariate time seriesState-Space Models and Kalman FilteringNon-linear time 阅读全文

posted @ 2011-09-19 02:55 小唯THU 阅读(1100) 评论(0) 推荐(0) 编辑

生活要有诗和远方

随笔分类 - 机器学习