随笔档案「2013年8月」 - 潘的博客

基于受限玻尔兹曼机(RBM)的协同过滤

摘要：受限玻尔兹曼机是一种生成式随机神经网络(generative stochastic neural network), 详细介绍可见我的博文《受限玻尔兹曼机(RBM)简介》, 本文主要介绍RBM在协同过滤的应用。1. 受限玻尔兹曼机简单介绍传统的受限玻尔兹曼机是一种如下图所示, 其由一些可见单元(visible unit，对应可见变量，亦即数据样本)和一些隐藏单元(hidden unit，对应隐藏变量)构成，可见变量和隐藏变量都是二元变量，亦即其状态取{0,1}。整个网络是一个二部图，只有可见单元和隐藏单元之间才会存在边，可见单元之间以及隐藏单元之间都不会有边连接。将该模型应用到协同过滤需. 阅读全文

posted @ 2013-08-20 10:36 潘的博客阅读(8295) 评论(2) 推荐(1)

Grep学习笔记

摘要：Grep(Global search Regular Expression and Print out the line)是一种强大的文本搜索工具。1. 正则表达式的基本组成部分正则表达式描述^行首标记$行尾标记.任意一个字符[]包含在[]中的任意一个字符[^]不包含在[]中的任意一个字符[-][]指定范围内的任意一个字符?匹配之前的字符1次或0次+匹配之前的字符1次或多次*匹配之前的字符0次或多次()创建一个用于匹配的字符串{n}匹配之前的项n次{n,}匹配之前的项至少n次{n,m}匹配之前的项n-m次|匹配|两边的任意一项\对之前的字符进行转义,不转义则代表字符本身2. POSIX字符类相阅读全文

posted @ 2013-08-19 16:19 潘的博客阅读(887) 评论(0) 推荐(0)

Deep Belief Network简介

摘要：1. 多层神经网络存在的问题常用的神经网络模型, 一般只包含输入层, 输出层和一个隐藏层：理论上来说, 隐藏层越多, 模型的表达能力应该越强。但是, 当隐藏层数多于一层时, 如果我们使用随机值来初始化权重, 使用梯度下降来优化参数就会出现许多问题[1]:如果初始权重值设置的过大, 则训练过程中权重值会落入局部最小值(而不是全局最小值)。如果初始的权重值设置的过小, 则在使用BP调整参数时, 当误差传递到最前面几层时, 梯度值会很小, 从而使得权重的改变很小, 无法得到最优值。[疑问, 是否可以提高前几层的learning rate来解决这个问题?] 所以, 如果初始的权重值已经比较... 阅读全文

posted @ 2013-08-18 16:52 潘的博客阅读(13131) 评论(1) 推荐(1)

Learning to Rank之RankNet算法简介

摘要：排序一直是信息检索的核心问题之一, Learning to Rank(简称LTR)用机器学习的思想来解决排序问题(关于Learning to Rank的简介请见我的博文Learning to Rank简介)。LTR有三种主要的方法：PointWise，PairWise，ListWise. RankNet是一种Pairwise方法, 由微软研究院的Chris Burges等人在2005年ICML上的一篇论文Learning to Rank Using Gradient Descent中提出，并被应用在微软的搜索引擎Bing当中。1. 损失函数损失函数一直是各种Learning to Rank. 阅读全文

posted @ 2013-08-14 18:46 潘的博客阅读(12864) 评论(1) 推荐(0)

Pig性能优化

摘要：1. 尽早去除无用的数据 MapReduce Job的很大一部分开销在于磁盘IO和数据的网络传输，如果能尽早的去除无用的数据，减少数据量，会提升Pig的性能。 1). 尽早的使用Filter 使用Filter可以去除数据中无用的行(Record)，尽早的Filter掉无用的数据，可以减少数据量，提升Pig性能。 2). 尽早的使用Project(Foreach Generate) 使用Foreach Generate可以去除数据中无用的列(Column)，减少数据量，提升Pig性能。 2. 使用Combiner Combiner可以对Map的结果进行combine，减少Shuffle的数据量. 阅读全文

posted @ 2013-08-09 20:37 潘的博客阅读(2782) 评论(0) 推荐(2)

Learning to Rank之Ranking SVM 简介

摘要：排序一直是信息检索的核心问题之一，Learning to Rank(简称LTR)用机器学习的思想来解决排序问题(关于Learning to Rank的简介请见我的博文Learning to Rank简介)。LTR有三种主要的方法：PointWise，PairWise，ListWise。Ranking SVM算法是PointWise方法的一种，由R. Herbrich等人在2000提出, T. Joachims介绍了一种基于用户Clickthrough数据使用Ranking SVM来进行排序的方法(SIGKDD, 2002)。1. Ranking SVM的主要思想 Ranking SVM是一种. 阅读全文

posted @ 2013-08-06 21:14 潘的博客阅读(31119) 评论(4) 推荐(0)

08 2013 档案