摘要: 在机器学习用于产品的时候,我们经常会遇到跨平台的问题。比如我们用Python基于一系列的机器学习库训练了一个模型,但是有时候其他的产品和项目想把这个模型集成进去,但是这些产品很多只支持某些特定的生产环境比如Java,为了上一个机器学习模型去大动干戈修改环境配置很不划算,此时我们就可以考虑用预测模型标阅读全文
posted @ 2018-06-24 15:18 刘建平Pinard 阅读(108) 评论(0) 编辑
摘要: 在贝叶斯个性化排序(BPR)算法小结中,我们对贝叶斯个性化排序(Bayesian Personalized Ranking, 以下简称BPR)的原理做了讨论,本文我们将从实践的角度来使用BPR做一个简单的推荐。由于现有主流开源类库都没有BPR,同时它又比较简单,因此用tensorflow自己实现一个阅读全文
posted @ 2018-06-10 17:29 刘建平Pinard 阅读(407) 评论(5) 编辑
摘要: 在矩阵分解在协同过滤推荐算法中的应用中,我们讨论过像funkSVD之类的矩阵分解方法如何用于推荐。今天我们讲另一种在实际产品中用的比较多的推荐算法:贝叶斯个性化排序(Bayesian Personalized Ranking, 以下简称BPR),它也用到了矩阵分解,但是和funkSVD家族却有很多不阅读全文
posted @ 2018-06-03 16:22 刘建平Pinard 阅读(599) 评论(0) 编辑
摘要: 在前面我们分别讨论了特征工程中的特征选择与特征表达,本文我们来讨论特征预处理的相关问题。主要包括特征的归一化和标准化,异常特征样本清洗与样本数据不平衡问题的处理。 1. 特征的标准化和归一化 由于标准化和归一化这两个词经常混用,所以本文不再区别标准化和归一化,而通过具体的标准化和归一化方法来区别具体阅读全文
posted @ 2018-05-26 20:23 刘建平Pinard 阅读(955) 评论(13) 编辑
摘要: 在特征工程之特征选择中,我们讲到了特征选择的一些要点。本篇我们继续讨论特征工程,不过会重点关注于特征表达部分,即如果对某一个特征的具体表现形式做处理。主要包括缺失值处理,特殊的特征处理比如时间和地理位置处理,离散特征的连续化和离散化处理,连续特征的离散化处理几个方面。 1. 缺失值处理 特征有缺失值阅读全文
posted @ 2018-05-19 22:39 刘建平Pinard 阅读(1041) 评论(17) 编辑
摘要: 特征工程是数据分析中最耗时间和精力的一部分工作,它不像算法和模型那样是确定的步骤,更多是工程上的经验和权衡。因此没有统一的方法。这里只是对一些常用的方法做一个总结。本文关注于特征选择部分。后面还有两篇会关注于特征表达和特征预处理。 1. 特征的来源 在做数据分析的时候,特征的来源一般有两块,一块是业阅读全文
posted @ 2018-05-13 20:13 刘建平Pinard 阅读(1768) 评论(17) 编辑
摘要: 在word2vec原理篇中,我们对word2vec的两种模型CBOW和Skip-Gram,以及两种解法Hierarchical Softmax和Negative Sampling做了总结。这里我们就从实践的角度,使用gensim来学习word2vec。 1. gensim安装与概述 gensim是一阅读全文
posted @ 2017-08-03 14:12 刘建平Pinard 阅读(6400) 评论(15) 编辑
摘要: word2vec原理(一) CBOW与Skip-Gram模型基础 word2vec原理(二) 基于Hierarchical Softmax的模型 word2vec原理(三) 基于Negative Sampling的模型 在上一篇中我们讲到了基于Hierarchical Softmax的word2ve阅读全文
posted @ 2017-07-28 15:56 刘建平Pinard 阅读(8878) 评论(11) 编辑
摘要: word2vec原理(一) CBOW与Skip-Gram模型基础 word2vec原理(二) 基于Hierarchical Softmax的模型 word2vec原理(三) 基于Negative Sampling的模型 在word2vec原理(一) CBOW与Skip-Gram模型基础中,我们讲到了阅读全文
posted @ 2017-07-27 17:26 刘建平Pinard 阅读(13537) 评论(55) 编辑
摘要: word2vec原理(一) CBOW与Skip-Gram模型基础 word2vec原理(二) 基于Hierarchical Softmax的模型 word2vec原理(三) 基于Negative Sampling的模型 word2vec是google在2013年推出的一个NLP工具,它的特点是将所有阅读全文
posted @ 2017-07-13 16:34 刘建平Pinard 阅读(32297) 评论(6) 编辑