Fork me on GitHub

随笔分类 -  机器学习

摘要:1. 随机投影 (Random Projection) 首先,这是一种降维方法。之前已经介绍过相对普遍的PCA的降维方法,这里介绍另一种降维方法Random Project。相比于PCA,他的优势可以这样说: Random Projection与PCA不一样,其操作简单,只要构建一个投影矩阵即可,而 阅读全文
posted @ 2018-11-27 01:20 Byron_NG 阅读(2339) 评论(0) 推荐(0) 编辑
摘要:这次介绍 Item(User)相似度 的计算方法,其广泛运用于基于邻域的协同过滤算法的推荐系统。简而言之,基于邻域,就是基于相邻的元素进行推荐,而相邻元素的得到过程就是相似度的计算过程。 对于空间上的点来说:传统机器学习模型中KNN的距离度量方法(如欧式距离等),距离越近的点我们把他们归为一类,也可 阅读全文
posted @ 2018-08-09 11:54 Byron_NG 阅读(16419) 评论(0) 推荐(2) 编辑
摘要:最近在学习推荐系统(Recommender System),跟大部分人一样,我也是从《推荐系统实践》学起,同时也想跟学机器学习模型时一样使用几个开源的python库玩玩。于是找到了 "surprise" ,挺新的,代码没有sklearn那么臃肿,我能看的下去,于是就开始了自己不断的挖坑。 这篇文章介 阅读全文
posted @ 2018-07-24 11:01 Byron_NG 阅读(18772) 评论(1) 推荐(3) 编辑
摘要:鄙人调参新手,最近用lightGBM有点猛,无奈在各大博客之间找不到具体的调参方法,于是将自己的调参notebook打印成markdown出来,希望可以跟大家互相学习。 其实,对于基于决策树的模型,调参的方法都是大同小异。一般都需要如下步骤: 1. 首先选择较高的学习率,大概0.1附近,这样是为了加 阅读全文
posted @ 2018-07-13 20:56 Byron_NG 阅读(62761) 评论(4) 推荐(7) 编辑
摘要:在遇到维度灾难的时候,作为数据处理者们最先想到的降维方法一定是 SVD(奇异值分解)和PCA(主成分分析) 。 两者的原理在各种算法和机器学习的书籍中都有介绍,两者之间也有着某种千丝万缕的联系。本文在简单介绍PCA和SVD原理的基础上比较了两者的区别与联系,以及两者适用的场景和得到的效果。 一、SV 阅读全文
posted @ 2018-07-08 16:45 Byron_NG 阅读(18082) 评论(2) 推荐(2) 编辑
摘要:20天的时间参加了Kaggle的 "Avito Demand Prediction Challenged" ,第一次参加,成绩离奖牌一步之遥,感谢各位队友,学到的东西远比成绩要丰硕得多。作为新手,希望每记录一次可以进步一次。下面将我这段时间的心路历程进行记录,作为经历,也作为自己的经验: 可点击 " 阅读全文
posted @ 2018-06-29 15:54 Byron_NG 阅读(4006) 评论(0) 推荐(0) 编辑
摘要:特征选择是一个重要的数据预处理过程,在现实机器学习任务中,获得数据之后通常先进行特征选择,此后在训练学习器,如下图所示: 进行特征选择有两个很重要的原因: 避免维数灾难:能剔除不相关(irrelevant)或冗余(redundant )的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的 阅读全文
posted @ 2018-05-29 00:07 Byron_NG 阅读(26716) 评论(2) 推荐(1) 编辑
摘要:high cardinality categorical attributes,从字面上理解,即对于某个category特征,不同值的数量非常多,这里暂且把它叫做高数量类别属性。反之,即低数量类别属性(low cardinality) 对于低数量类别属性,通常在data science中采用的方式是 阅读全文
posted @ 2018-05-25 10:26 Byron_NG 阅读(5572) 评论(0) 推荐(1) 编辑
摘要:类别不平衡 就是指分类任务中不同类别的训练样例数目差别很大的情况 常用的做法有三种,分别是1.欠采样, 2.过采样, 3.阈值移动 由于这几天做的project的target为正值的概率不到4%,且数据量足够大,所以我采用了欠采样: 欠采样 ,即去除一些反例使得正、反例数目接近,然后再进行学习,基本 阅读全文
posted @ 2018-05-22 20:35 Byron_NG 阅读(21704) 评论(0) 推荐(2) 编辑
摘要:通常,在Data Science中,预处理数据有一个很关键的步骤就是数据的标准化。这里主要引用 "sklearn文档" 中的一些东西来说明,主要把各个标准化方法的应用场景以及优缺点总结概括,以来充当笔记。 首先,我要引用我自己的文章[Feature Preprocessing on Kaggle ] 阅读全文
posted @ 2018-05-01 19:26 Byron_NG 阅读(51718) 评论(0) 推荐(7) 编辑
摘要:刚入手data science, 想着自己玩一玩kaggle,玩了新手Titanic和House Price的 项目, 觉得基本的baseline还是可以写出来,但是具体到一些细节,以至于到能拿到的出手的成绩还是需要理论分析的。 本文旨在介绍kaggle比赛到各种原理与技巧,当然一切源自于cours 阅读全文
posted @ 2018-04-26 09:51 Byron_NG 阅读(1861) 评论(0) 推荐(0) 编辑