2018年6月21日
摘要:
PCA降维的大致思想就是: 挑选特征明显的、显得比较重要的信息保留下来。 那么关键就是【特征明显的,重要的信息】如何选择? 选择标准有两个:1: 同一个维度内的数据,方差大的比较明显,因为方差大表示自己和平均水平差异大,有个性,降维后也最可能分的开~2: 两个不同维度间关联度越小越好,因为关联度小表
阅读全文
posted @ 2018-06-21 20:52
Google-boy
阅读(336)
推荐(0)
posted @ 2018-06-21 15:34
Google-boy
阅读(134)
推荐(0)
2018年6月6日
摘要:
1、RF 原理 用随机的方式建立一个森林,森林里面有很多的决策树,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这个样本为那一类。 2、RF
阅读全文
posted @ 2018-06-06 11:18
Google-boy
阅读(1231)
推荐(0)
2018年6月1日
摘要:
from sklearn.metrics import precision_score,recall_score print (precision_score(y_true, y_scores,average='micro')) average:string,[None,'binary'(默认),'
阅读全文
posted @ 2018-06-01 16:30
Google-boy
阅读(2086)
推荐(0)
2018年5月10日
摘要:
归一化: 减去均值,然后归一化 这样归一化以后数据X就被归一化到-1到1的范围内。 归一化注意事项: 第一,样本归一化。FFM默认是进行样本数据的归一化,即 为真;若此参数设置为假,很容易造成数据inf溢出,进而引起梯度计算的nan错误。因此,样本层面的数据是推荐进行归一化的。 第二,特征归一化。C
阅读全文
posted @ 2018-05-10 08:50
Google-boy
阅读(384)
推荐(0)
2018年4月23日
摘要:
背景: 本次算法大赛的题目源于腾讯社交广告业务中的一个真实的广告产品——相似人群拓展(Lookalike)。该产品的目的是基于广告主提供的目标人群,从海量的人群中找出和目标人群相似的其他人群。在实际广告业务应用场景中,Lookalike 能基于广告主已有的消费者,找出和已有消费者相似的潜在消费者,以
阅读全文
posted @ 2018-04-23 20:00
Google-boy
阅读(827)
推荐(0)
2018年4月15日
摘要:
图解stacking原理: 上半部分是用一个基础模型进行5折交叉验证,如:用XGBoost作为基础模型Model1,5折交叉验证就是先拿出四折作为training data,另外一折作为testing data。注意:在stacking中此部分数据会用到整个traing set。如:假设我们整个tr
阅读全文
posted @ 2018-04-15 21:48
Google-boy
阅读(591)
推荐(0)
2018年4月13日
摘要:
多标签分类基本上,有三种方法来解决一个多标签分类问题,即: 4.1问题转换 在这个方法中,我们将尝试把多标签问题转换为单标签问题。这种方法可以用三种不同的方式进行: 4.4.1二元关联(Binary Relevance) 这是最简单的技术,它基本上把每个标签当作单独的一个类分类问题。例如,让我们考虑
阅读全文
posted @ 2018-04-13 17:36
Google-boy
阅读(4848)
推荐(1)
2018年4月9日
摘要:
Django(发音:[`dʒæŋɡəʊ]) 是一个开放源代码的Web应用框架,由Python写成。采用了MTV的框架模式,模型(Model)、模板(Template)和视图(Views)。
阅读全文
posted @ 2018-04-09 19:17
Google-boy
阅读(189)
推荐(0)
2018年3月30日
摘要:
一 准备实验数据 1.1.下载数据 1.2.数据分析 1.2.1.数据格式 而, product/productId: asin, e.g. amazon.com/dp/B00006HAXW #亚马逊标准识别号码(英语:Amazon Standard Identification Number),简
阅读全文
posted @ 2018-03-30 16:15
Google-boy
阅读(512)
推荐(0)