做梦当财神

2020年7月23日

摘要： DBSCAN是密度聚类算法，和K-Means，BIRCH只适用于凸样本集的聚类相比，DBSCAN既适用于凸样本集，也适用于非凸样本集。 1. 密度聚类原理 DBSCAN算法指类别可通过样本分布的紧密程度决定。即同一类别的样本紧密相连，也就是说在该类别的不远处一定有同类别的样本。 2. DBSCAN密阅读全文

posted @ 2020-07-23 11:24 做梦当财神阅读(887) 评论(0) 推荐(0)

2020年7月22日

特征选择（2）

摘要：特征选择（1）在sklearn.feature_selection模块中，可以对样本集进行特征选择（feature selection）和降维（dimensionality reduction）,这样会提高估计器的准确度或者增强在高维数据集上的性能。 1. 移除低方差特征 VarianceThre 阅读全文

posted @ 2020-07-22 23:10 做梦当财神阅读(371) 评论(0) 推荐(0)

2020年7月21日

pandas.MultiIndex

摘要：分层/多级索引能在较低纬度的数据结构（如Series和DataFrame）中存储和操作任意维度的数据， 1. 创建MultiIndex MultiIndex对象是标准索引Index对象的扩展，可以将MultiIndex看作一个元组数组，其中每个元组都是唯一的。可以从数组列表（MultiIndex.f 阅读全文

posted @ 2020-07-21 16:21 做梦当财神阅读(1617) 评论(0) 推荐(0)

2020年7月2日

提升树

摘要：集成学习随机森林 AdaBoost 算法提升树梯度提升树（GBDT） XGBoost 一、提升树提升树是以 $CART$ 回归树为基本分类器的提升方法。提升方法采用加法模型（即基函数的线性组合）与前向分步算法。 1. 提升树模型提升树模型可以表示为决策树的加法模型： $$ \tag{13 阅读全文

posted @ 2020-07-02 18:51 做梦当财神阅读(850) 评论(0) 推荐(0)

字符串的合并（str.cat()）

摘要：字符串的合并，主要有4种方法： 1. 使用“+”组合字符串例如：输入x='a'+'b'得到x的值是‘ab’。 2. 使用%占位符组合字符串例如：输入x='I am %s'%'Tony'，得到x的值是‘I am Tony’。 3. 使用.join方法将多个可迭代对象合并例如：输入x=' '.jo 阅读全文

posted @ 2020-07-02 18:49 做梦当财神阅读(1654) 评论(0) 推荐(0)

2020年7月1日

pandas.cut

摘要：用途 pandas.cut用来把一组数据分割成离散的区间。比如一组年龄数据，pandas.cut将年龄分割成不同的年龄段并打上标签。原型 pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3,include_ 阅读全文

posted @ 2020-07-01 12:58 做梦当财神阅读(474) 评论(0) 推荐(0)

2020年6月30日

Python 中字典的键映射多个值

摘要：问题怎么实现一个键对应多个值的字典（也叫 multidict ）？解决方案字典中一个键对应一个单值的映射。如果想一个键映射多个值，就需要将多个值放到另外的容器中。比如列表、集合等。 d = { 'a' : [1, 2, 3], 'b' : [4, 5] } e = { 'a' : {1, 2, 阅读全文

posted @ 2020-06-30 22:51 做梦当财神阅读(3885) 评论(0) 推荐(0)

Python groupby()

摘要：用法一： groupby()函数扫描整个序列并且查找连续相同值（或根据指定 key 函数返回值相同）的元素序列。每次迭代，返回一个值和一个迭代器对象。 from operator import itemgetter from itertools import groupby rows = [ {' 阅读全文

posted @ 2020-06-30 15:37 做梦当财神阅读(1076) 评论(0) 推荐(0)

基于RFM的用户价值度分析

摘要：案例完整代码、数据见Github 1. 案例背景用户价值细分是了解用户价值度的重要途径，常用的细分模型包括：基于属性的方法、ABC分类法、聚类法等。 1. 基于属性的方法常用的细分属性包括：地域、产品类别、用户类别（大客户、普通客户、VIP客户等）、性别、消费等级等。这种细分方法可根据数据库中数阅读全文

posted @ 2020-06-30 01:11 做梦当财神阅读(1694) 评论(0) 推荐(0)

2020年6月9日

基于AdaBoost的营销响应预测

摘要：完整代码、数据见Github 1. 案例背景会员部门在做会员营销时，希望通过数据预测下一次营销活动时，响应活动的会员名单和具体概率。数据： order.xlsx表： sheet1为训练集，sheet2为预测集特征变量数：13 数据条数：训练集39999条，预测集8843条 NA值：有异常值：阅读全文

posted @ 2020-06-09 18:39 做梦当财神阅读(624) 评论(0) 推荐(0)

公告