会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Rener
博客园
首页
新随笔
联系
订阅
管理
2019年9月12日
酒店订房预测
摘要: 提出问题:同一orderid下,有且仅有一个orderlabel为1的售卖房型。本项目的目的就是预测哪一个售卖房型(roomid)是用户最终预订的。 本项目主要分为两部分: 一.先对测试数据集的基本字段做一个简单的分析。 二.房型预测模型。 一.先对测试数据集的基本字段做一个简单的分析。 首先将训练
阅读全文
posted @ 2019-09-12 10:35 Rener
阅读(589)
评论(0)
推荐(0)
2019年8月17日
逻辑思维方法
摘要: 对比分析法 不知道和谁比,得出的结论都是错误的。如果知道和谁比,才知道对比的结果。 和谁比,一般分为两种:和自己比,和行业比。 和自己比: 可以是平均值 时间:从时间上比较,最常用的是环比、同比 和行业比 跟行业值比 对比分析方法用于追踪业务是否有问题 对比分析法可以判断是问题是否严重 假设分析 提
阅读全文
posted @ 2019-08-17 11:01 Rener
阅读(269)
评论(0)
推荐(0)
2019年8月12日
seaborn柱状图实例
摘要: ``` import matplotlib.pyplot as plt import seaborn as sns sns.set(style="dark", context="talk") rs = np.random.RandomState(8) f, (ax1, ax2, ax3) = plt.subplots(3, 1, figsize=(7, 5), sharex=True) # 分三张
阅读全文
posted @ 2019-08-12 12:15 Rener
阅读(496)
评论(0)
推荐(0)
2019年8月10日
使用preprocessing将一些变化幅度较大的特征化到[-1,1]之内。
摘要: 与数据 输出 特征化处理 输出
阅读全文
posted @ 2019-08-10 11:37 Rener
阅读(190)
评论(0)
推荐(0)
使用pandas的get_dummies对类目型的特征因子化
摘要: 以Cabin为例,原本一个属性维度,因为其取值可以是[‘yes’,‘no’],而将其平展开为’Cabin_yes’,'Cabin_no’两个属性 原本Cabin取值为yes的,在此处的"Cabin_yes"下取值为1,在"Cabin_no"下取值为0 原本Cabin取值为no的,在此处的"Cabin
阅读全文
posted @ 2019-08-10 11:20 Rener
阅读(426)
评论(0)
推荐(0)
关于RandomForestRegressor,补全null数值
摘要: RandomForest的分类类是RandomForestClassifier,而RandomForestRegressor属于回归类 参数 n_estimators 也就是弱学习器的最大迭代次数,或者说最大的弱学习器的个数,默认是10。一般来说n_estimators太小,容易欠拟合,n_esti
阅读全文
posted @ 2019-08-10 10:44 Rener
阅读(1106)
评论(0)
推荐(0)
2019年8月9日
关于train_test_split和cross_val_score交叉检验
摘要: train_test_split分组 train_test_split函数用于将矩阵随机划分为训练子集和测试子集,并返回划分好的训练集测试集样本和训练集测试集标签。 X_train,X_test, y_train, y_test =cross_validation.train_test_split(
阅读全文
posted @ 2019-08-09 21:24 Rener
阅读(952)
评论(0)
推荐(0)
关于seaborn
摘要: seaborn.heatmap seaborn.heatmap(data) annot: 默认为False,为True的话,会在格子上显示数字 vmax, vmin: 热力图颜色取值的最大值,最小值,默认会从data中推导 linewidths:定义热力图里“表示两两特征关系的矩阵小块”之间的间隔大
阅读全文
posted @ 2019-08-09 19:31 Rener
阅读(208)
评论(0)
推荐(0)
2019年8月1日
正态分布
摘要: ``` import matplotlib.pyplot as plt import numpy as np def pq(I, mu, sigma): a = 1. / (sigma * np.sqrt(2. * np.pi)) b = -1. / (2. * sigma ** 2) return a * np.exp(b * (I - mu) ** 2) I =np...
阅读全文
posted @ 2019-08-01 20:27 Rener
阅读(155)
评论(0)
推荐(0)
2019年7月31日
单下划线或双下划线的意义
摘要: 单下划线 _s : 保护变量 只有类对象和子类对象自己能访问到这些变量 _foo() : 不能直接访问的类属性 需要通过类提供的接口进行访问 双下划线 __s:私有成员 只能类对象自己能访问,子类对象也不能访问 __s__:python里特殊的专用标识,如__init__()
阅读全文
posted @ 2019-07-31 21:51 Rener
阅读(327)
评论(0)
推荐(0)
下一页
公告