摘要: 在本次分析中,我使用了随机森林回归,并涉及数据标准化和超参数调优。在这里,我使用随机森林分类器,对好酒和不太好的酒进行二元分类。 首先导入数据包: 导入数据: 注释: fixed acidity:非挥发性酸 volatile acidity : 挥发性酸 citric acid:柠檬酸 residu 阅读全文
posted @ 2018-06-20 12:39 人走茶会凉 阅读(10986) 评论(2) 推荐(1)
摘要: 拍拍贷数据集分析 单变量曲线部分 我们的数据集由21个变量组成,有328553个观测值。 # 单变量绘图选择 95%借款金额大多在700-8000元之间,说明大部分借款金额以小额借贷为主。 2.借款期限 结论:借款期限选择6和12个月的人多,说明借款以短期借贷为主。 3.借款利率 借款利率大多在20 阅读全文
posted @ 2018-05-31 12:23 人走茶会凉 阅读(1389) 评论(0) 推荐(0)
摘要: 本身是个美剧迷,其中权力的游戏是我最爱的美剧之一,所以我通过kaggle下载了数据集并进行分析。数据名称解释如下: 首先我们先提出问题: 1.每个国王攻击方式 2.每年死亡或被俘的重要人物 3.每个区域死亡或被俘的重要人物人数 4.战争结果是否与兵力多少有关系 1 导入包 1 收集数据 1.1 查看 阅读全文
posted @ 2018-05-30 17:59 人走茶会凉 阅读(1954) 评论(0) 推荐(0)
摘要: 一 SUM 练习 1.算出 orders 表格中的 poster_qty 纸张总订单量。 二 MAX MIN AVERAGEL 1.最早的订单下于何时? 2.最近的 web_event 发生在什么时候? 3.算出每个订单在每种纸张上消费的平均 (AVERAGE) 金额,以及每个订单针对每种纸张购买的 阅读全文
posted @ 2018-05-21 18:30 人走茶会凉 阅读(384) 评论(0) 推荐(0)
摘要: 一 SQL join练习 1.尝试获取 accounts 表格中的所有数据,以及 orders 表格中的所有数据。 2.尝试从 orders 表格中获取 standard_qty、gloss_qty 和 poster_qty,并从 accounts 表格中获取 website 和 primary_p 阅读全文
posted @ 2018-05-21 15:36 人走茶会凉 阅读(1132) 评论(0) 推荐(0)