摘要: 1、案例背景 2、分析目的 3、数据说明 4、Python代码实现 阅读全文
posted @ 2019-10-02 20:43 lvzw 阅读(748) 评论(0) 推荐(0) 编辑
摘要: 一、数据挖掘流程介绍 1.数据读取 -读取数据 -统计指标 -数据规模 2.数据探索(特征理解) -单特征的分析,诸个变量分析对结果y的影响(x,y的相关性) -多变量分析(x,y之间的相关性) -统计绘图 3.数据清洗和预处理 -缺失值填充 -标准化、归一化 -特征工程(筛选有价值的特征) -分析 阅读全文
posted @ 2019-09-24 13:22 lvzw 阅读(6912) 评论(0) 推荐(0) 编辑
摘要: Table of Contents¶ 1 驱虫市场潜力分析 1.1 数据处理 1.1.1 导包 1.1.2 读取数据 1.1.2.1 读取各个子类目交易额数据,合并 1.1.2.2 自定义读取单个xlsx文件的函数 1.1.2.3 读取所有文件到列表 1.1.3 依行索引(时间)将所有文件合并到一个 阅读全文
posted @ 2019-09-20 17:08 lvzw 阅读(626) 评论(0) 推荐(0) 编辑
摘要: 一、案例综述 1.数据文件说明 客户相关文件: 1. UserInfo.csv:用户主表 2. RegionInfo.csv:区域表 3. UserAddress.csv:用户地址表 商品相关文件: 1. GoodsInfo.csv:商品主表 2. GoodsBrand.csv:商品品牌表 3. G 阅读全文
posted @ 2019-09-20 09:45 lvzw 阅读(441) 评论(1) 推荐(0) 编辑
摘要: 一、日期时间函数 1.日期格式转化 date_format(active_date,'%Y-%m') ——2020-01year(active_date)*100 + month(active_date) —— 202001date_format(active_date,"yMM") ——20200 阅读全文
posted @ 2020-04-20 14:33 lvzw 阅读(3225) 评论(0) 推荐(0) 编辑
摘要: 项目链接:https://nbviewer.jupyter.org/github/lvzw94/Ipynb/blob/master/python爬取拉勾网数据并进行数据可视化.ipynb 阅读全文
posted @ 2019-10-13 16:42 lvzw 阅读(304) 评论(0) 推荐(0) 编辑
摘要: 1.导包 2.提取数据 3.PCA降维 3.1 调用PCA 3.2 绘图 提取两个主成分的累计贡献率达到了0.9777,说明主成分的解释效果较好。 4 贡献率曲线 当参数n_components中不填写任何值时,默认返回min(X.shape)个特征。一般来说,样本量都会大于特征数目,所以什么都不填 阅读全文
posted @ 2019-10-11 18:07 lvzw 阅读(2780) 评论(0) 推荐(0) 编辑
摘要: 本文基于Python软件进行评分卡的制作及使用预测。主要包括确定观察时间窗口、确定表现时间窗口、评分卡的制作、新数据的预测四大部分。内容涉及数据清洗、变量筛选、生成WOE 矩阵、IV值计算、ROC曲线、模型建立、模型评估预测等。 数据来源 本项目数据来源于kaggle竞赛Give Me Some C 阅读全文
posted @ 2019-09-30 16:19 lvzw 阅读(1210) 评论(0) 推荐(0) 编辑
摘要: Table of Contents¶ 1 读取数据 2 了解数据 2.1 统计一下每一列中有多少空值 2.2 查看数据中是否有重复值 2.3 可视化数据查看数据分布 2.3.1 看一下目标变量是否平衡 2.3.2 绘制年龄分布情况 2.3.3 两类样本的年龄分布 2.3.4 学历情况 2.3.5 查 阅读全文
posted @ 2019-09-28 11:30 lvzw 阅读(177) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2019-09-28 11:05 lvzw 阅读(3594) 评论(0) 推荐(1) 编辑