摘要: 1、案例背景 2、分析目的 3、数据说明 4、Python代码实现 阅读全文
posted @ 2019-10-02 20:43 lvzw 阅读(791) 评论(0) 推荐(0)
摘要: 一、数据挖掘流程介绍 1.数据读取 -读取数据 -统计指标 -数据规模 2.数据探索(特征理解) -单特征的分析,诸个变量分析对结果y的影响(x,y的相关性) -多变量分析(x,y之间的相关性) -统计绘图 3.数据清洗和预处理 -缺失值填充 -标准化、归一化 -特征工程(筛选有价值的特征) -分析 阅读全文
posted @ 2019-09-24 13:22 lvzw 阅读(7279) 评论(0) 推荐(0)
摘要: Table of Contents¶ 1 驱虫市场潜力分析 1.1 数据处理 1.1.1 导包 1.1.2 读取数据 1.1.2.1 读取各个子类目交易额数据,合并 1.1.2.2 自定义读取单个xlsx文件的函数 1.1.2.3 读取所有文件到列表 1.1.3 依行索引(时间)将所有文件合并到一个 阅读全文
posted @ 2019-09-20 17:08 lvzw 阅读(717) 评论(0) 推荐(0)
摘要: 一、案例综述 1.数据文件说明 客户相关文件: 1. UserInfo.csv:用户主表 2. RegionInfo.csv:区域表 3. UserAddress.csv:用户地址表 商品相关文件: 1. GoodsInfo.csv:商品主表 2. GoodsBrand.csv:商品品牌表 3. G 阅读全文
posted @ 2019-09-20 09:45 lvzw 阅读(509) 评论(1) 推荐(0)
摘要: 1. AEO(App Event Optimization):应用内事件优化,优化应用内的事件,如:注册,订阅,加购,购买 2. CBO(Campaign Budget Optimization):广告系列预算优化。在广告系列层级设置预算,机器自动优化广告系列预算在各广告组之间的分配,寻找实现成效的 阅读全文
posted @ 2025-07-21 19:02 lvzw 阅读(40) 评论(0) 推荐(0)
摘要: 哈希算法(Hash Algorithm)是一种将输入数据映射到固定大小值的算法,这个值通常称为哈希值(Hash Value)或摘要(Digest)。哈希算法广泛用于数据处理、加密、数据库索引等领域。也用在AB实验中保证随机性,通过hash算法将用户或样本数据映射到不同的实验组(如A组和B组),确保每 阅读全文
posted @ 2025-07-17 10:58 lvzw 阅读(62) 评论(0) 推荐(0)
摘要: sql 一行转多行 阅读全文
posted @ 2025-07-04 18:58 lvzw 阅读(237) 评论(0) 推荐(0)
摘要: 1、指标定义 连续登录天数指的是用户在某一段时间内没有间断地登录应用或平台的天数。 2、指标用途 在用户行为数据分析中,用户连续登录天数指标主要有以下用途: 衡量用户粘性:了解一定时间内用户在平台上保持活跃的天数,衡量产品吸引力的工具。 制定激励措施:平台可以根据用户的连续登录天数提供奖励或优惠,如 阅读全文
posted @ 2025-07-04 18:34 lvzw 阅读(37) 评论(0) 推荐(0)
摘要: 一、日期时间函数 1.日期格式转化 date_format(active_date,'%Y-%m') ——2020-01year(active_date)*100 + month(active_date) —— 202001date_format(active_date,"yMM") ——20200 阅读全文
posted @ 2020-04-20 14:33 lvzw 阅读(3718) 评论(0) 推荐(0)
摘要: 项目链接:https://nbviewer.jupyter.org/github/lvzw94/Ipynb/blob/master/python爬取拉勾网数据并进行数据可视化.ipynb 阅读全文
posted @ 2019-10-13 16:42 lvzw 阅读(316) 评论(0) 推荐(0)
摘要: 1.导包 2.提取数据 3.PCA降维 3.1 调用PCA 3.2 绘图 提取两个主成分的累计贡献率达到了0.9777,说明主成分的解释效果较好。 4 贡献率曲线 当参数n_components中不填写任何值时,默认返回min(X.shape)个特征。一般来说,样本量都会大于特征数目,所以什么都不填 阅读全文
posted @ 2019-10-11 18:07 lvzw 阅读(2947) 评论(0) 推荐(0)
摘要: 本文基于Python软件进行评分卡的制作及使用预测。主要包括确定观察时间窗口、确定表现时间窗口、评分卡的制作、新数据的预测四大部分。内容涉及数据清洗、变量筛选、生成WOE 矩阵、IV值计算、ROC曲线、模型建立、模型评估预测等。 数据来源 本项目数据来源于kaggle竞赛Give Me Some C 阅读全文
posted @ 2019-09-30 16:19 lvzw 阅读(1305) 评论(0) 推荐(0)
摘要: Table of Contents¶ 1 读取数据 2 了解数据 2.1 统计一下每一列中有多少空值 2.2 查看数据中是否有重复值 2.3 可视化数据查看数据分布 2.3.1 看一下目标变量是否平衡 2.3.2 绘制年龄分布情况 2.3.3 两类样本的年龄分布 2.3.4 学历情况 2.3.5 查 阅读全文
posted @ 2019-09-28 11:30 lvzw 阅读(190) 评论(0) 推荐(0)