摘要: ''' A/B测试是为了得到同一个目标进行制定的两个方案,在同一时间维度,分别让组成成分相似的用户群组随机使用一个方案, 最后根据结果进行判断哪一个方案效果好。 ​ 数据集来源:阿里云天池 dmp_id:营销策略编号(这里根据数据情况设定为1:对照组,2:营销策略一,3:营销策略二) user_id 阅读全文
posted @ 2020-09-12 15:37 hehe哒 阅读(484) 评论(0) 推荐(0) 编辑
摘要: 天猫订单分析 Logout Python 3 可信的 File Edit View Insert Cell Kernel Widgets Help 运行 In [44]: ​ ''' 根据天猫定订单数据集进行订单的综合分析 共有28010条数据 ​ 字段的说明: 订单编号:订单编号 总金额:订单总金 阅读全文
posted @ 2020-09-11 20:36 hehe哒 阅读(395) 评论(0) 推荐(0) 编辑
摘要: # 订单维度 # 首先将mydata_finall按订单号进行分组,对商品数量quantity和总价sumcost进行分组求和 invoiceno_grouped = mydata_finall.groupby('InvoiceNo')[['Quantity','SumCost']].sum() i 阅读全文
posted @ 2020-08-18 17:13 hehe哒 阅读(661) 评论(0) 推荐(0) 编辑
摘要: #导入需要的包 import pandas as pd import numpy as np # 导入数据 mydata = pd.read_excel(r'D:\学习\dataA\Online Retail.xlsx') mydata.head() InvoiceNo StockCode Desc 阅读全文
posted @ 2020-08-18 15:41 hehe哒 阅读(687) 评论(0) 推荐(0) 编辑
摘要: 第3章 特征增强:清洗数据 主要内容: 识别数据中的缺失值; 删除有害数据; 输入(填充)缺失值; 对数据进行归一化/标准化; 构建新特征; 手动或自动选择(移除)特征; 使用数学矩阵计算将数据集转换到不同的维度。 3.1 识别数据中的缺失值 查看数据集中是否有数据点是空的,用pandas data 阅读全文
posted @ 2020-04-09 17:06 hehe哒 阅读(966) 评论(0) 推荐(0) 编辑
摘要: 第2章 特征理解:我们的数据集里有什么? 主要内容: 结构化数据和非结构化数据 定量数据与定性数据 数据的4个等级 探索性数据分析和数据可视化 描述性统计 2.1 数据结构的有无 结构化数据:可以分成观察值和特征数据,一般以表格的形式组织(行是观察值。列是特征)。 非结构化数据:作为自由流动的实体, 阅读全文
posted @ 2020-04-09 14:41 hehe哒 阅读(303) 评论(0) 推荐(0) 编辑
摘要: 第一章 特征工程简介 1.1 激动人心的例子:AI驱动的聊天 请求表示最终用户输入客服聊天框的内容;回复则表示客服对所收到消息的回复。 1.2 特征工程的重要性 准备数据:概念是比较模糊的,包括捕获数据、存储数据、清洗数据等等。清洗数据就是将数据转换为云系统和数据库可以轻松识别的形式。组织数据更为彻 阅读全文
posted @ 2020-04-09 11:21 hehe哒 阅读(551) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2020-04-05 22:24 hehe哒 阅读(159) 评论(0) 推荐(0) 编辑
摘要: 1、匹配单个字符 . 匹配任意一个字符(除了\n) [ ] 匹配[]中列举的字符 \d 匹配数字0-9 \D 匹配非数字,即为不是数字 \s 匹配空白,即空格 \t tab键 \n换行 \S 匹配非空白 \w 匹配单词字符 a-z、A-Z、0-9、_(下划线) \W 匹配非单词字符 2、匹配多个字符 阅读全文
posted @ 2020-04-05 10:34 hehe哒 阅读(6104) 评论(0) 推荐(0) 编辑
摘要: 1、复制 cp cp 源文件路径 目标文件路径 选项 -i 交互 -v 显示过程(可视化) -a 保持所有属性 -f 覆盖不提示 -r 若是路径则需要递归 2、mv 移动/重命名 (移动后源位置将没有) mv 源路径 目标路径 3、 文件创建 touch 4、目录创建 mkdir 5、编辑 gedi 阅读全文
posted @ 2020-04-01 21:51 hehe哒 阅读(128) 评论(0) 推荐(0) 编辑