09 2019 档案

摘要:一、R方面 R中类型:向量(vector)、数据框、矩阵、列表 数据处理转换时:数值型num、因子(factor)、字符型等等 1)matrix feature:1、二维数组2、每个元素必须有相同的数据类型 create: 对角矩阵:diag() # rep函数, rep(vector x, ... 阅读全文
posted @ 2019-09-28 07:44 Jude_h 阅读(1019) 评论(0) 推荐(0)
摘要:1、缺失值时间戳不为NaN,为NaT, 同样判断都为isna()或notna()方法2、删值\去重 3、上下值插值 插值借助于函数实现,已知数据去求解位置数据的值,插值在数据分析领域非常常见,好处是可以尽量还原数据本身的样子 线性插值的方法interpolate(),默认的线性插值的好处,在 原数据 阅读全文
posted @ 2019-09-28 07:12 Jude_h 阅读(359) 评论(0) 推荐(0)
摘要:爬取网站为:http://xiaohua.zol.com.cn/youmo/ 查看网页机构,爬取笑话内容时存在如下问题: 1、每页需要进入“查看更多”链接下面网页进行进一步爬取内容每页查看更多链接内容比较多,多任务进行,这里采用线程池的方式,可以有效地控制系统中并发线程的数量。避免当系统中包含有大量 阅读全文
posted @ 2019-09-17 08:00 Jude_h 阅读(576) 评论(0) 推荐(0)
摘要:客户留存分析(客户漏斗分析),关键在于找到影响客户留存的因素,设计场景测试,验证关键因素。即可以通过关键因素影响留存,从而重塑客户漏斗到更有价值的形状。 案例:母婴产品客户留存分析 数据结构: 1)构建用户注册日期对用户购买时间的条形图 新增计算字段:购买点会员生命期(月) 其计算公式为:销售日期和 阅读全文
posted @ 2019-09-12 11:57 Jude_h 阅读(2348) 评论(0) 推荐(0)
摘要:1、编写一个 SQL 查询,获取 Employee 表中第二高的薪水(Salary) 。 + + +| Id | Salary |+ + +| 1 | 100 || 2 | 200 || 3 | 300 |+ + +例如上述 Employee 表,SQL查询应该返回 200 作为第二高的薪水。如果不 阅读全文
posted @ 2019-09-10 14:10 Jude_h 阅读(836) 评论(0) 推荐(0)
摘要:1、首先确定数据分析目标——薪酬受哪些因素影响 确定变量: 因变量:薪资 自变量:(定性)-- 公司类别、公司规模、地区、行业类别、学历要求、软件要求、 (定量)-- 经验要求(数值型) 分析目标:建立因变量和自变量的多元线性回归模型,估计模型系数,检验系数显著性,确定自变量是否对因变量有影响。并实 阅读全文
posted @ 2019-09-09 09:27 Jude_h 阅读(2324) 评论(1) 推荐(0)
摘要:译:用户和图形界面 GUI与程序交互的不同方式,包含3基本要素:输入,处理和输出。 常用GUI框架包括以下几种: wxPython Kivy Flexx PyQt Tkinter Pywin32 PyGTK pyui4win 熟悉PyQt框架: 安装 pip install pyqt5 使用第三方工 阅读全文
posted @ 2019-09-01 19:18 Jude_h 阅读(1448) 评论(0) 推荐(0)
摘要:1、安装R包Rserve 2、tableau帮助-管理外部服务连接,单击测试按钮出现成功连接即是通信成功。 3、创建新工作表,设置id字段,针对id记录数创建计算字段Rrand。将Rrand拖入行维度上id的后面,运算后会得到R返回的随机数。 更高的要求:只有当R返回的记录数和输出的记录数相匹配时, 阅读全文
posted @ 2019-09-01 08:59 Jude_h 阅读(475) 评论(0) 推荐(0)