2019 年 9月随笔档案 - Jude_h

数据类型操作简单对比（R和Python）

摘要：一、R方面 R中类型：向量（vector）、数据框、矩阵、列表数据处理转换时：数值型num、因子（factor）、字符型等等 1）matrix feature：1、二维数组2、每个元素必须有相同的数据类型 create：对角矩阵：diag() # rep函数, rep(vector x, ... 阅读全文

posted @ 2019-09-28 07:44 Jude_h 阅读(1019) 评论(0) 推荐(0)

数据处理pandas

摘要：1、缺失值时间戳不为NaN，为NaT, 同样判断都为isna()或notna()方法2、删值\去重 3、上下值插值插值借助于函数实现，已知数据去求解位置数据的值，插值在数据分析领域非常常见，好处是可以尽量还原数据本身的样子线性插值的方法interpolate(),默认的线性插值的好处，在原数据阅读全文

posted @ 2019-09-28 07:12 Jude_h 阅读(359) 评论(0) 推荐(0)

爬虫爬取幽默笑话

摘要：爬取网站为：http://xiaohua.zol.com.cn/youmo/ 查看网页机构，爬取笑话内容时存在如下问题： 1、每页需要进入“查看更多”链接下面网页进行进一步爬取内容每页查看更多链接内容比较多，多任务进行，这里采用线程池的方式，可以有效地控制系统中并发线程的数量。避免当系统中包含有大量阅读全文

posted @ 2019-09-17 08:00 Jude_h 阅读(576) 评论(0) 推荐(0)

客户主题分析（tableau）—客户留存

摘要：客户留存分析（客户漏斗分析），关键在于找到影响客户留存的因素，设计场景测试，验证关键因素。即可以通过关键因素影响留存，从而重塑客户漏斗到更有价值的形状。案例：母婴产品客户留存分析数据结构： 1）构建用户注册日期对用户购买时间的条形图新增计算字段：购买点会员生命期（月）其计算公式为：销售日期和阅读全文

posted @ 2019-09-12 11:57 Jude_h 阅读(2348) 评论(0) 推荐(0)

数据库排名整理

摘要：1、编写一个 SQL 查询，获取 Employee 表中第二高的薪水（Salary）。 + + +| Id | Salary |+ + +| 1 | 100 || 2 | 200 || 3 | 300 |+ + +例如上述 Employee 表，SQL查询应该返回 200 作为第二高的薪水。如果不阅读全文

posted @ 2019-09-10 14:10 Jude_h 阅读(836) 评论(0) 推荐(0)

R分析实现对招聘网站薪资预测分析

摘要：1、首先确定数据分析目标——薪酬受哪些因素影响确定变量：因变量：薪资自变量：（定性）-- 公司类别、公司规模、地区、行业类别、学历要求、软件要求、（定量）-- 经验要求（数值型）分析目标：建立因变量和自变量的多元线性回归模型，估计模型系数，检验系数显著性，确定自变量是否对因变量有影响。并实阅读全文

posted @ 2019-09-09 09:27 Jude_h 阅读(2324) 评论(1) 推荐(0)

GUI(Graphical User Interface)

摘要：译：用户和图形界面 GUI与程序交互的不同方式，包含3基本要素：输入，处理和输出。常用GUI框架包括以下几种： wxPython Kivy Flexx PyQt Tkinter Pywin32 PyGTK pyui4win 熟悉PyQt框架：安装 pip install pyqt5 使用第三方工阅读全文

posted @ 2019-09-01 19:18 Jude_h 阅读(1448) 评论(0) 推荐(0)

tableau 和 R 的连接

摘要：1、安装R包Rserve 2、tableau帮助-管理外部服务连接，单击测试按钮出现成功连接即是通信成功。 3、创建新工作表，设置id字段，针对id记录数创建计算字段Rrand。将Rrand拖入行维度上id的后面，运算后会得到R返回的随机数。更高的要求：只有当R返回的记录数和输出的记录数相匹配时，阅读全文

posted @ 2019-09-01 08:59 Jude_h 阅读(475) 评论(0) 推荐(0)

09 2019 档案

公告