一 绪论
分析目的:分析拉勾网数据分析师招聘城市、行业、公司、薪资、发展、要求等。
数据来源:八爪鱼爬虫拉勾网数据分析师招聘。
主要结论:1 数据分析师招聘城市和行业分布
-招聘岗位最多的5个城市为:北京、上海、杭州、深圳、广州,总占比约90%;招聘岗位最多的6个行业依次为:移动互联网、金融、电商、数据服务、企业服务、o2o,总占比约94%。
2 招聘数量、平均薪资与公司规模的关系
-招聘岗位最多的公司类型依次为:不需要融资、上市公司、B、C、A、D轮,总占比94%;C轮平均薪资最高为18.5K。
3 薪资分布
-所有职位工资分布大致类似于正态分布,平均工资16.3K,中位数和众数为15K。
-工资与工作经验正相关。
-工资均值排名前三的行业依次是数据服务,金融,移动互联网;北京、上海、杭州平均薪资最高。
4 工作要求
- 82.5%的公司需要1-5年的工作经验,90%的公司需要本科及以上学历;需要掌握数据挖掘,spss等技能。
统一规范:某公司招聘工资范围为:(m~n)k,则该公司的招聘工资为工资上限与工资下限的平均值(m+n)k/2。
某工作经验的平均工资:某工作经验的工资和/某工作经验的公司数量。
某行业的平均工资:某行业工资和/某行业公司数。
二 数据分析
1 数据分析师招聘城市和行业分布
-北京、上海、杭州、深圳、广州,招聘人数依次减小,总占比约90%;
-移动互联网、金融、电商、数据服务、企业服务、o2o,招聘人数依次减小总占比约94%。

2 不同公司规模招聘数量、薪资。
-不需要融资、上市公司、B、C、A、D轮招聘数量依次减小,总占比94%;
-C轮平均薪资最高为18.5K。

3 工资与工作经验,行业,城市的关系
-所有岗位工资类似正态分布,工资均值16.3K,中位数和众数为15K。
-工资与工作经验正相关。
-工资均值排名前三的行业依次是数据服务,金融,移动互联网;
-平均薪资排名前三的城市依次为北京、上海、杭州。

4 学历、经验、技能要求
-82.5%的公司需要1-5年的工作经验,
-90%的公司需要本科及以上学历。
-成为合格的数据分析师需要掌握数据挖掘,SPSS,数据管理等技能,不同的公司所需技能不同。


附录数据清洗:
1 数据导入excel ,共有435行/10列,要求列中存在缺失值。

2 缺失值处理:缺失值存在于要求列,不同公司要求数量 不同,造成缺失值。此缺失值是客观存在的,不可以随意补全,故暂时不做处理。
3 trim()函数删除工作经验列的空格

4 删除重复值
a. 数据-删除重复项
b.subproduct函数,查找重复值,返回相同记录计数。如不重复则返回1。

5 数据分列:地区,工资,行业分列。
工资:value(left(len()-1))函数:把工资转化为数值型,average 取上下限的均值,作为公司工资。
学历要求:right(find())函数
经验:mid(find()) 函数
6要求合成一列
index函数:把要求合成一列。
或者导入mysql,使用union函数合并要求成一列,count ,group by 函数分类汇总。
