工资分配与数据挖掘

摘要

工资总额分配是与企业人力资源战略紧密联系的管理要素。企业的工资总额对一个企业的未来发展至关重要,本文以2018年26个省市分公司年运营的统计数据作为研究对象,在合理假设的基础上,综合考虑国企对各省市分公司工资分配的影响因素,通过建立合理的模型;对公司工资分配问题进行了分析。
针对问题一,题目给出的附件一可以看出,影响各省份的分公司年运营因素主要有:地区差异、收入与成本规模、收益三大项。可再细分为:地域人口,城乡人均消费支出,城镇居民收入,业务总收入等十六小项。也许是因为以上特征,导致各省份分公司所分配的工资总额受到影响,要想挑出主要的影响特征。我们可以分析因变量(计划工资)和每一个自变量的相关性。采用matlab可视化的方法绘制因变量和单一自变量的函数图像,人为去掉和计划工资相关性微弱的特征因素。初步筛选出较为重要的,作为影响工资分配的主要因素。
针对问题二,根据问题一得到的重要特征,进行相关性检验,根据其相关性判断特征之间是否存在多重共线性,采用逐步回归方法消除多重共线性,并对单一重要特征做回归分析,根据可决系数确定各重要特征的影响力大小,进行t检验,最终确定重要影响特征。
根据总成本和人事成本费用率计算总的人工成本,再乘以一定比例得到各公司的实际工资。根据实际工资和重要特征建立逐步回归模型,再将2018年各分公司的重要特征数值带入模型,计算出一个预测值并且得到一个置信区间,根据2018年初的计划工资是否在置信区间的偏差比例判断计划工资分配是否合理。
问题三,根据问题二得到的回归模型 更改2018年初的计划工资分配,根据重要特征的影响力大小和重要特征的数值说明更改的合理性。
本文中所使用的算法特色在于采用数据可视化,相关性检验,student t检验,逐步回归多方面挖掘数据项之间的关联信息,经过相关性检验后,t检验和逐步回归的复杂度将大大下降,模型复杂度相对较低,可在数据挖掘领域推广运用。

关键词:工资分配 数据可视化 相关性检验 变量的显著性检验 回归分析

一、问题重述

1.1 背景资料

国企公司对分公司的工资分配机制,是一个公司未来发展极为重要的因素,有助于企业实现战略目标、改善经营绩效、提高市场竞争力和加强企业文化。所以,如何建立一套科学、合理的工资总额分配方案,对国有企业来说是一个全新而重大的课题。
现有某国有企业,总公司拟对26个省市分公司进行工资总额分配,即,该国企2018年计划在26个省市分公司分配工资总计360余亿元人民币(附件2),那么每个省市分公司应该怎样分配才能保证工资总额分配是合理的?当然,该国企总公司为了在26个省市分公司科学配置工资总额,促进企业经营发展、提高管理水平、提升竞争能力,应该综合考虑各省市的地区差异、收入与成本规模和收益等因素。
总公司一般在年初制定本年度各省市分公司的工资总额分配方案,年底根据本年度各省市分公司的实际运营情况进行微调,进而制定下一年度的分配方案,例如:2018年初,根据2017年各省市分公司的实际运营情况制定2018年分配方案,并加以执行;2018年底,根据2018年各省市分公司的实际运营情况,判定2018年初制定的工资总额分配是否合理,从而对2018年制定的分配方案进行微调,并据此制定并执行2019年的分配方案。

1.2 问题提出

请根据相关数据,回答以下问题:
问题一:分析26个省市各分公司所分配的工资总额主要受哪些因素影响?
问题二:建立数学模型,评价2018年初制定的省市分公司工资总额分配是否合理。
问题三:建立数学模型, 调整2018年初省市分公司工资总额合理分配方案,并给出调整后的合理性说明。

二、问题分析

该题目意在分析国企对各省分公司分配的工资总额受哪些因素的影响,综合分析该国企在2018年所下拨的工资总额是否合理,并对该分配合理性做出评价,提出建设性意见,并进行验证。

第一问中,首先需要对附件一和附件二的内容进行理解,挖掘其中的重要数据,来作为影响分公司工资总额的主要因素。我们想到了对附件一中每一个影响因素和附件二中的计划分配工资的相关性进行分析,利用matlab软件对其特征进行可视化处理,可以很直观的看出每一个影响因素的散点图,分析其相关度,来作为确定重要因素的根据。需要注意一点的是,先做线性回归的模型考虑到利用相关性判断特征间也许存在多重共线性,将第一问筛选出来的重要因素进行相关性检验,需要消除多重共线性,分析所有特征与计划工资的相关系数,进行t检验,最终做进一步的筛选。

第二问,利用逐步回归来消除多重共线性,剔除有很强相关性的特征,提高准确率。根据重要特征和实际工资利用matlab作多元回归,得到回归模型。用类似方法再做一个非线性的模型,通过对比保留更好的模型。通过建立建模进行预测,有五个城市模型预测值相差比例较大,得出结论:计划工资分配不合理。

第三问,利用第二问的方法,计算结果,来更改下一年的工资总额分配,利用其主要影响因素,来综合分析其调整原因。

三、基本假设

为简化问题,做出如下合理假设:
(1)各分公司前后两年的员工人数不变;
(2)2018年各分公司的实际运营状况与2017年相差不大;
(3)假设各分公司员工得到的实际工资在人工成本中的占比相同,均为58.7%;
(4)各分公司的工资分配只可能受受表格中给出的特征影响,不考虑其他的因素;
(5)附件1中有两项数据确实,由于缺失量非常少,忽略掉这两项对整体的影响;

四、符号说明

在这里插入图片描述

五、模型建立与求解

5.1 问题一:筛选重要特征

5.1.1 对附件一中的影响因素进行筛选

筛选重要特征,本质上是挖掘自变量与因变量的关系,第一步采用matlab可视化,将单一特征和计划分配工资以散点图的形式呈现。比如:
此处以地域人口和2018年计划工资分配为例,构成(地域人口,计划工资分配)二元组,地域人口为横坐标,计划工资分配为纵坐标,一个二元组视为二维平面的一个点,然后会得到一个(地域人口,计划工资分配)的散点图(见图5-1),可以看出地域人口和计划工资分配是有一定关系的。 对每一个特征都进行这样的散点图可视化,最后人为的筛掉一部分和计划工资关联较弱的特征,得到初步的重要特征。
在这里插入图片描述

                                      图5-1 计划工资分配随地域人口数量散点图

5.1.2 问题一求解

Step1:利用matlab可视化处理,附件一中的影响因素散点图如下所示(部分):      

在这里插入图片描述

                                       城乡居民人均收入(见图5-2):

城乡人均消费支出(见图5-3):
在这里插入图片描述

                                         图5-3 计划工资分配随城乡人均消费支出

完整影响因素的散点图请查看附录一
·综上所述,通过分析散点图,明显具有相关性的为:
地域人口、城镇居民数、城镇居民收入、GDP、业务总收入、业务总成本、生产用固定资产、劳动生产率。

Step2:相关性分析

由于不确定变量之间是否存在多重共线性,则需要对问题一初步筛选出来的特征进行相关性分析(如果特征之间存在很强的相关性,那么模型是可以剔除一部分特征的,否则会影响模型准确率)。
·相关性分析:相关分析是研究两个或两个以上处于同等地位的随机变量间的相关关系的统计分析方法。例如,人的身高和体重之间;空气中相对湿度与降雨量之间的相关关系都是相关分析研究的问题。[1]
·最终目的:检验初步筛选出来的特征之间是否有很强的相关性,以便于后面相应的回归方法。

Step3:

通过分析所有因素的相关系数,进行进一步的筛选,所有因素的相关系数表请查看(附录3)。我们对相关系数大于0.8的因素分别对计划工资进行一元回归,判断影响力最大的因素。
Eg:地域人口对计划工资的影响:

假设方程:在这里插入图片描述

通过eviews 软件运行结果如下(表 5-1):
在这里插入图片描述

Step4:

如上表所示,其中可决系数(R-squared)为0.706903,说明回归模型中工资总额总离差中,人口的离差解释部分占70.69%;
假设H0:β0 = 0 假设H1:β0 ≠ 0根据回归结果可知β0的t统计量为7.608173,查表(附录)可知t(0.005)(24) = 3.104<7.60813,说明解释变量在1%的显著性水平下,拒绝原假设H0 ,通过显著性检验。

Step5:

由上述方法,得出以下数据:
在这里插入图片描述

5.1.3 问题一结论

综合上述可以得出26个省市各分公司所分配的工资总额主要受到的因素影响为:城镇居民数、城镇居民收入、业务总收入、业务总成本、生产用固定资产。

5.2 问题二:建立模型求解

5.2.1 多元线性模型

多重共线性:多重共线性是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。一般来说,由于经济数据的限制使得模型设计不当,导致设计矩阵中解释变量间存在普遍的相关关系。完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。

Step1:

针对于第二小问,我们的目的是得到应分配工资和重要特征之间的多元线性模型,类似于机器学习里面的监督学习。则需要目标变量,这里以2018年各分公司的实际工资作为目标变量。
已知人事成本费用率(β),通过查询资料得知总成本中包含了员工工资;

                           人事成本费用率=人工成本总额/总收入*100%					   	 (5.2)

人工成本总额包括了员工总工资,占比一般为58.7%(根据见附录3图9-17,从业人员报酬占从业人员平均人工成本的58.7%) 则:

                                  实际工资=人工成本总额*0.587		                     (5.3)

·计算得到的实际工资数据为:
在这里插入图片描述
如上表格5-3可以看出,对比实际需要工资与分配的工资总额,总体误差不大,可以验证我们选取的实际工资计算公式是比较合理的。

Step2:

由上述公式计算出实际工资,对经过了两次筛选的每一个特征,单独做一元线性回归,根据可决系数确定对目标变量影响力最大的特征。
根据可决系数最终确定主要特征,然后用实际工资作为目标值,主要特征作为变量,结合附件1数据

用matlab做多元线性回归和多元非线性回归,将两种方法进行对比,最终得到回归模型。

·可决系数:亦称测定系数、决定系数、可决指数。与复相关系数类似的,表示一个随机变量与多个随机变量关系的数字特征,用来反映回归模型,来说明因变量变化可靠程度的一个统计指标,一般用符号“R”表示,可定义为已被模式中全部自变量说明的自变量的变差对自变量总变差的比值。[1]

Step3:

最后使用Student t检验,将附件1的每一行重要特征带入回归模型,以一定的错误接受率得到一个置信区间,观察对应的计划工资和其对应的置信区间的偏差值来判断计划分配工资是否合理。

·t检验:亦称student t检验(Student's t test),主要用于样本含量较小(例如n < 30),总体标准差σ未知的正态分布。t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著,t检验计算过程经过翻阅资料,证明材料请查看(附录3 图9-18)。

5.2.1 模型的建立与求解:

1.建立多元线性模型,设实际工资和主要特征之间的函数为:(使用线性多元回归)

在这里插入图片描述
同时观察散点图发现可能存在非线性的影响因素:人均收入、人均消费、成本费用率;
加入影响因素更改方程:
在这里插入图片描述

       注:将非线性方程转换成线性方程再进行拟合,经过检验,非线性方程拟合要比非
       线 性转化为线性方程拟合误差更大。还有一个原因是,做非线性回归的时,我们要
       在拟合前设置初始值,而初始值的选择直接影响后面系数的确定,若改变初始值,拟合出来的系数都将发生变化,这样也会增加非线性回归产生的误差,前面说的误差是计
       算上产生的误差,而这里是人为经验上产生的误差。因此在做非线性回归时,可尝
       试转换为线性回归来完成。

2.令:

在这里插入图片描述
·非线性函数转换为线性函数:

在这里插入图片描述
检验解释变量间的相关系数如下图:

在这里插入图片描述

                         图5-4 解释变量间的相关系数图   

由图可知,有几个解释变量间的相关系数大于0.94,甚至达到了0.99,可由此表明存在多重共线性。

4.看作线性,进行逐步回归,需要考虑多重共线性:
在这里插入图片描述

在逐步回归的过程中,再考虑非线性(由于将非线性因素变换为了线性因素,所以计算方法与线性模型相同)的情况下,模型综合来看拟合程度最好的是:

在这里插入图片描述
综上所述,可得最主要的特征为TCOST、PRODUCTIONASSETS,COST;

5.转换成非线性回归模型应为:

在这里插入图片描述

总结:
线性模型对数据的拟合程度达到98%,非线性模型对数据的拟合程度达到99%;
但是线性模型能够通过99%的t检验,但是非线性模型只能通过85%的t检验;
对比线性与非线性模型,在拟合程度相差很小的情况下,线性模型更可信,选取线性模型做预测分析。

6.置信区间(此处开始t检验部分)
(过程方法详见附录3 图9-19)

Step1:

令1,TCOST,PRODUCTIONASSETS,组成的矩阵为X
X0 = [1 505348 18.6240186215331]

在这里插入图片描述
在这里插入图片描述

在99.9%的信度下,临界值t(0.005)(23) = 3.768
根据回归结果

σ= 7811.860

计算可得工资的置信区间如表5-5:

在这里插入图片描述

Step2:由上表格数据做出示意图:

在这里插入图片描述

       图5-5 线性模型预测值,置信区间的最大值,最小值,计划工资变化图注:
       1-26按照附件1给出的省份顺序依次表示北京,天津,河北,山西…… 

·总结:根据曲线图比较可知计划工资分配和模型预测值偏差较大的省份有:江苏(9),浙江(10),山东(13),湖南(16),四川(20),且相差比例较大,故计划工资分配不合理。

5.2.2 问题二过程

1.根据相关性分析确定主要特征之间是否存在多重共线性;
2.计算实际工资;
3.根据实际工资,对每个特征作一元线性回归,计算可决系数,根据可决系数筛选最重要的几个特征;
4.根据重要特征和实际工资利用matlab作多元回归,得到回归模型;
5.根据回归模型的置信区间判定计划工资分配是否合理。

5.3 问题三:

根据问题二得到的模型计算结果,更改计划工资分配。因为与预测工资主要受业务总成本,生产用固定资产,人均消费影响,主要从这三方面分析计划工资调整原因:
·江苏计划工资应至少减少68467万元,占计划工资19.6%;
由于计划工资下调较大,三个主要因素影响最大的是业务总成本(TCOST) ,可能是由于业务总成本下降过多导致实际工资的下滑
·浙江计划工资至少减少79108万元,占计划工资28%
计划工资下调幅度过大,可能是业务总成本和生产用固定资产均出现大幅度下滑
·山东计划工资应至少减少33494万元 占计划工资13.7%
下调比例不大,可能是生产用固定资产出现一定幅度的下降
·湖南计划工资应至少减少80178万元,占计划工资20.8%
下降幅度过大,可能是业务总成本下降过多引起的
·四川计划工资应至少减少 56858万元,占比26%
下调幅度过大,可能是业务总成本和成产用固定资产下降过多

posted @ 2020-09-01 15:12  罗斯柴尔德  阅读(1409)  评论(0编辑  收藏  举报