变量描述性统计
在进行经济现象的研究中,我们对两个变量或两个以上的变量之间的关系更感兴趣。(定性—定性)变量的描述统计分析就是当两个或两个以上的变量均为定性变量时,应用描述统计分析方法考察两个变量的关系。我们可以用 tab 命令,添加 row 选项可以显示百分比,添加 chi2 命令可以进行卡方检验。下表考察不同性别的受教育程度分布差异及并卡方检。从结果中可以看出,在初中教育水平上(文化程度为 3 以上)的占比中,男性一直高于女性。卡方检验也表明两类个体具有显著差异。
. *定性——定性变量描述统计
. tab gender edu,row chi2 //不同性别的受教育程度分布差异,并卡方检验
+----------------+
| Key |
|----------------|
| frequency |
| row percentage |
+----------------+
RECODE of |
a2003 |
((新样 |
本)家 |
庭成员 | 家庭成员的文化程度
性别) | 1 2 3 4 5 6 7 8 9 | Total
--------+--------------------------------------------------------+-------------------------
0 | 8,944 12,401 15,660 7,176 3,052 3,966 4,690 419 49 | 56,357
| 15.87 22.00 27.79 12.73 5.42 7.04 8.32 0.74 0.09 | 100.00
--------+--------------------------------------------------------+-------------------------
1 | 3,606 11,371 18,969 8,779 3,316 4,490 5,454 479 108 | 56,572
| 6.37 20.10 33.53 15.52 5.86 7.94 9.64 0.85 0.19 | 100.00
--------+--------------------------------------------------------+-------------------------
Total | 12,550 23,772 34,629 15,955 6,368 8,456 10,144 898 157 | 112,929
| 11.11 21.05 30.66 14.13 5.64 7.49 8.98 0.80 0.14 | 100.00
Pearson chi2(8) = 2.9e+03 Pr = 0.000
我们还可以进行更加多维度的频次分析。可以考察不同性别、教育程度在工作单位性质的区别。总体而言,无论性别如何,受教育程度越高,进入国企的比率越大。
. by gender, sort:tab edu department,row //不同性别、教育程度在工作单位性质的区别
-----------------------------------------------------
-> gender = 0
+----------------+
| Key |
|----------------|
| frequency |
| row percentage |
+----------------+
| RECODE of a3014a
家庭成 | (家庭成员工作
员的文 | 单位的类型)
化程度 | 0 1 | Total
-----------+----------------------+----------
1 | 365 40 | 405
| 90.12 9.88 | 100.00
-----------+----------------------+----------
2 | 1,525 180 | 1,705
| 89.44 10.56 | 100.00
-----------+----------------------+----------
3 | 3,252 660 | 3,912
| 83.13 16.87 | 100.00
-----------+----------------------+----------
4 | 1,244 530 | 1,774
| 70.12 29.88 | 100.00
-----------+----------------------+----------
5 | 737 459 | 1,196
| 61.62 38.38 | 100.00
-----------+----------------------+----------
6 | 1,116 1,045 | 2,161
| 51.64 48.36 | 100.00
-----------+----------------------+----------
7 | 1,059 1,606 | 2,665
| 39.74 60.26 | 100.00
-----------+----------------------+----------
8 | 86 201 | 287
| 29.97 70.03 | 100.00
-----------+----------------------+----------
9 | 6 27 | 33
| 18.18 81.82 | 100.00
-----------+----------------------+----------
Total | 9,390 4,748 | 14,138
| 66.42 33.58 | 100.00
-----------------------------------------------------
-> gender = 1
+----------------+
| Key |
|----------------|
| frequency |
| row percentage |
+----------------+
| RECODE of a3014a
家庭成 | (家庭成员工作
员的文 | 单位的类型)
化程度 | 0 1 | Total
-----------+----------------------+----------
1 | 294 37 | 331
| 88.82 11.18 | 100.00
-----------+----------------------+----------
2 | 2,274 276 | 2,550
| 89.18 10.82 | 100.00
-----------+----------------------+----------
3 | 5,901 1,270 | 7,171
| 82.29 17.71 | 100.00
-----------+----------------------+----------
4 | 2,133 1,217 | 3,350
| 63.67 36.33 | 100.00
-----------+----------------------+----------
5 | 985 654 | 1,639
| 60.10 39.90 | 100.00
-----------+----------------------+----------
6 | 1,235 1,408 | 2,643
| 46.73 53.27 | 100.00
-----------+----------------------+----------
7 | 1,173 1,901 | 3,074
| 38.16 61.84 | 100.00
-----------+----------------------+----------
8 | 84 235 | 319
| 26.33 73.67 | 100.00
-----------+----------------------+----------
9 | 8 70 | 78
| 10.26 89.74 | 100.00
-----------+----------------------+----------
Total | 14,087 7,068 | 21,155
| 66.59 33.41 | 100.00
定性—定量)变量描述性统计
当一个变量是定性变量,一个变量为定量变量时,考察二者的关系就是(定性—定量)描述性统计分析。具体而言,即分组变量是定性变量时,要描述的变量是定量变量。我们可以用 tabstat 命令,通常需要加两个选项,一个是 by()选项,界定分组变量;另一个是 statistics ()可以加上需要报告的统计量。例如 mean (平均值)、p50 (中位数)等。下表考察了不同性别的收入、标准差、中位数、最大值和最小值。可以看出男性的平均收入要高于女性,标准差也较女性高。
. *定性——定量变量描述统计
. tabstat income,by(gender) statistics(mean sd p50 max min) //不同性别收入
Summary for variables: income
by categories of: gender (RECODE of a2003 ((新样本)家庭成员性别))
gender | mean sd p50 max min
---------+--------------------------------------------------
0 | 26641.69 22954.32 22000 209999.9 -8000.007
1 | 32493.44 27502.74 26597.04 229999.9 -20000
---------+--------------------------------------------------
Total | 30119.07 25913.57 24000 229999.9 -20000
------------------------------------------------------------
下表表示不同教育程度的平均收入差异。结果显示,随着教育程度提高,平均收入也相应提高。但收入差异(标准差)在硕士学历中最大(教育程度为 8 的个体中)。
. tabstat income,by(edu) statistics(mean sd) //不同教育程度的平均收入
Summary for variables: income
by categories of: edu (家庭成员的文化程度)
edu | mean sd
---------+--------------------
1 | 16622.82 14846.1
2 | 22053.84 17984.86
3 | 25752.82 19361.01
4 | 28169.85 21516.89
5 | 29786.09 23356.15
6 | 36311.05 27473.99
7 | 47925.91 37661.57
8 | 69558.22 49129.55
9 | 85211.61 44959.43
---------+--------------------
Total | 30185.23 25950.62
------------------------------
. log close //关闭 log 文件
name: <unnamed>
log: E:\CHFS\Logfiles\Stata连享会_CHFS数据处理.log
log type: text
closed on: 3 Jun 2021, 21:12:49
--------------------------------------------------------------