Percentile

  P_m = L + \frac{\frac{m}{100} \times N - F_b}{f} \times i

  P_m = U - \frac{N(1-\frac{m}{100}) - F_a}{f} \times i

  其中,Pm——第m百分位数;

  L——Pm所在组的组实下限;

  U——Pm所在组的组实上限;

  f——Pm所在组的次数

  Fb——小于L的累积次数;

  Fa——大于U的累积次数。

  【例1】某省某年公务员考试考生分数分布如下表所示,预定取考分居前15%的考生进行面试选拔,请划定面试分数线。

 

分数分组次数向上累积次数向下累积次数向上累积相对次数
95~99 7 1640 7 100%
90~94 16 1633 23 99.57%
85~89 53 1617 76 98.60%
80~84 78 1564 154 95.37%
75~79 90 1486 244 90.61%
70~74 119 l396 363 85.12%
65~69 159 1277 522 77.87%
60~64 156 1118 678 68.17%
55~59 140 962 818 58.66%
50~54 145 822 963 50.12%
45~49 140 677 1103 41.28%
40~44 135 537 1238 32.74%
35~39 130 402 1368 24.51%
30~34 126 272 1494 16.59%
25~29 78 146 1572 8.90%
20~24 25 68 1597 4.15%
15~19 20 43 1617 2.62%
10~14 16 23 1633 1.40%
5~9 7 7 1640 0.43%

  解:由于预定取考分居前15%的考生进行面试,即有85%的考生分数低于划定的分数线,由此可知,分数线在70~74这一组中。

  P_{85} = L + \frac{\frac{m}{100} \times N - F_b}{f} \times i = 69.5 + \frac{\frac{85}{100} \times 1640 - 1277}{119} \times 5 = 74.4

  【例2】对于考试成绩的统计,如果您的成绩处在95的百分位数上,则意味着95%的参加考试者得到了和您一样的考分或还要低的考分,而不是您答对了95%的试题。也许您只答对了20%,即使如此,您取得的成绩也与95%的参加考试者一样好,或者比95%的参加考试者更好[2]

  【例3】假设想为退休存够钱。可创建一个包括所有不确定变量的模型,如投资年回报率、通货膨胀、退休时的开支等,得到概率分布的结果如下图所示,如果选择平均值,钱不够的概率就会有50%。所以选第90百分位数所对应的投资数,这样钱不够的概率将只有10%[2]

Image:正态分布的百分位数.jpg

 

 

 

我以例1为例来详细探讨一下。 首先要说明本词条中例1的解题计算是错误的! 其次不要被公式搞晕,公式是从概念中提炼出来的,理解了概念就明白了公式。反之,想从公式入手就比较抽象枯燥。

进入正题。 1.例1在现实应用中是什么意思呢? 其实就是1640个考生参加了公务员考试并取得有效成绩(最低分5分),如何计算出分数居考生总数前15%的考生的录取成绩呢? 也就是第85个百分位数的成绩,换句话说1640名考生中85%的人应当低于这个成绩。

2.理解表格的含义 1)分数分组(i,L,U) 考务人员将考试成绩按5分的差距(i)进行了分数分组,应该有100/5=20个组。 但是本例中显然去掉了最低一级“0~4”分这个组别,这是一个很好的例子。 一种可能是所有的考生都没有低于5分的,另一种可能是根本不考虑5分以下的。 在这列数据中包含了3个公式变量:i,L,U。 i:分数分组区间差; L:分数分组区间下限; U:分数分组区间上限。 这里有个重要问题要说明一下!每一个“分数分组”项中数据值的下限值就是该数据的值,而上限值应当是数值加1。 怎么理解这句话呢?以表中第二行记录“90~94”为例, 它代表的真正含义是90分(含)以上,95分(不含)以下成绩范围,而不是90~94分之间的成绩,否则94.5分往哪儿放? 忽略这一点,用第二个公式计算就无法得到正确的答案。

2)次数 (f,N) 次数即统计次数(f),在本例中可以理解为对应分数段的统计人数。 第一行数据表示95分(含)以上的考生一共7人; 第二行数据表示90分(含)以上、95分(不含)以下的考生一共为16人,以此类推。 所有各行次数累计的总和N,也就是统计总数。 本例中所有次数的总和N为1640人。

3)向上累积次数(Fb) 即从低分数段向高分数段依次将对应次数进行累加。 10分以下的7人;15分以下的7+16=23人;20分以下的23+20=43人......

4)向下累积次数(Fa) 即从高分数段向低分数段依次将对应次数进行累加。 95分以上的7人;90分以上的7+16=23人;85分以上的23+53=76人......

5)向上累积相对次数(m%) 即“向上累积次数”与总人数N的百分比,也就是百分位数。 例第四行数据“95.37%”的含义是:1564名考试成绩在85分以下,占全部1640名考生的95.37% 第六行的意思是85.12百分位数的考生成绩在75分以下,共有1396人。

3.如何计算 1)首先以例题中取前15%的考生为例进行计算。 两个公式都可以用,先以第一个公式进行计算。 前15%也就是找到第85(m)个百分位数,表格第五列中并没有85%这个数, 但是我们能够找到包含85%——第六行的“85.12%”,也就是寻找第一个大于85%的数据。 (如果我们想录取前5%的考生,找到的对应数据就是第四行的“95.37%”。) 那么在70分(L)和75分(U)之间我们到底要取多少分才能保证刷掉的人数正好占总人数的85%呢? 计算: a)总人数1640的85%是1394人;(m/100*N) b)70分以下的是1277人,1394-1277=117人。也就是从70~75分之间的这119人中还要刷掉117人。(m/100*N-Fb) c)这117人与该区间总人数119人的对应比重的分值=117/119*5=4.92。((m/100*N-Fb)/f*i) d)第85个百分位数对应分数=70+4.92=74.92分。(L+(m/100*N-Fb)/f*i) e)正确答案为录取成绩为74.92分。 用公式二进行检验: U=75,N=1640,m=85,Fa=244,f=119,i=5 P75=75-(1640*(1-85/100)-244)/119*5=74.92

2)假如我们只录取前5%的考生,即计算出第95个百分位所对应的成绩。 找到第四行数据,获得L=80, m=95, N=1640, Fb=1486, f=78, i=5 P95=80+(95/100*1640-1486)/78*5=84.62

4.补充说明 其实我们计算出来的数值只是参考数值。如本例录取前15%成绩的246人中,244人肯定高于录取成绩74.92分,另外2人是否能达到这个成绩就不好说。 这也从另一个侧面说明了i取值大小的意义了。取值越大计算误差越大,但是统计工作量越小;取值越小则反之。

 

 

Reference: https://wiki.mbalib.com/wiki/%E7%99%BE%E5%88%86%E4%BD%8D%E6%95%B0

                   https://en.wikipedia.org/wiki/Percentile

posted @ 2020-09-03 10:40  Daniel.L  阅读(463)  评论(0)    收藏  举报