聚类效果评估
聚类在数据挖掘领域有很多算法,到底哪个算法效果比较好,根据实际情况应该如何选择哪个算法,是数据分析应该要考虑的问题,简单来说也就是聚类效果评估。
假设一个集合有N篇文章
那么这个集合的集合对就有$$C{2 \choose N}=\frac{N(N-1)}{2}$$个集合对
- TP:同一类的文章被分到同一个簇
- TN:不同类的文章被分到不同簇
- FP:不同类的文章被分到同一个簇
- FN:同一类的文章被分到不同簇
Rand Index 度量的正确的百分比: $$ RI = \frac{TP+TN}{TP+FP+FN+TN} $$
\[TP+FP=C{2 \choose 6}+C{2 \choose 6}+C{2 \choose 6}=40
\]
\[TP=C{2 \choose 5}+C{2 \choose 4}+C{2 \choose 3} + C{2 \choose 2}=20
\]
因此,$$ FP=40-20=20 $$
同理,
\[FN+TN={1 \choose 6} \times {1 \choose 6} +{1 \choose 6} \times {1 \choose 5} +C{1 \choose 6} \times C{1 \choose 5} =96
\]
\[FN=C{1 \choose 5} \times C{1 \choose 3}+C{1 \choose 1} \times C{1 \choose 2}+C{1 \choose 1} \times C{1 \choose 4}+C{1 \choose 1} \times C{1 \choose 3}=24
\]
\[FP=96-24=72
\]
| 同簇| 不同簇
--------- | --------
同类 | TP = 20 | FN = 24
不同类 | FP = 20 | TN=72
\[\textbf{RI}=\frac{20+72}{20+20+24+72}\approx0.68
\]
\[\textbf{Precision}=\frac{TP}{TP+FP}
\]
\[\textbf{Recall}=\frac{TP}{TP+FN}
\]
-
\[\beta>1 \]
-
\[\textbf{F}_\beta=\frac{ (\beta^2+1) \times Recall\times Precision}{ \beta^2 \times Precision+Recall} \]
\[Precision=\frac{20}{20+20}=0.5
\]
\[Recall=\frac{20}{20+24} \approx 0.455
\]
\[F_1=\frac{ 2 \times 0.455 \times 0.5}{0.455 + 0.5} \approx 0.48
\]
业精于勤荒于嬉,行成于思而毁于随