聚类效果评估

聚类在数据挖掘领域有很多算法,到底哪个算法效果比较好,根据实际情况应该如何选择哪个算法,是数据分析应该要考虑的问题,简单来说也就是聚类效果评估。


假设一个集合有N篇文章

那么这个集合的集合对就有$$C{2 \choose N}=\frac{N(N-1)}{2}$$个集合对

  • TP:同一类的文章被分到同一个簇
  • TN:不同类的文章被分到不同簇
  • FP:不同类的文章被分到同一个簇
  • FN:同一类的文章被分到不同簇

Rand Index 度量的正确的百分比: $$ RI = \frac{TP+TN}{TP+FP+FN+TN} $$

\[TP+FP=C{2 \choose 6}+C{2 \choose 6}+C{2 \choose 6}=40 \]

\[TP=C{2 \choose 5}+C{2 \choose 4}+C{2 \choose 3} + C{2 \choose 2}=20 \]

因此,$$ FP=40-20=20 $$
同理,

\[FN+TN={1 \choose 6} \times {1 \choose 6} +{1 \choose 6} \times {1 \choose 5} +C{1 \choose 6} \times C{1 \choose 5} =96 \]

\[FN=C{1 \choose 5} \times C{1 \choose 3}+C{1 \choose 1} \times C{1 \choose 2}+C{1 \choose 1} \times C{1 \choose 4}+C{1 \choose 1} \times C{1 \choose 3}=24 \]

\[FP=96-24=72 \]

  | 同簇| 不同簇
--------- | --------
同类 | TP = 20 | FN = 24
不同类 | FP = 20 | TN=72

\[\textbf{RI}=\frac{20+72}{20+20+24+72}\approx0.68 \]

\[\textbf{Precision}=\frac{TP}{TP+FP} \]

\[\textbf{Recall}=\frac{TP}{TP+FN} \]

  • \[\beta>1 \]

  • \[\textbf{F}_\beta=\frac{ (\beta^2+1) \times Recall\times Precision}{ \beta^2 \times Precision+Recall} \]

\[Precision=\frac{20}{20+20}=0.5 \]

\[Recall=\frac{20}{20+24} \approx 0.455 \]

\[F_1=\frac{ 2 \times 0.455 \times 0.5}{0.455 + 0.5} \approx 0.48 \]

posted @ 2015-05-03 22:22  ǒ咖啡杯ǒ  阅读(845)  评论(0)    收藏  举报