一个基本的AI建模议题：分类的标签(Label)设定 - SmartADT

一个基本的AI建模议题：分类的标签设定

by 高焕堂

<<议题>>

为什么在多类别的分类时，其标签(Label)值要设定像[0,0,1]、[0,1,0]、[1,0,0]这样的格式呢?

<<观摩范例>>

例如，针对104网页上的工作机会，如果只取一个特征(如<钱多>)来作为判断(即分类)的依据，而进行分类，分为<喜欢>与<不喜欢>两类。使用Excel表达如下：

因为分为两类，所以就设定两个Label值：[10]和[01]。这里的[10]就代表数学的阵列[1,0]的意思。

以此类推，如果分为3类，如下：

这是根据两个特征(性别和学历)而进行分类，将其分为3类：男、女、漂亮博士。所以就设定3个Label值：[100]、[010]和[001]。这里的[100]就代表数学的阵列[1,0,0]的意思。以此类推，再看看这个例子：

这个范例是参考Donald J. Norris所写的〝Raspberry Pi Python Prolog〞一书的范例。只利用几条直线线段来呈现0到9等十位数字。例如下图：

透过五条线段的组合，可以组合出<0>、<1>、<2>与<3>阿拉伯数字，如下：

人们很容易就能辨识出来，那么我们如何去训练AI机器，让它具有智慧，也能迅速辨别出来呢? 本章就透过这范例，让您来观摩一下啰。其中，最后一个看起来很像数字<6>，在本范例里刻意也将它视为数字<0>。这个模型经过训练之后，将能辨别<0>、<1>、<2>与<3>共四个阿拉伯数字。也就是分为4类。于是设定其Label值如下：