摘要: 计算每个特征项的权重时使用公式:上式是对于训练集,而对于测试集,我直接使用:对于训练集,TF和DF都在已经生成的word-doc矩阵中;对于测试集,TF需要另外数一下。对于文档中的一个词,我们首先要判断它是否是特征项,所以首先要把特征项放到一个HashSet中,这是可行的,因为所有特征项也就几千个。同时我们还要快速地从word-doc矩阵中找到该词对应的那一行。当特征项选定后,word-doc矩阵中那些非特征项对应的行就是没用的,所以我们可以对word-doc矩阵进行裁剪:View Code #/usr/bin/perl$bt=time;%hash_all_features=();my $fe 阅读全文
posted @ 2011-11-09 19:23 张朝阳 阅读(2299) 评论(0) 推荐(0) 编辑