2011 年 11月 9 日随笔档案 - 张朝阳讲go语言

2011年11月9日

摘要：计算每个特征项的权重时使用公式：上式是对于训练集，而对于测试集，我直接使用：对于训练集，TF和DF都在已经生成的word-doc矩阵中；对于测试集，TF需要另外数一下。对于文档中的一个词，我们首先要判断它是否是特征项，所以首先要把特征项放到一个HashSet中，这是可行的，因为所有特征项也就几千个。同时我们还要快速地从word-doc矩阵中找到该词对应的那一行。当特征项选定后，word-doc矩阵中那些非特征项对应的行就是没用的，所以我们可以对word-doc矩阵进行裁剪：View Code #/usr/bin/perl$bt=time;%hash_all_features=();my $fe 阅读全文

posted @ 2011-11-09 19:23 张朝阳讲go语言阅读(2315) 评论(0) 推荐(0)

张朝阳讲go语言

Technologies come and technologies go, but insight is forever.

公告