摘要: 果然又是一个悲剧的面试,不是上次笔试的悲剧,这次又以面试的悲剧结束。设计的主要问题是毕业设计的搜索引擎的设计,设计到问题为什么爬去和索引效率为什么会这么低?这个问题还真是不太清楚,因为这个问题本来就是利用Nutch的框架,我们当中只是实现了其中的一些插件,然而我们插件会输出一些东西。我感觉最耽误时间的就是那个贝叶斯分类器了,但是当问到贝叶斯分类器的时候,就彻底的完了,当时没有意识到我实际上说的是一个KNN分类器。 描述一下分类器的具体实现,我当时描述的是将文本和训练样本都进行分词,然后计算每个文本和样本的余弦夹角,然后选择距离最近的那一个类别作为我们标记的类别。有没有什么问题?当时没感觉... 阅读全文
posted @ 2013-03-14 10:49 weixliu 阅读(2884) 评论(5) 推荐(1) 编辑