以前看过一篇识别导航类query的文章《Automatic Query Type Identification Based onClick Through Information》,总结如下:
导航类query : 点击和锚文本比较集中。利用这两个特征就可以使得导航类query识别准确率达到90%。
导航类query中,user的目标性很强,所以导航query下点击数很少,而信息类query,一个用户会同时点开很多网页。所以第一个feature就是点击量。
特征只有两个:

导航类query中,点击只集中在前面少数几条结果。所以看点击第一条结果外的比例有多少。

模型就是简单的线性加权就行了。
浙公网安备 33010602011771号