面试--搜狗网页研究组

1.STL hash_map

2.socket

3.网页抓取原理(http协议)

4.linux

grep/top/kill/vi/gdb

5.推荐系统

协同过滤算法

6.数据挖掘

关联规则/分类/聚类

朴素贝叶斯

特征提取

信息熵

TF-IDF

7.项目一起搜索

8.10亿个整数,内存1G,找出中位数

9.5亿条查询,如何找出top-N

posted @ 2013-07-03 21:17  路过你的苦  阅读(181)  评论(0)    收藏  举报