阶段性总结--20130613

1.17搜索

17搜索基本框架已经搭好,从博客园、CSDN、月光博客收录的博文也越来越多,功能涵盖了基本的重要网页优先抓取、多线程抓取、间隔抓取、中断抓取、url查重、博文抽取、标题分词、倒排索引、查询、网页排名、自动摘要、页面翻转等,但在具体算法效率和可扩展性都还存在很多问题进步解决,下一步的重点主要还是放在服务器端,待完成的任务主要有重要关键词cache、线程池、DNS自动解析、压缩存储等,路还很长继续加油。

2.准备找工作

目标单位:北京大中型互联网公司。

2.1重点要读的书

重点是算法思想、底层原理、基础和常见的笔面题。

 算法分析与设计、数据结构、深入理解计算机系统(内存管理、进程调度)、深度理解C++对象模型、STL源码剖析、Effective c++、数据挖掘(关联规则、分类、聚类)、设计模式、剑指offer、编程之美、数学之美、程序员面试宝典、c++ primer、unix高级编程、unix网络编程、精通unix C语言编程与项目实践。

2.2次重点要读的书

继续不断完善17搜索。

信息检索实践、搜索引擎实践原理、解密搜索引擎技术实践、搜索引擎-核心技术详解等搜索相关书书籍。

2.2其它

主要是一些基础知识。

数据库、操作系统、网络。

推荐系统实践。

hadoop做两个实验:统计词数和url。

书挺多,虽然多数都看过或正在看,但任务还是蛮重,务必抓紧时间。

3.毕业论文

目前大致想法是基于聚类的协同过滤算法改进。

posted @ 2013-06-13 09:40  路过你的苦  阅读(156)  评论(2编辑  收藏  举报