随笔分类 -  搜索引擎

爱谷歌,爱搜索;一起搜索,一起成长。
摘要:1.STL hash_map2.socket3.网页抓取原理(http协议)4.linuxgrep/top/kill/vi/gdb5.推荐系统协同过滤算法6.数据挖掘关联规则/分类/聚类朴素贝叶斯特征提取信息熵TF-IDF7.项目一起搜索8.10亿个整数,内存1G,找出中位数9.5亿条查询,如何找出top-N 阅读全文
posted @ 2013-07-03 21:17 路过你的苦 阅读(181) 评论(0) 推荐(0)
摘要:1.树的遍历深度、广度、前中后序2.linuxVIM:文本编辑器;AWK:awk '{pattern + action}' 或者 awk 'pattern {action}';一种编程语言,因其模式匹配语法而特别有用,通常用于数据检索和数据转换;一行分成数段操作。GREP:从结果中选取内容,cut;sed:sed[options]'command'file(s),sed[options]-fscriptfilefile(s) ;整行操作。3.项目(1)内容抽取(文章抽取[起止标签]、自动摘要[替换标签,取前500])(2)索引(中文二级hash+ 阅读全文
posted @ 2013-07-02 15:44 路过你的苦 阅读(615) 评论(0) 推荐(0)
摘要:1.有道作为网易自主研发的全新中文搜索引擎,有道搜索致力于为互联网用户提供更快更好的中文搜索服务。2006年底有道推出测试版,并于2007年12月11日推出正式版。目前有道搜索已推出的产品包括网页搜索、图片搜索、视频搜索、购物搜索、网易返现、有道购物助手、有道词典、有道手机词典、有道翻译、饭饭、有道云笔记、工具栏、网址导航、有道阅读、有道热闻等。伴随互联网在国内的蓬勃发展,中文网民仍有许多新兴的搜索需求和应用, 有道试图架设一条道路,以缩短问题与答案之间的距离,让用户更快找到,搜索体验之旅更畅快!有道搜索依托网易强大的产品服务平台和丰富的资源优势,吸纳了众多优秀的创新人才,现在已有500多位国 阅读全文
posted @ 2013-06-15 09:41 路过你的苦 阅读(274) 评论(0) 推荐(0)
摘要:1.服务器信息1.1.一起搜索架构信息爬虫系统(17spider):c++索引系统(17search):c++查询系统(17so):php网页存储:MYSQLWeb服务器:apacheLAMP+CPP1.2.一起搜索服务器配置CentOS+1.5G内存+80G硬盘+2M带宽+Nginx2.服务器搭建2.1 创建数据库信息表的细节不赘述,简单说下几个注意事项。(1)数据库字符集utf-8 选用utf-8,这是网页最常用的字符集,方便入库存储;网页内容字段,选用longtext,避免网页内容过长无法存储。 注意:由于抓取网页内容多种多样,插入数据库过程中不可避免有插入失败,初步解决方案是插入失败. 阅读全文
posted @ 2013-06-06 09:08 路过你的苦 阅读(242) 评论(0) 推荐(0)