搜索引擎 - 随笔分类 - oO脾气不坏Oo

菜鸟也想玩搜索引擎——爬虫部分技术要点浅析（补充）

摘要：时隔这么久，继续开写。本文系上一篇的补充：爬虫部分技术要点浅析。本次将主要讨论上次提出的后两个问题：如何处理抽取出来的Url。3、如何处理抽取出来的Url（爬取策略）？所谓爬取策略，就是网络爬虫从种子网址开始，应该按照怎样的顺序向下爬取。以下是几种典型的爬取策略（既然是浅析，这里只做介绍，想要深入了解请自行查阅资料）：（1）深度优先策略看到这个名词估计多数人立马都会明白，该策略的实现思路采用的是图的深度遍历。事实上当我们通常把网络看做一个图，网络中每个页面看做图中节点，这样在考虑遍历的问题时，很自然的就会使用图的遍历方法（其实也就是树的深度优先遍历）。看下图： ... 阅读全文

posted @ 2013-05-02 00:24 oO脾气不坏Oo 阅读(2541) 评论(6) 推荐(3)

菜鸟也想玩搜索引擎——爬虫部分技术要点浅析

摘要：本来打算昨晚发的，结果园子又迁移...... 网络爬虫（Spider或Crawler），顾名思义，就是在互联网上爬行的虫子，那么这只虫子为什么要在网上爬行呢？很简单：收集信息。在互联网时代，谁掌握了信息谁就把握了主动权。曾经我一直觉得做搜索的公司都是慈善家，他们自己花钱为大众服务，真是太高尚了，直到我知道谷歌每年大半的盈利来自广告，我才明白那句名言——互联网上最昂贵的东西就是免费，因为它能让你轻易的接受，却无法舍弃。（我想多数人离开了搜索引擎，将在网络上寸步难行）好吧，扯多了，我们先看下下图。我们可以很容易的看出，网络爬虫的根本任务就是从互联网抓取数据，存入数据库或本地文件系统以供使... 阅读全文

posted @ 2013-04-13 09:17 oO脾气不坏Oo 阅读(3403) 评论(5) 推荐(1)

菜鸟也想玩搜索引擎——JobSearch简介

摘要：这一篇将简要介绍一下JobSearch的结构，同时发下源码，来点干货，等过两天闲的时候将围绕这个程序简单介绍搜索引擎的各部分，同时谈谈个人的一些理解。程序写的比较简单，基础好的话很容易就能看懂（因为写的比较早，所以代码比较乱，还望各位勿喷啊）。 SVN地址：http://code.taobao.org/svn//jobsearch/trunk 源文件下载地址：http://files.cnblogs.com/good-temper/jobsearch.rar1、程序结构程序框架如下：（1）、爬虫从招聘网站通过列表页抓取招聘页面，将招聘信息解析出后存入数据库（... 阅读全文

posted @ 2013-04-10 01:04 oO脾气不坏Oo 阅读(2353) 评论(10) 推荐(3)

菜鸟也想玩搜索引擎——我与搜索可以不说的故事

摘要：1.1 缘于Java，源于爬虫这一段打算写一篇关于自己做的一个简单搜索引擎JobSearch（真的很简单，大牛路过即可），但请容我先扯会儿淡，酝酿酝酿情绪。若是一年之前你问我是搞什么的，我会毫不犹豫地告诉你我是个C#er，我从大一暑假接触到C#,之后的两年便使用C#开始了我的程序员生涯：我用她写了第一个网站；用她赚到了人生第一桶金；用她脱颖而出，获得老师的青睐，获得同学们的赞赏。虽然Java、C#、C++之争从未平息，但是我一直坚信无论哪门语言，只要学到精深一样能取得成就。或许没有意外我会一直学习C#（其实我更愿意说.net），大四早早的去实习，找一份C#的工作一直坚持下去。然而事... 阅读全文

posted @ 2013-04-08 22:23 oO脾气不坏Oo 阅读(1991) 评论(14) 推荐(7)

oO脾气不坏Oo

随笔分类 - 搜索引擎

公告