飛揚
--戒骄戒躁 虚心向上
垂直搜索引擎蜘蛛
本以为蜘蛛很简单,根据一个url,抓取到html内容,然后根据正则匹配数据入库.却发现,越看资料越复杂,蜘蛛应该根据抓取相似页面自动生成抓取模板,而且蜘蛛还要支持cookies和会自登录等多种协议.
页面解析方面,也不是简单的获得标题和内容那么简单,还要做dom解析,js解析,模拟浏览器的可视化抓取等等.
先从页面数据的抽取这方面入手研究吧.
posted on 2008-05-29 10:31
隨風.NET
阅读(66)
评论(0)
编辑
收藏
新用户注册
刷新评论列表
标题
姓名
主页
Email
(博主才能看到)
验证码
*
看不清,换一张
[
登录
][
注册
]
内容(请不要发表任何与政治相关的内容)
网站首页
新闻频道
社区
小组
博问
网摘
闪存
找找看
Remember Me?
登录
使用高级评论
新用户注册
返回页首
恢复上次提交
[使用Ctrl+Enter键可以直接提交]
"五向定位"职业成长路线公开课(上海、南京、大连)
Google站内搜索
相关文章:
垂直搜索引擎发展的几个方向
[zt]垂直搜索引擎深度分析
相关链接:
最新IT新闻:
MySpace推自助广告平台MyAds
Facebook创始人:信息共享或存摩尔定律
微软承认Vista用户账户控制功能有问题
资本寒冬侵袭中国视频网站 营销春天或不远
金融风暴波及全球创业板 中国概念股难独善其身
导航
博客园
首页
新随笔
联系
订阅
管理
公告
希望自己能静心写点blog,很多内容来自与互联网,如果没有添加来源,可能是忘记了,还请谅解
<
2008年5月
>
日
一
二
三
四
五
六
27
28
29
30
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
1
2
3
4
5
6
7
统计
随笔 - 31
文章 - 1
评论 - 30
引用 - 0
与我联系
发短消息
搜索
常用链接
我的随笔
我的空间
我的短信
我的评论
更多链接
我的文章
我的参与
我的新闻
最新评论
我的标签
留言簿
给我留言
查看留言
我管理的小组
垂直搜索研究
我参加的小组
LumaQQ.NET
程序员音乐空间
Lucene
搜索引擎
ASP.NET
博客程序开发
在线强迫症
我参与的团队
博客园创业者(0/49)
随笔分类
(5)
C#
(rss)
C++
(rss)
JavaScript
(rss)
Linq
(rss)
Lucene.Net(3)
(rss)
MVC(1)
(rss)
Sql2005
(rss)
设计模式(1)
(rss)
随笔档案
(29)
2008年8月 (2)
2008年7月 (4)
2008年6月 (1)
2008年5月 (7)
2008年4月 (3)
2008年3月 (4)
2008年2月 (1)
2007年10月 (2)
2007年8月 (1)
2007年6月 (3)
2006年6月 (1)
links
最新随笔
1. StringTemplate学习笔记(转载)
2. asp.net 2.0 自定义控件中的使用嵌入资源
3. 实际项目中简单工厂及委托的继承的使用
4. 面向对象基础
5. 测试用word发表blog
6. [大话设计模式]读书笔记之序
7. 如何为网站项目添加子项目
8. 垂直搜索引擎蜘蛛
9. Lucene一些技巧
10. 利用Lucene.net搜索引擎进行多条件搜索的做法
积分与排名
积分 - 13041
排名 - 2867
最新评论
1. re: Lucene一些技巧
路过 收藏了
--zzticzh
阅读排行榜
1. Vista与XP局域网文件共享设置方法(2189)
2. 如何为网站项目添加子项目(1894)
3. VS2008中vss的设置(705)
4. ASP.NET 3.5 要如何安裝在 IIS 中?(486)
5. 利用 Sandcastle 编写软件 SDK 文档 (282)
评论排行榜
1. 如何为网站项目添加子项目(20)
2. VS2008中vss的设置(6)
3. Lucene一些技巧(1)
4. 请问谁知道DOTMSN中打开聊天对话框的方法是什么?(1)
5. 我对static静态成员的理解 (转)(1)