python的一个小项目!

linux内核:
linux内核的管理方式:
linux内核管理:
--------------------------------------------------------------------------------------------
爬虫:
1.项目描述:
a.爬虫,
b.使用数据库管理
c.分布式的爬虫

项目技术分解:
1.爬虫:
* 分析网址,提取域名
* 下载网页,抓取网页
* 获取内容存储到buffer
1. "<a " 2."href" 3."=" 4."结束符号" ,5.

* 分析buffer,提取 链接
** ---->相对链接,绝对链接
答案:1.域名的提取(分析网址)
2.相对链接和绝对链接
绝对链接:http://
没有的就是相对链接.

s.find()
s.[32,78]
pos = s.find('')
s[pos:]

end = s.find(">")
s1 = [pos:end]

2.数据库
存放到数据库
数据库怎么存放,
* 使用uliweb.orm来链接数据库
* 如何建立表
* 几个表
* 每个表有什么字段
* 分布式[什么是分布式???]
地址:http://uliweb.cpython.org/tutorial/view_chapter/189
--->stauts 0 表示没有抓取,1表示已经抓取完毕

3.分布式
C/S : redis
服务器管理数据库: C ---> redis -----> mysql
服务器存储网址: mysql 轮询 redis ---> redis ---- task_key
服务器被动分发任务

 

posted @ 2012-12-25 09:38  sgsheg  阅读(259)  评论(0编辑  收藏  举报