python的一个小项目!
linux内核:
linux内核的管理方式:
linux内核管理:
--------------------------------------------------------------------------------------------
爬虫:
1.项目描述:
a.爬虫,
b.使用数据库管理
c.分布式的爬虫
项目技术分解:
1.爬虫:
* 分析网址,提取域名
* 下载网页,抓取网页
* 获取内容存储到buffer
1. "<a " 2."href" 3."=" 4."结束符号" ,5.
* 分析buffer,提取 链接
** ---->相对链接,绝对链接
答案:1.域名的提取(分析网址)
2.相对链接和绝对链接
绝对链接:http://
没有的就是相对链接.
s.find()
s.[32,78]
pos = s.find('')
s[pos:]
end = s.find(">")
s1 = [pos:end]
2.数据库
存放到数据库
数据库怎么存放,
* 使用uliweb.orm来链接数据库
* 如何建立表
* 几个表
* 每个表有什么字段
* 分布式[什么是分布式???]
地址:http://uliweb.cpython.org/tutorial/view_chapter/189
--->stauts 0 表示没有抓取,1表示已经抓取完毕
3.分布式
C/S : redis
服务器管理数据库: C ---> redis -----> mysql
服务器存储网址: mysql 轮询 redis ---> redis ---- task_key
服务器被动分发任务
The boy who love php and Python!