随笔分类 -  python爬虫入门

爬虫相关知识学习记录
摘要:今天继续学习一些实战爬虫 链接爬虫实战 要求:把一个网页里所有的链接地址提取出来 思路:(1)确定爬取的入口链接 (2)构建提取链接的正则表达式 (3)模拟浏览器爬取网页 (4)根据正则表达式提取链接 (5)过滤掉重复的链接 (6)后续操作 比如我们来获取 http://blog.csdn.net/ 阅读全文
posted @ 2019-01-30 16:34 杨守鹤 阅读(470) 评论(0) 推荐(0)
摘要:cookie 我们访问网页是通过http协议进行的,而http协议是一个无状态协议(无法维持会话之间的状态),比如我们登录一个网站成功后访问另一个网页,那么登录状态就会消失,十分不方便。而我们可以通过Cookie保存会话信息,将会话信息保存在客户端,或者用session保存会话信息在服务器端。但是服 阅读全文
posted @ 2019-01-29 14:10 杨守鹤 阅读(296) 评论(0) 推荐(0)
摘要:昨天学到了正则表达式基础知识 :原子 今天开始学习第二个基础知识:元字符 元字符 就是正则表达式中含有特殊含义的一些字符 常见的元字符及含义 符号 含义 . 匹配除换行符以外 的任意字符 ^ 匹配字符串的开始位置 $ 匹配字符串的结束位置 * 匹配0次,1次,或多次前面的原子 ? 匹配0次或一次前面 阅读全文
posted @ 2019-01-28 12:07 杨守鹤 阅读(246) 评论(0) 推荐(0)
摘要:DebugLog实战 有时候我们需要在程序运行时,一边运行一边打印调试日志。此时需要开启DebugLog。 如何开启: 首先将debuglevel设置为1,然后用urllib.request.build_opener()创建自定义对象opener将debuglevel作为参数传入接着用urllib. 阅读全文
posted @ 2019-01-27 11:49 杨守鹤 阅读(383) 评论(0) 推荐(0)
摘要:Python爬虫第二天 超时设置 有时候访问网页时长时间未响应,系统就会判断网页超时,无法打开网页。如果需要自己设置超时时间则: 通过urlopen()打开网页时使用timeout字段设置 import urllib.request for i in range(1,100): #循环99次 try 阅读全文
posted @ 2019-01-26 11:29 杨守鹤 阅读(403) 评论(0) 推荐(0)
摘要:简介 1:组成:爬虫节点,控制节点和资源库。 控制节点,也叫中央控制器,主要负责根据url地址分配线程,并调用爬虫节点进行具体的爬行。 爬虫节点会按照具体的算法,对网页进行具体的爬行,主要包括下载网页以及对网页的文本进行处理,爬行后会将结果储存到对应资源库中。 2:类型:通用网络爬虫,聚焦网络爬虫, 阅读全文
posted @ 2019-01-24 11:04 杨守鹤 阅读(382) 评论(4) 推荐(1)