随笔分类 -  网络爬虫

网络爬虫
摘要:服务器代理爬取网站 免费代理网站:www.xicidaili.com,www.xsdaili.com,www.mayidaili.com/free,http://ip.yqie.com/ipproxy.htm 添加代理服务器的地址,代理服务器是哪种类型就要用相应的类型,比如https就要用https 阅读全文
posted @ 2019-07-15 17:28 Alom 阅读(337) 评论(0) 推荐(0)
摘要:urllib.request.urlretrieve(url,本地地址):将网页内容缓存到本地 urllib.request.urlcleanup()清除urlretrieve产生的缓存 .info:当前文件的基本信息 .getcode:获取网站的状态码 .geturl:获取网站的url decod 阅读全文
posted @ 2019-07-14 18:12 Alom 阅读(154) 评论(0) 推荐(0)
摘要:正则表达式:将数据进行筛选的一种表达式 原子是正则表达式中最基本的组成单位,每个表达式中至少含有一个原子, 1.普通字符作为原子,2.非打印字符作为原子,3.通用字符作为原子,4.原子表 使用正则表达式需先导入re模块 re.search(条件,范围) >>> import re >>> pat = 阅读全文
posted @ 2019-07-13 15:17 Alom 阅读(149) 评论(0) 推荐(0)