随笔分类 - 网络爬虫
网络爬虫
摘要:服务器代理爬取网站 免费代理网站:www.xicidaili.com,www.xsdaili.com,www.mayidaili.com/free,http://ip.yqie.com/ipproxy.htm 添加代理服务器的地址,代理服务器是哪种类型就要用相应的类型,比如https就要用https
阅读全文
摘要:urllib.request.urlretrieve(url,本地地址):将网页内容缓存到本地 urllib.request.urlcleanup()清除urlretrieve产生的缓存 .info:当前文件的基本信息 .getcode:获取网站的状态码 .geturl:获取网站的url decod
阅读全文
摘要:正则表达式:将数据进行筛选的一种表达式 原子是正则表达式中最基本的组成单位,每个表达式中至少含有一个原子, 1.普通字符作为原子,2.非打印字符作为原子,3.通用字符作为原子,4.原子表 使用正则表达式需先导入re模块 re.search(条件,范围) >>> import re >>> pat =
阅读全文

浙公网安备 33010602011771号