随笔分类 - (D)python爬虫
摘要:BeautifulSoup基础实战 安装:pip install beautifulsoup4 常用指令: PhantomJS基础实战 效率不高,但可以解决很多反爬问题,本质是一个无界面的浏览器,通过命令行(或python)操纵。通常难点部分通过PhantomJS写,然后将数据交给urllib或sc
阅读全文
摘要:安装 urllib库更适合写爬虫文件,scrapy更适合做爬虫项目。 步骤: 1. 先更改pip源,国外的太慢了,参考:https://www.jb51.net/article/159167.htm 2. 升级pip:python m pip install upgrade pip 3. pip i
阅读全文
摘要:用户代理池 用户代理池就是将不同的用户代理组建成为一个池子,随后随机调用。 作用:每次访问代表使用的浏览器不一样 IP代理与IP代理池的构建的两种方案 搜索西刺、大象代理IP 尽量选国外的IP。 IP代理池构建的第一种方式(适合代理IP稳定的情况) IP代理池构建的第二种方式(接口调用法,更适合代理
阅读全文
摘要:urllib基础 urlretrieve() urlretrieve(网址,本地文件存储地址) 直接下载网页到本地 urlcleanup() 清除缓存 info() 查看网页简介 getcode() 输出网页爬取状态码,200为正常,其他都不正常 geturl() 获取当前访问的网页的url 超时设
阅读全文
摘要:原子 原子是正则表达式中最基本的组成单位,每个正则表达式中至少要包含一个原子。 常见的原子类型: 1. 普通字符作为原子 2. 非打印字符作为原子 3. 通用字符作为原子 4. 原子表 元字符 元字符是正则表达式中具有一些特殊含义的字符,比如重复N此前面的字符等。 1. ".":除换行符外任意一个字
阅读全文