随笔分类 -  (D)python爬虫

摘要:BeautifulSoup基础实战 安装:pip install beautifulsoup4 常用指令: PhantomJS基础实战 效率不高,但可以解决很多反爬问题,本质是一个无界面的浏览器,通过命令行(或python)操纵。通常难点部分通过PhantomJS写,然后将数据交给urllib或sc 阅读全文
posted @ 2019-09-05 19:22 MCQ1999 阅读(357) 评论(0) 推荐(0)
摘要:安装 urllib库更适合写爬虫文件,scrapy更适合做爬虫项目。 步骤: 1. 先更改pip源,国外的太慢了,参考:https://www.jb51.net/article/159167.htm 2. 升级pip:python m pip install upgrade pip 3. pip i 阅读全文
posted @ 2019-08-30 21:14 MCQ1999 阅读(566) 评论(0) 推荐(0)
摘要:用户代理池 用户代理池就是将不同的用户代理组建成为一个池子,随后随机调用。 作用:每次访问代表使用的浏览器不一样 IP代理与IP代理池的构建的两种方案 搜索西刺、大象代理IP 尽量选国外的IP。 IP代理池构建的第一种方式(适合代理IP稳定的情况) IP代理池构建的第二种方式(接口调用法,更适合代理 阅读全文
posted @ 2019-08-21 13:24 MCQ1999 阅读(800) 评论(0) 推荐(0)
摘要:urllib基础 urlretrieve() urlretrieve(网址,本地文件存储地址) 直接下载网页到本地 urlcleanup() 清除缓存 info() 查看网页简介 getcode() 输出网页爬取状态码,200为正常,其他都不正常 geturl() 获取当前访问的网页的url 超时设 阅读全文
posted @ 2019-08-19 18:40 MCQ1999 阅读(905) 评论(0) 推荐(0)
摘要:原子 原子是正则表达式中最基本的组成单位,每个正则表达式中至少要包含一个原子。 常见的原子类型: 1. 普通字符作为原子 2. 非打印字符作为原子 3. 通用字符作为原子 4. 原子表 元字符 元字符是正则表达式中具有一些特殊含义的字符,比如重复N此前面的字符等。 1. ".":除换行符外任意一个字 阅读全文
posted @ 2019-08-14 11:45 MCQ1999 阅读(275) 评论(0) 推荐(0)