文章分类 -  Spider

摘要:1. 创建多线程 方法1 方法2 2. 多线程共享全局变量以及锁 3. Producer-Consumer model 4. Queue队列 1. 创建多线程 方法1: a 使用模块 b 调用 threading.Thread 方法 c 使用start()方法开始线程 方法2: a 使用模块 b 使 阅读全文
posted @ 2019-01-02 10:40 wsg-python 阅读(507) 评论(0) 推荐(0) 编辑
摘要:CSV格式文件的读取与保存 1. 什么是CSV 2. CSV文件的读取 3.CSV文件的保存 1. 什么是CSV "CSV"并不是一种单一的、定义明确的格式(尽管RFC 4180有一个被通常使用的定义)。因此在实践中,术语“CSV”泛指具有以下特征的任何文件: 1.纯文本,使用某个字符,比如ASCI 阅读全文
posted @ 2018-12-29 12:38 wsg-python 阅读(2796) 评论(0) 推荐(0) 编辑
摘要:正则表达式和re模块 1.什么是正则表达式 2.正则表达式常用匹配规则 2.1 贪婪匹配示例 2.2 案例:匹配 0-100... 3.Python 的 re 模块 3.1 compile 函数 3.2 match 方法 3.3 search 方法 3.4 findall 方法 3.5 findit 阅读全文
posted @ 2018-12-27 22:30 wsg-python 阅读(200) 评论(0) 推荐(0) 编辑
摘要:BeautifulSoup4 1.安装和文档 2.主要的解析器 3.简单使用 4.常用方法示例find_all()... 5.区分小知识点 CSS选择器 1 通过标签名查找 2 通过类名查找 3 通过 id 名查找 4 组合查找 5 属性查找 6 获取内容 7 select和css选择器提取元素示例 阅读全文
posted @ 2018-12-27 00:45 wsg-python 阅读(1758) 评论(0) 推荐(0) 编辑
摘要:豆瓣电影爬虫 #encoding: utf-8 import requests from lxml import etree # 1. 将目标网站上的页面抓取下来 headers = { 'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) 阅读全文
posted @ 2018-12-27 00:42 wsg-python 阅读(138) 评论(0) 推荐(0) 编辑
摘要:XPath语法和lxml模块 XPath 1.什么是XPath 2.XPath 开发工具 3.Chrome中安装XPath 开发工具不能使用 4.选取节点 5.谓语(Predicates) 6.选取未知节点 7.选取若干路径 8.XPath的运算符 lxml库 1.lxml简单使用 2.lxml和x 阅读全文
posted @ 2018-12-26 22:14 wsg-python 阅读(15749) 评论(0) 推荐(0) 编辑
摘要:1-requests库的基本使用 2-requests发送post请求 3-requests使用代理ip 4-requests处理cookie信息 5-requests处理不信任的ssl证书 1-requests库的基本使用 安装 中文文档: 英文文档:http://github.com/reque 阅读全文
posted @ 2018-12-24 16:58 wsg-python 阅读(509) 评论(0) 推荐(0) 编辑
摘要:目录: 1-urllib库之urlopen函数用法 2-urllib库之urlretrieve函数用法 3-urllib库之参数编码和解码函数 4-urllib库之urlparse和urlsplit函数用法 5-【实战】用Request爬取拉勾网职位信息 6-ProxyHandler实现代理ip 7 阅读全文
posted @ 2018-12-19 23:37 wsg-python 阅读(776) 评论(0) 推荐(0) 编辑
摘要:常用正则表达式的方法: re.compile(编译) pattern.match(从头找一个) pattern.search(找一个) pattern.findall(找所有) pattern.sub(替换) In [5]: re.findall('.','\n') Out[5]: [] In [6]: re.findall('.','\n',re... 阅读全文
posted @ 2018-12-14 22:44 wsg-python 阅读(239) 评论(0) 推荐(0) 编辑
摘要:requests 的底层实现其实就是 urllib json在线解析工具 Linux alias命令用于设置指令的别名。 home目录中~/.bashrc 这个文件主要保存个人的一些个性化设置,如命令别名、路径等。 注意:1,写绝对路径 2,有空格 改好后使用source ~/.bashrc 使用文 阅读全文
posted @ 2018-12-07 16:59 wsg-python 阅读(481) 评论(0) 推荐(0) 编辑
摘要:爬虫的分类:聚焦爬虫和通类爬虫- 微指数-新浪 robots.txt Robots协议:网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。 爬虫的概念 爬虫是模拟浏览器发送请求,获取响应 爬虫是模拟浏览器发送请求,获取响应 爬虫的流程 url >发送请求,获取响应 >提取数据 阅读全文
posted @ 2018-12-07 16:13 wsg-python 阅读(189) 评论(0) 推荐(0) 编辑