爬虫 - 随笔分类 - eastonliu

python解析字体反爬

摘要：爬取一些网站的信息时，偶尔会碰到这样一种情况：网页浏览显示是正常的，用python爬取下来是乱码，F12用开发者模式查看网页源代码也是乱码。这种一般是网站设置了字体反爬一、58同城用谷歌浏览器打开58同城：https://sz.58.com/chuzu/，按F12用开发者模式查看网页源代码，可以阅读全文

posted @ 2018-11-09 14:14 eastonliu 阅读(9894) 评论(3) 推荐(6)

Scrapy学习(二)、安装及项目结构

摘要：一、安装 1、安装pywin32,下载地址：https://sourceforge.net/projects/pywin32/files/pywin32/ 我选择的是Build 221,点进去，根据自己电脑的python版本下载对应的版本下载下来后，直接运行exe文件，无脑下一步，直至安装完成 2 阅读全文

posted @ 2018-11-06 18:40 eastonliu 阅读(206) 评论(0) 推荐(0)

Scrapy学习(一)、Scrapy框架和数据流

摘要：Scrapy是用python写的爬虫框架，架构图如下：它可以分为如下七个部分： 1、Scrapy Engine:引擎，负责控制数据流在系统的所有组件中流动，并在相应动作发生时触发时间。 2、Scheduler:调度器，从引擎接收Request并将它们入队，以便引擎再次请求Request时提供给引擎阅读全文

posted @ 2018-11-05 20:24 eastonliu 阅读(1016) 评论(0) 推荐(0)

python爬取智联招聘职位信息（多进程）

摘要：测试了下，采用单进程爬取5000条数据大概需要22分钟，速度太慢了点。我们把脚本改进下，采用多进程。首先获取所有要爬取的URL，在这里不建议使用集合，字典或列表的数据类型来保存这些URL，因为数据量太大，太消耗内存，这里，python的生成器就发挥作用了。在使用多进程之前，有两个问题需要解决：阅读全文

posted @ 2018-11-04 15:24 eastonliu 阅读(1201) 评论(0) 推荐(0)

python爬取智联招聘职位信息（单进程）

摘要：我们先通过百度搜索智联招聘，进入智联招聘官网，一看，傻眼了，需要登录才能查看招聘信息没办法，用账号登录进去，登录后的网页如下：输入职位名称点击搜索，显示如下网页：把这个URL：https://sou.zhaopin.com/?jl=765&kw=软件测试&kt=3 拷贝下来，退出登录，再在浏览阅读全文

posted @ 2018-11-01 20:53 eastonliu 阅读(8003) 评论(2) 推荐(1)

eastonliu

记录测试路上的点点滴滴~

随笔分类 - 爬虫

python解析字体反爬

Scrapy学习(二)、安装及项目结构

Scrapy学习(一)、Scrapy框架和数据流

python爬取智联招聘职位信息（多进程）

python爬取智联招聘职位信息（单进程）

公告