Believe in yourself.

随笔分类 -  爬虫

python爬虫相关知识
python解析字体反爬
摘要:爬取一些网站的信息时,偶尔会碰到这样一种情况:网页浏览显示是正常的,用python爬取下来是乱码,F12用开发者模式查看网页源代码也是乱码。这种一般是网站设置了字体反爬 一、58同城 用谷歌浏览器打开58同城:https://sz.58.com/chuzu/,按F12用开发者模式查看网页源代码,可以 阅读全文

posted @ 2018-11-09 14:14 eastonliu 阅读(9894) 评论(3) 推荐(6)

Scrapy学习(二)、安装及项目结构
摘要:一、安装 1、安装pywin32,下载地址:https://sourceforge.net/projects/pywin32/files/pywin32/ 我选择的是Build 221,点进去,根据自己电脑的python版本下载对应的版本 下载下来后,直接运行exe文件,无脑下一步,直至安装完成 2 阅读全文

posted @ 2018-11-06 18:40 eastonliu 阅读(206) 评论(0) 推荐(0)

Scrapy学习(一)、Scrapy框架和数据流
摘要:Scrapy是用python写的爬虫框架,架构图如下: 它可以分为如下七个部分: 1、Scrapy Engine:引擎,负责控制数据流在系统的所有组件中流动,并在相应动作发生时触发时间。 2、Scheduler:调度器,从引擎接收Request并将它们入队,以便引擎再次请求Request时提供给引擎 阅读全文

posted @ 2018-11-05 20:24 eastonliu 阅读(1016) 评论(0) 推荐(0)

python爬取智联招聘职位信息(多进程)
摘要:测试了下,采用单进程爬取5000条数据大概需要22分钟,速度太慢了点。我们把脚本改进下,采用多进程。 首先获取所有要爬取的URL,在这里不建议使用集合,字典或列表的数据类型来保存这些URL,因为数据量太大,太消耗内存,这里,python的生成器就发挥作用了。 在使用多进程之前,有两个问题需要解决: 阅读全文

posted @ 2018-11-04 15:24 eastonliu 阅读(1201) 评论(0) 推荐(0)

python爬取智联招聘职位信息(单进程)
摘要:我们先通过百度搜索智联招聘,进入智联招聘官网,一看,傻眼了,需要登录才能查看招聘信息 没办法,用账号登录进去,登录后的网页如下: 输入职位名称点击搜索,显示如下网页: 把这个URL:https://sou.zhaopin.com/?jl=765&kw=软件测试&kt=3 拷贝下来,退出登录,再在浏览 阅读全文

posted @ 2018-11-01 20:53 eastonliu 阅读(8003) 评论(2) 推荐(1)