随笔分类 -  Python爬虫

摘要:scrapy-redis使用以及剖析 scrapy-redis是一个基于redis的scrapy组件,通过它可以快速实现简单分布式爬虫程序,该组件本质上提供了三大功能: scheduler - 调度器 dupefilter - URL去重规则(被调度器使用) pipeline - 数据持久化 scr 阅读全文
posted @ 2017-11-20 15:38 hedeyong11 阅读(248) 评论(0) 推荐(0)
摘要:官网链接:https://docs.scrapy.org/en/latest/topics/architecture.html 性能相关 在编写爬虫时,性能的消耗主要在IO请求中,当单进程单线程模式下请求URL时必然会引起等待,从而使得请求整体变慢。 import requests def fetc 阅读全文
posted @ 2017-11-10 15:48 hedeyong11 阅读(318) 评论(0) 推荐(0)
摘要:爬虫性能相关 一 背景知识 爬虫的本质就是一个socket客户端与服务端的通信过程,如果我们有多个url待爬取,采用串行的方式执行,只能等待爬取一个结束后才能继续下一个,效率会非常低。 需要强调的是:串行并不意味着低效,如果串行的都是纯计算的任务,那么cpu的利用率仍然会很高,之所以爬虫程序的串行低 阅读全文
posted @ 2017-11-09 16:11 hedeyong11 阅读(185) 评论(0) 推荐(0)
摘要:一 介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器 from selenium 阅读全文
posted @ 2017-11-09 09:18 hedeyong11 阅读(160) 评论(0) 推荐(0)
摘要:一 介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Soup3 的文档,Beautifu 阅读全文
posted @ 2017-11-08 09:04 hedeyong11 阅读(320) 评论(0) 推荐(0)
摘要:爬虫项目:爬取并筛选拉钩网职位信息自动提交简历 一 目标站点分析 #一:实验前准备: 浏览器用Chrome 用Ctrl+Shift+Delete清除浏览器缓存的Cookie 打开network准备抓包,点击Preserve log保留所有日志 #二:拉勾网验证流程: 1、请求登录页面: 请求url为 阅读全文
posted @ 2017-11-07 15:38 hedeyong11 阅读(282) 评论(0) 推荐(0)
只有注册用户登录后才能阅读该文。
posted @ 2017-11-07 08:53 hedeyong11 阅读(5) 评论(0) 推荐(0)
摘要:爬虫项目:爬取汽车之家新闻资讯 # requests+Beautifulsoup爬取汽车之家新闻 import requests from bs4 import BeautifulSoup response=requests.get('https://www.autohome.com.cn/news 阅读全文
posted @ 2017-11-06 09:20 hedeyong11 阅读(196) 评论(0) 推荐(0)
摘要:一 爬虫是什么 #如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛,沿着网络抓取自己的猎物/数据 #爬虫指的是:向网站发起请求,获取资源后分析并提取有用数据的程序 #详细解释: 用户获取网络数据的方式: 浏览器提交请求->下载网页代码->解析成页面。而网页代码 阅读全文
posted @ 2017-11-06 08:48 hedeyong11 阅读(248) 评论(0) 推荐(0)