Python爬虫 - 随笔分类 - hedeyong11

【转】Python爬虫(7)_scrapy-redis

摘要：scrapy-redis使用以及剖析 scrapy-redis是一个基于redis的scrapy组件，通过它可以快速实现简单分布式爬虫程序，该组件本质上提供了三大功能： scheduler - 调度器 dupefilter - URL去重规则（被调度器使用） pipeline - 数据持久化 scr 阅读全文

posted @ 2017-11-20 15:38 hedeyong11 阅读(248) 评论(0) 推荐(0)

【转】Python爬虫(6)_scrapy框架

摘要：官网链接：https://docs.scrapy.org/en/latest/topics/architecture.html 性能相关在编写爬虫时，性能的消耗主要在IO请求中，当单进程单线程模式下请求URL时必然会引起等待，从而使得请求整体变慢。 import requests def fetc 阅读全文

posted @ 2017-11-10 15:48 hedeyong11 阅读(318) 评论(0) 推荐(0)

【转】Python爬虫(5)_性能相关

摘要：爬虫性能相关一背景知识爬虫的本质就是一个socket客户端与服务端的通信过程，如果我们有多个url待爬取，采用串行的方式执行，只能等待爬取一个结束后才能继续下一个，效率会非常低。需要强调的是：串行并不意味着低效，如果串行的都是纯计算的任务，那么cpu的利用率仍然会很高，之所以爬虫程序的串行低阅读全文

posted @ 2017-11-09 16:11 hedeyong11 阅读(185) 评论(0) 推荐(0)

【转】Python爬虫(4)_selenium模块

摘要：一介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支持多种浏览器 from selenium 阅读全文

posted @ 2017-11-09 09:18 hedeyong11 阅读(160) 评论(0) 推荐(0)

【转】Python爬虫(3)_Beautifulsoup模块

摘要：一介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Soup3 的文档,Beautifu 阅读全文

posted @ 2017-11-08 09:04 hedeyong11 阅读(320) 评论(0) 推荐(0)

【转】Python爬虫_示例2

摘要：爬虫项目：爬取并筛选拉钩网职位信息自动提交简历一目标站点分析 #一：实验前准备：浏览器用Chrome 用Ctrl+Shift+Delete清除浏览器缓存的Cookie 打开network准备抓包，点击Preserve log保留所有日志 #二：拉勾网验证流程： 1、请求登录页面：请求url为阅读全文

posted @ 2017-11-07 15:38 hedeyong11 阅读(282) 评论(0) 推荐(0)

【转】Python爬虫(2)_requests模块

只有注册用户登录后才能阅读该文。

posted @ 2017-11-07 08:53 hedeyong11 阅读(5) 评论(0) 推荐(0)

【转】Python爬虫_示例

摘要：爬虫项目：爬取汽车之家新闻资讯 # requests+Beautifulsoup爬取汽车之家新闻 import requests from bs4 import BeautifulSoup response=requests.get('https://www.autohome.com.cn/news 阅读全文

posted @ 2017-11-06 09:20 hedeyong11 阅读(196) 评论(0) 推荐(0)

【转】Python爬虫(1)_基本原理

摘要：一爬虫是什么 #如果我们把互联网比作一张大的蜘蛛网，数据便是存放于蜘蛛网的各个节点，而爬虫就是一只小蜘蛛，沿着网络抓取自己的猎物/数据 #爬虫指的是：向网站发起请求，获取资源后分析并提取有用数据的程序 #详细解释：用户获取网络数据的方式：浏览器提交请求->下载网页代码->解析成页面。而网页代码阅读全文

posted @ 2017-11-06 08:48 hedeyong11 阅读(248) 评论(0) 推荐(0)

hedeyong11

-- 404 Not Found!

随笔分类 - Python爬虫

公告