北伽 - 博客园

2018年12月18日

摘要： redis分布式部署 1.scrapy框架是否可以自己实现分布式？ - 不可以。原因有二。其一：因为多台机器上部署的scrapy会各自拥有各自的调度器，这样就使得多台机器无法分配start_urls列表中的url。（多台机器无法共享同一个调度器）其二：多台机器爬取到的数据无法通过同一个管道对数据阅读全文

posted @ 2018-12-18 17:44 北伽阅读(443) 评论(0) 推荐(0)

2018年12月13日

Scrapy框架的应用———爬取Boss招聘网站关于爬虫工程师的名称和薪资

摘要：项目主代码 1 import scrapy 2 from boss.items import BossItem 3 4 class BossproSpider(scrapy.Spider): 5 name = 'bossPro' 6 # allowed_domains = ['www.baidu.c 阅读全文

posted @ 2018-12-13 17:06 北伽阅读(162) 评论(0) 推荐(0)

Scrapy框架的应用———爬取糗事百科文件

摘要：项目主代码： 1 import scrapy 2 from qiushibaike.items import QiushibaikeItem 3 4 class QiubaiSpider(scrapy.Spider): 5 name = 'qiubai' 6 # allowed_domains = 阅读全文

posted @ 2018-12-13 17:02 北伽阅读(133) 评论(0) 推荐(0)

Scrapy的框架简介和基础应用

摘要： scrapy框架简介和基础应用内容介绍 scrapy框架介绍环境安装基础使用内容详情一.什么是Scrapy？ Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，非常出名，非常强悍。所谓的框架就是一个已经被集成了各种功能（高性能异步下载，队列，分布式，解析，持久化等）的具有阅读全文

posted @ 2018-12-13 16:57 北伽阅读(169) 评论(0) 推荐(0)

移动端数据爬取

摘要：移动端数据爬取前言随着移动市场的火热，各大平台都陆陆续续的推出了自己的移动端APP来拉拢吸引和便捷其广大的用户。那么在移动端的平台当时势必会出现大量有价值的信息和数据，那这些数据我们是否可以去享用一下呢？那么接下来就进入我们的移动端APP数据的爬虫中来吧。今日概要 fiddler简介手机AP 阅读全文

posted @ 2018-12-13 09:07 北伽阅读(554) 评论(0) 推荐(0)

2018年12月12日

Selenium+phanmJs 操作浏览器爬取数据

摘要：什么是selenium？是Python的一个第三方库，对外提供的接口可以操作浏览器，然后让浏览器完成自动化的操作。环境搭建安装selenum：pip install selenium 获取某一款浏览器的驱动程序（以谷歌浏览器为例）谷歌浏览器驱动下载地址：http://chromedriver 阅读全文

posted @ 2018-12-12 21:01 北伽阅读(194) 评论(0) 推荐(0)

基于线程池的梨视频爬取

摘要：需求：爬取梨视频中的视频数据 https://www.pearvideo.com/category_4 代码如下 1 import requests 2 from lxml import etree 3 import re 4 import random 5 %%time 6 from multip 阅读全文

posted @ 2018-12-12 20:53 北伽阅读(325) 评论(0) 推荐(0)

基于cookie登录+验证码如何爬取

摘要：实例：需求：获取人人网用户登录过后的个人主页数据 1 #云打码平台登录，直接下载引用就好，无需更改 2 import http.client, mimetypes, urllib, json, time, requests 3 class YDMHttp: 4 5 apiurl = 'http:/ 阅读全文

posted @ 2018-12-12 20:45 北伽阅读(688) 评论(0) 推荐(0)

BeautifulSoup /bs4 爬虫实例

摘要：需求：使用bs4实现将诗词名句网站中三国演义小说的每一章的内容爬去到本地磁盘进行存储 http://www.shicimingju.com/book/sanguoyanyi.html 1 from bs4 import BeautifulSoup 2 import requests 3 4 url 阅读全文

posted @ 2018-12-12 20:39 北伽阅读(984) 评论(0) 推荐(0)

Xpath数据解析

摘要：好段子网内容爬取 1 from lxml import etree 2 import requests 3 url='http://www.haoduanzi.com' 4 headers = { 5 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW6 阅读全文

posted @ 2018-12-12 20:37 北伽阅读(443) 评论(0) 推荐(0)

北伽

每一个不曾起舞的日子，都是对生命的辜负

公告