爬虫 - 随笔分类(第2页) - 冰底熊

模拟登陆淘宝

摘要：目录[-] 代码使用说明淘宝--模拟登录使用pyppeteer模拟登录淘宝，获取cookie。代码 # -*- coding: utf-8 -*- import asyncio from pyppeteer import launch import time from retry impor 阅读全文

posted @ 2019-05-12 21:44 冰底熊阅读(1415) 评论(0) 推荐(0)

python3调用js的库之execjs

摘要：执行JS的类库：execjs，PyV8，selenium，node execjs是一个比较好用且容易上手的类库（支持py2，与py3），支持 JS runtime。 1.安装： pip install PyExecJS 2.运行环境 execjs会自动使用当前电脑上的运行时环境（建议用nodejs，阅读全文

posted @ 2019-05-12 10:34 冰底熊阅读(28719) 评论(0) 推荐(7)

Airtest 的连接安卓模拟器

摘要：1. 开启安卓模拟器 2. 查看进程，MEmuHeadless.exe的进行程号，然后在cmd中输入 netstat -ano|findstr "16116" 3. 到 airtest软件中连接安卓模拟器效果：阅读全文

posted @ 2019-05-06 09:58 冰底熊阅读(1638) 评论(0) 推荐(0)

Scrapy同时启动多个爬虫

摘要：1. 在项目文件夹中新建一个commands文件夹 2. 在command的文件夹中新建一个文件 crawlall.py 3.在crawlall.py 中写一个command类，该类继承 scrapy.commands from scrapy.commands import ScrapyComman 阅读全文

posted @ 2019-05-05 13:15 冰底熊阅读(1239) 评论(0) 推荐(0)

随机IP代理插件Scrapy-Proxies

摘要：安装： pip install scrapy_proxies github: https://github.com/aivarsk/scrapy-proxies scrapy爬虫配置文件settings.py： # Retry many times since proxies often fail 阅读全文

posted @ 2019-05-04 22:49 冰底熊阅读(1123) 评论(0) 推荐(0)

Charles和mitmproxy代理设置

摘要：1.Charles安装： 1. windows 安装证书 2. 3. 4. 5 pc端设置： Android 手机上设置代理：先查看pc 端的ip: 2.模拟器进入wifi,按住wifi 3. 模拟器设置代理下载证书：用手机浏览器访问： chs.pro/ssl 2. mitmproxy安装手阅读全文

posted @ 2019-05-04 21:45 冰底熊阅读(883) 评论(0) 推荐(0)

l线程池抓取lianjia

摘要：1. 线程池的应用 from multiprocessing.dummy import Pool import requests from lxml import etree url="https://sz.lianjia.com/ershoufang/co32/" # url="https:// 阅读全文

posted @ 2019-05-01 18:50 冰底熊阅读(264) 评论(0) 推荐(0)

Gerapy的简单使用

摘要：1. Scrapy：是一个基于Twisted的异步IO框架，有了这个框架，我们就不需要等待当前URL抓取完毕之后在进行下一个URL的抓取，抓取效率可以提高很多。 2. Scrapy-redis：虽然Scrapy框架是异步加多线程的，但是我们只能在一台主机上运行，爬取效率还是有限的，Scrapy-re 阅读全文

posted @ 2019-04-29 21:17 冰底熊阅读(8076) 评论(2) 推荐(2)

scrapy数据存储在mysql数据库的两种方式

摘要：方法一：同步操作 1.pipelines.py文件（处理数据的python文件） import pymysql class LvyouPipeline(object): def __init__(self): # connection database self.connect = pymysql. 阅读全文

posted @ 2019-04-29 20:13 冰底熊阅读(10165) 评论(1) 推荐(5)

利用scrapy-client 发布爬虫到远程服务端

摘要：远程服务端Scrapyd先要开启远程服务器必须装有scapyd,并开启。这里远程服务开启的端口和ip: 192.166.12.80:6800 客户端配置和上传先修爬虫项目文件scrapy.cfg:如下图 cd 到爬虫项目文件夹下，后执行： scrapyd-deploy # 上传 scrapyd 阅读全文

posted @ 2019-04-29 19:47 冰底熊阅读(1462) 评论(0) 推荐(0)

scrapyd的安装和scrapyd-client

摘要：1.创建虚拟环境，虚拟环境名为sd mkvirtualenv sd #方便管理 2. 安装 scrapyd pip3 install scrapyd 3. 配置 mkdir /etc/scrapyd vim /etc/scrapyd/scrapyd.conf 写入一下配置参考官网：https:/ 阅读全文

posted @ 2019-04-29 17:05 冰底熊阅读(1935) 评论(0) 推荐(0)

Gerapy 安装

摘要：1下载： pip install gerapy 2. 在D盘中新建一个文件夹，该然后cd 到该文件夹中，执行： gerapy init # 初始化，可以在任意路径下进行 cd gerapy # 初始化后，在该目录下有一个gerapy文件夹 gerapy migrate # 数据迁移初始命令 3. 启阅读全文

posted @ 2019-04-29 09:52 冰底熊阅读(611) 评论(0) 推荐(0)

selenium在scrapy中的使用、UA池、IP池的构建

摘要：selenium在scrapy中的使用流程重写爬虫文件的构造方法__init__，在该方法中使用selenium实例化一个浏览器对象（因为浏览器对象只需要被实例化一次）. 重写爬虫文件的closed(self,spider)方法，在其内部关闭浏览器对象。该方法是在爬虫结束时被调用. 重写下载中间件阅读全文

posted @ 2019-04-28 22:15 冰底熊阅读(750) 评论(0) 推荐(0)

selenium、UA池、ip池、scrapy-redis的综合应用案例

摘要：案例：网易新闻的爬取： https://news.163.com/ 爬取的内容为一下4大板块中的新闻内容爬取：特点：动态加载数据，用 selenium 爬虫 1. 创建项目 scrapy startproject wy 2. 创建爬虫 scrapy genspider wangyi www 阅读全文

posted @ 2019-04-21 19:56 冰底熊阅读(1058) 评论(0) 推荐(0)

scrapy 中crawlspider 爬虫

摘要：爬取目标网站： http://www.chinanews.com/rss/rss_2.html 获取url后进入另一个页面进行数据提取检查网页：爬虫该页数据的逻辑： Crawlspider爬虫类： # -*- coding: utf-8 -*- import scrapy import re # 阅读全文

posted @ 2019-04-21 00:25 冰底熊阅读(228) 评论(0) 推荐(0)

scrapy中XMLFeedSpider

摘要：爬取案例：目标网站： url = 'http://www.chinanews.com/rss/scroll-news.xml' 页面特点：先创建爬虫项目：也可以查看爬虫类：创建xmlFeed 爬虫可以用： scrapy genspider -t xmlfeed cnew chinanews. 阅读全文

posted @ 2019-04-20 22:55 冰底熊阅读(560) 评论(0) 推荐(0)

使用scrapy-crawlSpider 爬取tencent 招聘

摘要：Tencent 招聘信息网站创建项目 scrapy startproject Tencent 创建爬虫 scrapy genspider -t crawl tencent 1. 起始url start_url = 'https://hr.tencent.com/position.php' 在起始页阅读全文

posted @ 2019-04-16 13:33 冰底熊阅读(495) 评论(0) 推荐(2)

Scrapy - CrawlSpider爬虫

摘要：crawlSpider 爬虫思路：从response中提取满足某个条件的url地址，发送给引擎，同时能够指定callback函数。 1. 创建项目 scrapy startproject myspiderproject 2. 创建crawlSpider 爬虫 scrapy genspider - 阅读全文

posted @ 2019-04-15 15:30 冰底熊阅读(191) 评论(0) 推荐(0)

scrapy-Redis 分布式爬虫

摘要：案例1 ：（增量式爬取）京东全部图书，自己可以扩展爬取每一本电子书的评论 1.spider: # -*- coding: utf-8 -*- import scrapy from copy import deepcopy import json import urllib class JdSpid 阅读全文

posted @ 2019-04-14 22:48 冰底熊阅读(979) 评论(0) 推荐(1)

scrapy-redis(一)

摘要：安装scrapy-redis pip install scrapy-redis 从GitHub 上拷贝源码： clone github scrapy-redis源码文件 git clone https://github.com/rolando/scrapy-redis.git scrapy-redi 阅读全文

posted @ 2019-04-14 22:37 冰底熊阅读(1051) 评论(0) 推荐(0)

侠客云

随笔分类 - 爬虫

公告