web爬虫 - 随笔分类 - 懒惰的小松鼠

第三十节：fillder抓取APP数据之小程序

摘要：1、下载fillder ,fillder官网：https://www.telerik.com/fiddler 2、安装好后设置fillder：工具—>选项，打开设置面板。选择HTTPS选项卡。对下边进行勾选：点击链接进行如下设置：点击online查看IP地址在手机端设置IP代理，如果没有安阅读全文

posted @ 2019-08-10 19:10 懒惰的小松鼠阅读(515) 评论(0) 推荐(0)

第二十九节：模拟登陆

摘要：一、126,163邮箱模拟登陆 1 # -*- coding:utf-8 -*- 2 import time 3 from selenium import webdriver 4 def login126_or_163emall(url): 5 login_name = input("请输入账号：" 阅读全文

posted @ 2019-08-10 17:59 懒惰的小松鼠阅读(273) 评论(0) 推荐(0)

第二十八节：隧道代理阿布云代理

摘要：阿布云为我们提供了隧道代理IP的服务，通过阿布云HTTP隧道的动态版可以让我们的爬虫很好的使用动态代理IP 由此可知我们可以得到requests接入代码 1 # -*- coding:utf-8 -*- 2 import requests 3 4 # 要访问的目标网页 5 url = "http:/ 阅读全文

posted @ 2019-08-08 23:39 懒惰的小松鼠阅读(1079) 评论(0) 推荐(0)

第二十七节：scrapy代理接入

该文被密码保护。

posted @ 2019-08-07 22:48 懒惰的小松鼠阅读(13) 评论(0) 推荐(0)

第二十六节：urllib、requests、selenium请求库代理设置

摘要：1、urllib代理设置结果会出现两种情况 [WinError 10061] 由于目标计算机积极拒绝，无法连接。解决方法：主要是代理不可用，更换代理就行 [WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应，连接尝试失败。解决方法：将浏览器的代理设置中的局域阅读全文

posted @ 2019-07-08 15:44 懒惰的小松鼠阅读(793) 评论(0) 推荐(0)

第二十五节：scrapy爬虫识别验证码（四）手绘验证码识别

摘要：一、介绍今天主要介绍的是微博客户端在登录时出现的四宫格手绘验证码，不多说直接看看验证码长成什么样。二、思路 1、由于微博上的手绘验证码只有四个宫格，且每个宫格之间都有有向线段连接，所以我们可以判断四个宫格不同方向的验证码一共有24种，我们将四个宫格进行标号，得到的结果如下：则我们可以排列出2 阅读全文

posted @ 2019-07-07 14:44 懒惰的小松鼠阅读(528) 评论(0) 推荐(0)

第二十四节：scrapy爬虫识别验证码（三）滑动验证码识别

该文被密码保护。

posted @ 2019-07-06 16:05 懒惰的小松鼠阅读(52) 评论(0) 推荐(0)

第二十三节：scrapy爬虫识别验证码（二）点触验证码识别

该文被密码保护。

posted @ 2019-06-02 13:59 懒惰的小松鼠阅读(12) 评论(0) 推荐(0)

第二十二节：scrapy爬虫识别验证码（一）字母数字组合验证码识别

摘要：图片验证码基本上是有数字和字母或者数字或者字母组成的字符串，然后通过一些干扰线的绘制而形成图片验证码。例如：知网的注册就有图片验证码首先我们需要获取验证码图片，通过开发者工具我们可以得到验证码url链接其次就是通过Pillow类库和tesserocr进行识别，代码如下： 1 # -*- cod 阅读全文

posted @ 2019-06-01 17:36 懒惰的小松鼠阅读(1882) 评论(0) 推荐(1)

第二十一节：scrapy爬虫识别验证码之类库安装

摘要：一、安装tesserocr 1、首先下载tesseract：https://digi.bib.uni-mannheim.de/tesseract/ ，我下载的是tesseract-ocr-setup-3.05.02-20180621.exe 下载完成后直接双击安装，然后一直点击下一步，直到完成。然阅读全文

posted @ 2019-06-01 14:34 懒惰的小松鼠阅读(386) 评论(0) 推荐(0)

第二十节：Scrapy爬虫框架之使用Pipeline存储

摘要：在上两节当中，我们爬取了360图片，但是我们需要将图片下载下来，这将如何下载和存储呢？下边叙述一下三种情况：1、将图片下载后存储到MongoDB数据库；2、将图片下载后存储在MySQL数据库；3、将图片下载到本地文件话不多说，直接上代码： 1、通过item定义存储字段 2、配置settings文阅读全文

posted @ 2019-04-14 21:57 懒惰的小松鼠阅读(1133) 评论(0) 推荐(1)

第十九节：Scrapy爬虫框架之Middleware文件详解

摘要：# -*- coding: utf-8 -*-# 在这里定义蜘蛛中间件的模型# Define here the models for your spider middleware## See documentation in:# https://doc.scrapy.org/en/latest/to 阅读全文

posted @ 2019-04-14 21:14 懒惰的小松鼠阅读(1474) 评论(0) 推荐(1)

第十八节：Scrapy爬虫框架之settings文件详解

摘要：# -*- coding: utf-8 -*-# Scrapy settings for maoyan project## For simplicity, this file contains only settings considered important or# commonly used. You can find more settings consulting the documen... 阅读全文

posted @ 2019-04-14 21:12 懒惰的小松鼠阅读(571) 评论(0) 推荐(0)

第十七节：Scrapy爬虫框架之item.py文件以及spider中使用item

摘要：Scrapy原理图： item位于原理图的最左边 item.py文件是报存爬取数据的容器，他使用的方法和字典很相似，但是相比字典item多了额外的保护机制，可以避免拼写错误或者定义错误。 1、创建item 在创建item时需要继承scrapy.Item类，并且定义scrapy.Field字段。由于我阅读全文

posted @ 2019-04-12 16:34 懒惰的小松鼠阅读(780) 评论(0) 推荐(0)

第十六节：Scrapy爬虫框架之项目创建spider文件数据爬取

摘要：Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。其可以应用在数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取所设计的，也可以应用在获取API所返回的数据或者通用的网络爬虫。 Scrapy原理图如下： 1、创建Scrapy项目：进入你需要创建scrapy项阅读全文

posted @ 2019-04-12 14:56 懒惰的小松鼠阅读(2535) 评论(0) 推荐(0)

第十五节：Web爬虫之selenium动态渲染爬取

摘要：selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。支持的浏览器包括IE（7, 8, 9, 10, 11），Mozilla Firefox，Safari，Google Chrome，Opera等。这个工具的主要功能包括：测试与浏览器的阅读全文

posted @ 2019-03-28 15:47 懒惰的小松鼠阅读(164) 评论(0) 推荐(0)

第十四节：Web爬虫之Ajax数据爬取

摘要：有时候在爬取数据的时候我们需要手动向上滑一下，网页才加载一定量的数据，但是网页的url并没有发生变化，这时我们就要考虑使用ajax进行数据爬取了。。。阅读全文

posted @ 2019-03-28 15:38 懒惰的小松鼠阅读(232) 评论(0) 推荐(0)

第十三节：web爬虫之Redis数据存储

摘要：下面仅仅展示Redis的set()集合存储，并不完整，后期会对Redis进行全面的介绍。。。。此时数据已经存储到Redis当中阅读全文

posted @ 2019-03-28 15:34 懒惰的小松鼠阅读(388) 评论(0) 推荐(0)

第十二节：Web爬虫之MongoDB数据库安装与数据存储

摘要：MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。 MongoDB是一个介于关系数据库和非关系数据库之间的产品，是非关系数据库当中功能最丰富，最像关系数据库的。它支持的数据结构非常松散，是类似json的bson格式，因此可以存储比较阅读全文

posted @ 2019-03-17 17:46 懒惰的小松鼠阅读(195) 评论(0) 推荐(0)

第十一节：Web爬虫之数据存储（数据更新、删除、查询）

摘要：接着上一节的内容 5、MySQL数据更新结果是将id=3的name进行更新操作，结果如下： 6、MySQL数据去重及更新结果是判断数据是否有重复的，如果有重复的将不再存储，若没有重复的就更新数据进行插入操作，最后两行数据与红色框起来的数据有相同的，故之存储了最后两行数据，结果如下： 7、MyS 阅读全文

posted @ 2019-03-17 11:38 懒惰的小松鼠阅读(612) 评论(0) 推荐(0)

懒惰的小松鼠

随笔分类 - web爬虫

公告