随笔分类 - web爬虫
web爬虫、APP数据爬取。
摘要:1、下载fillder ,fillder官网:https://www.telerik.com/fiddler 2、安装好后设置fillder: 工具—>选项,打开设置面板。选择HTTPS选项卡。 对下边进行勾选: 点击链接进行如下设置: 点击online查看IP地址 在手机端设置IP代理,如果没有安
阅读全文
摘要:一、126,163邮箱模拟登陆 1 # -*- coding:utf-8 -*- 2 import time 3 from selenium import webdriver 4 def login126_or_163emall(url): 5 login_name = input("请输入账号:"
阅读全文
摘要:阿布云为我们提供了隧道代理IP的服务,通过阿布云HTTP隧道的动态版可以让我们的爬虫很好的使用动态代理IP 由此可知我们可以得到requests接入代码 1 # -*- coding:utf-8 -*- 2 import requests 3 4 # 要访问的目标网页 5 url = "http:/
阅读全文
摘要:1、urllib代理设置 结果会出现两种情况 [WinError 10061] 由于目标计算机积极拒绝,无法连接。 解决方法:主要是代理不可用,更换代理就行 [WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。 解决方法:将浏览器的代理设置中的局域
阅读全文
摘要:一、介绍 今天主要介绍的是微博客户端在登录时出现的四宫格手绘验证码,不多说直接看看验证码长成什么样。 二、思路 1、由于微博上的手绘验证码只有四个宫格,且每个宫格之间都有有向线段连接,所以我们可以判断四个宫格不同方向的验证码一共有24种, 我们将四个宫格进行标号,得到的结果如下: 则我们可以排列出2
阅读全文
摘要:图片验证码基本上是有数字和字母或者数字或者字母组成的字符串,然后通过一些干扰线的绘制而形成图片验证码。 例如:知网的注册就有图片验证码 首先我们需要获取验证码图片,通过开发者工具我们可以得到验证码url链接 其次就是通过Pillow类库和tesserocr进行识别,代码如下: 1 # -*- cod
阅读全文
摘要:一、安装tesserocr 1、首先下载tesseract:https://digi.bib.uni-mannheim.de/tesseract/ ,我下载的是tesseract-ocr-setup-3.05.02-20180621.exe 下载完成后直接双击安装,然后一直点击下一步,直到完成。 然
阅读全文
摘要:在上两节当中,我们爬取了360图片,但是我们需要将图片下载下来,这将如何下载和存储呢? 下边叙述一下三种情况:1、将图片下载后存储到MongoDB数据库;2、将图片下载后存储在MySQL数据库;3、将图片下载到本地文件 话不多说,直接上代码: 1、通过item定义存储字段 2、配置settings文
阅读全文
摘要:# -*- coding: utf-8 -*-# 在这里定义蜘蛛中间件的模型# Define here the models for your spider middleware## See documentation in:# https://doc.scrapy.org/en/latest/to
阅读全文
摘要:# -*- coding: utf-8 -*-# Scrapy settings for maoyan project## For simplicity, this file contains only settings considered important or# commonly used. You can find more settings consulting the documen...
阅读全文
摘要:Scrapy原理图: item位于原理图的最左边 item.py文件是报存爬取数据的容器,他使用的方法和字典很相似,但是相比字典item多了额外的保护机制,可以避免拼写错误或者定义错误。 1、创建item 在创建item时需要继承scrapy.Item类,并且定义scrapy.Field字段。由于我
阅读全文
摘要:Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取所设计的, 也可以应用在获取API所返回的数据或者通用的网络爬虫。 Scrapy原理图如下: 1、创建Scrapy项目:进入你需要创建scrapy项
阅读全文
摘要:selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。这个工具的主要功能包括:测试与浏览器的
阅读全文
摘要:有时候在爬取数据的时候我们需要手动向上滑一下,网页才加载一定量的数据,但是网页的url并没有发生变化,这时我们就要考虑使用ajax进行数据爬取了。。。
阅读全文
摘要:下面仅仅展示Redis的set()集合存储,并不完整,后期会对Redis进行全面的介绍。。。。 此时数据已经存储到Redis当中
阅读全文
摘要:MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。 MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较
阅读全文
摘要:接着上一节的内容 5、MySQL数据更新 结果是将id=3的name进行更新操作,结果如下: 6、MySQL数据去重及更新 结果是判断数据是否有重复的,如果有重复的将不再存储,若没有重复的就更新数据进行插入操作, 最后两行数据与红色框起来的数据有相同的,故之存储了最后两行数据,结果如下: 7、MyS
阅读全文

浙公网安备 33010602011771号