网络爬虫 - 随笔分类 - 麦小秋

开盘啦APP龙虎榜席位标签数据爬虫

摘要：时隔多年，开盘啦APP龙虎榜席位标签爬虫，再上路，代码如下，非专业开发，很业余，数据解析存储中间还有很多不到位的地方，欢迎留言交流： # -*- coding:utf-8 -*- import pymysql import datetime import pandas as pd import ak 阅读全文

posted @ 2021-12-16 23:23 麦小秋阅读(2417) 评论(1) 推荐(0)

网络爬虫（14）-动态页面爬取

摘要：1.Ajax介绍 Ajax，全称为Asynchronous JavaScript and XML，即异步的JavaScript和XML。它不是一门编程语言，而是利用JavaScript在保证页面不被刷新、页面链接不改变的情况下与服务器交换数据并更新部分网页的技术。发送Ajax请求到网页更新过程，简阅读全文

posted @ 2020-01-19 23:23 麦小秋阅读(1349) 评论(0) 推荐(0)

网络爬虫（13）-Scrapy持久化存储

摘要：1.基于终端指令的持久化存储保证爬虫文件的parse方法中有可迭代类型对象（通常为列表or字典）的返回，该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作。执行输出指定格式进行存储：将爬取到的数据写入不同格式的文件中进行存储 scrapy crawl 爬虫名称 -o xxx.jso 阅读全文

posted @ 2019-11-23 13:50 麦小秋阅读(196) 评论(0) 推荐(0)

网络爬虫（12）-Scrapy框架Post请求发送

摘要：1.递归爬取解析多页页面数据 - 需求：将糗事百科所有页码的作者和段子内容数据进行爬取切持久化存储 - 需求分析：每一个页面对应一个url，则scrapy工程需要对每一个页码对应的url依次发起请求，然后通过对应的解析方法进行作者和段子内容的解析。实现方案：将每一个页码对应的url存放到爬虫文件阅读全文

posted @ 2019-11-22 00:10 麦小秋阅读(329) 评论(0) 推荐(0)

网络爬虫（11）-Scrapy分布式

摘要：1.Scrapy-redis简介 scrapy-redis是scrapy框架基于redis数据库的组件，用于scrapy项目的分布式开发和部署。有如下特征：分布式爬取，可以启动多个spider工程，相互之间共享单个redis的requests队列。最适合广泛的多个域名网站的内容爬取。分布式数据阅读全文

posted @ 2019-08-03 11:58 麦小秋阅读(217) 评论(0) 推荐(0)

网络爬虫（10）-进程、线程

摘要：参考文章：https://www.cnblogs.com/alex3714/articles/5230609.html 阅读全文

posted @ 2019-08-03 11:30 麦小秋阅读(134) 评论(0) 推荐(0)

网络爬虫（9）-xpath解析

摘要：1.常用xpath表达式属性定位： #找到class属性值为song的div标签 //div[@class="song"] 层级&索引定位： #找到class属性值为tang的div的直系子标签ul下的第二个子标签li下的直系子标签a //div[@class="tang"]/ul/li[2]/a 阅读全文

posted @ 2019-08-03 01:50 麦小秋阅读(296) 评论(0) 推荐(0)

网络爬虫（8）-正则表达式

摘要：1.常用匹配规则 \w 匹配字母数字及下划线 \W 匹配f非字母数字下划线 \s 匹配任意空白字符，等价于[\t\n\r\f] \S 匹配任意非空字符 \d 匹配任意数字 \D 匹配任意非数字 \A 匹配字符串开始 \Z 匹配字符串结束，如果存在换行，只匹配换行前的结束字符串 \z 匹配字符串结束阅读全文

posted @ 2019-08-02 00:23 麦小秋阅读(241) 评论(0) 推荐(0)

网络爬虫（7）-beautifulSoup解析库

摘要：1.BeautifulSoup介绍 Beautiful Soup就是Python的一个HTML或XML的解析库，可以用它来方便地从网页中提取数据。Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为UTF-8编码。使用流程： - 导包：from bs4 import 阅读全文

posted @ 2019-08-01 23:58 麦小秋阅读(310) 评论(0) 推荐(0)

网络爬虫（6）-Requests库

摘要：1.Requests库基本使用 import requests response = requests.get("https://www.baidu.com") print(response.status_code) print(response.text) print(response.cooki 阅读全文

posted @ 2019-08-01 23:42 麦小秋阅读(393) 评论(0) 推荐(0)

网络爬虫（5）-Scrapy中间件

摘要：1.下载中间件 Downloader Middlewares，位于scrapy引擎和下载器之间的一层组件。 - 作用：引擎将请求传递给下载器过程中，下载中间件可以对请求进行一系列处理。比如设置请求的 User-Agent，设置代理等在下载器完成将Response传递给引擎中，下载中间件可以对响阅读全文

posted @ 2019-08-01 23:23 麦小秋阅读(223) 评论(0) 推荐(0)

网络爬虫（4）-Scrapy增量爬虫

摘要：1.增量爬虫概念通过爬虫程序监测某网站数据更新的情况，以便可以爬取到该网站更新出的新数据。 2.增量爬虫方法在发送请求之前判断这个URL是不是之前爬取过在解析内容后判断这部分内容是不是之前爬取过写入存储介质时判断内容是不是已经在介质中存在分析：不难发现，其实增量爬取的核心是去重，至于去重阅读全文

posted @ 2019-08-01 21:44 麦小秋阅读(320) 评论(0) 推荐(0)

网络爬虫（3）-Scrapy全站爬虫

摘要：1.CrawlSpider介绍 CrawlSpider其实是Spider的一个子类，除了继承到Spider的特性和功能外，还派生除了其自己独有的更加强大的特性和功能。其中最显著的功能就是”LinkExtractors链接提取器“。Spider是所有爬虫的基类，其设计原则只是为了爬取start_url 阅读全文

posted @ 2019-06-29 22:39 麦小秋阅读(360) 评论(0) 推荐(0)

网络爬虫（2）-Scrapy框架介绍

摘要：1.Scrapy框架介绍 Scrapy是一个基于Twisted的异步处理框架，是纯Python实现的爬虫框架，其架构清晰，榄块之间的榈合程度低，可扩展性极强，可以灵活完成各种需求。 Engine：引擎,处理整个系统的数据流处理、触发事务,是整个框架的核心。 Item：项目,它定义了爬取结果的数据结构阅读全文

posted @ 2019-06-29 21:07 麦小秋阅读(376) 评论(0) 推荐(0)

网络爬虫（1）-爬虫与HTTP

摘要：转载：https://cuiqingcai.com/5052.html 1.爬虫分类通用爬虫：通用爬虫是搜索引擎（Baidu、Google、Yahoo等）“抓取系统”的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。简单来讲就是尽可能的；把互联网上的所有的网页下阅读全文

posted @ 2019-06-27 01:02 麦小秋阅读(314) 评论(0) 推荐(0)

麦小秋

记录学习历程！个人Q群：870467632（Python学习交流群）欢迎Python爱好者加入，一起学习，共同进步！

随笔分类 - 网络爬虫

公告