11 2019 档案
摘要:一、介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域,也可以应用在获取API所返回的数据(例如 Amazon As
阅读全文
摘要:一、简介 MongoDB是一款强大、灵活、且易于扩展的通用型数据库 优点:易用性、易拓展性、性能卓越、丰富的功能(索引、聚合、特殊集合、文件存储) 二、基础知识 1、文档是MongoDB的核心概念 需要注意的是: #1、文档中的键/值对是有序的。 #2、文档中的值不仅可以是在双引号里面的字符串,还可
阅读全文
摘要:一、介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器 from selenium
阅读全文
摘要:1、https://www.autohome.com.cn/news/1/#liststart 检查代码 2、爬取代码 #爬取的地址 # https://www.autohome.com.cn/news/1/#liststart from bs4 import BeautifulSoup impor
阅读全文
摘要:一、介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Soup3 的文档,Beautifu
阅读全文
摘要:一、介绍 #介绍:使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3) #注意:requests库发送请求将网页内容下载下来以后,并不会执行js代码,这需要我们自己分析目标站点然后发起新的request请求 #安装
阅读全文
摘要:1、请求Headers里 URL请求地址,分析得出加载视频个数 1625830,1625746,等等为加载更多视频过滤条件 2、去除后缀,拿原始链接可以请求数据 分析得知start=0 为第一个视频 3、查看源代码,下面为真实数据请求地址 4、代码 # 获取视频 import re res = re
阅读全文
摘要:一、爬虫介绍: -本质, -就是想网站发送http请求,拿回一些页面/json格式数据(request) -处理数据,解析出有用的东西(re,bs4) -存储(mysql,文件,cvs,redis,MongoDB,es) -分析 -cookie池和代理池 -爬视频 -正向代理和反向代理 (正向代理-
阅读全文
摘要:虚拟环境配置 cmd敲 workon 确认是否配置环境 1、配置 安装 # 建议使用pip3安装到python3环境下 pip3 install virtualenv pip3 install virtualenvwrapper-win macOS系统 # 建议使用pip3安装到python3环境下
阅读全文
摘要:一、flask-script 自定义命令 类似于django的命令行启动项目(python3 manage.py runserver) 首先安装 pip3 install flask-script 使用 (注意我这里的文件名取shell-ma,文件名随便取) from flask import Fl
阅读全文
摘要:蓝图作用 相当于一个功能模块,能做到即插即用 蓝图运用示例1: 简单项目示例 account.py #!/usr/bin/env python # -*- coding:utf-8 -*- from flask import Blueprint from flask import render_te
阅读全文
摘要:local from threading import get_ident,Thread 使用thread local对象可以基于线程存储全局变量,但在web引用中出现两个问题: 1、有些应用使用的greenlet协程,无法保证数据隔离的问题,因为不同协程在同一个线程中; 2.、无法保证每个http
阅读全文
摘要:一、简介 轻量级的框架,非常快速的就能把程序搭建起来 Flask是一个基于Python开发并且依赖jinja2模板和Werkzeug WSGI服务的一个微型框架,对于Werkzeug本质是Socket服务端,其用于接收http请求并对请求进行预处理,然后触发Flask框架,开发人员基于Flask框架
阅读全文
摘要:Celery 官网:http://www.celeryproject.org/ Celery 官方文档英文版:http://docs.celeryproject.org/en/latest/index.html Celery 官方文档中文版:http://docs.jinkan.org/docs/c
阅读全文
摘要:目录 1.接口 2.DRF入门 3.序列化组件 4.三大认证 5.群查过滤组件 接口 """ 1、什么是接口:url+请求参数+响应数据 | 接口文档 2、接口规范: url:https,api,资源(名词复数),v1,get|post表示操作资源的方式,?过滤条件 响应数据:status,msg,
阅读全文