Dragon、

2021年10月7日

摘要：会员消费行为分析项目描述：本项目是线下门店数据，来自于知名全国连锁健身俱乐部的会员数据。我将会带你根据用户个体行为，对复购率、回购率、用户分层、回流用户、活跃用户、用户生命周期等多维度指标进行深入分析 import pymysql import pandas as pd import numpy 阅读全文

posted @ 2021-10-07 23:27 Dragon、阅读(523) 评论(0) 推荐(0)

2019年8月7日

QQ音乐爬虫

摘要： #今日目标 **QQ音乐爬虫** 今天要爬取的是QQ音乐任意歌手的所有音乐歌词，因为笔者是周杰伦的忠实粉丝，所以专门写了个爬虫来爬取他的音乐的歌词，因为他的音乐在咪咕音乐可以听，所以便没有去爬取。好了，下面直接给出代码！ *代码实现* ``` import requests import csv singer=input('你喜欢的歌手是谁？\n') url='https://c.y.qq.co 阅读全文

posted @ 2019-08-07 23:09 Dragon、阅读(814) 评论(0) 推荐(0)

50行代码爬取微信公众号所有文章

摘要： #今日目标 **50行代码爬取微信公众号所有文章** 今天要爬取的是微信公众号，爬取公众号的方式常见的有两种。一是通过搜狗搜索去获取，缺点是只能获取最新的十条推送文章，今天介绍另一种通过抓包PC端微信的方式去获取公众号文章的方法，相对其他方法更加便捷。分析：我们发现每次下拉刷新文章的时候都会请求 mp.weixin.qq.com/mp/xxx公众号不让添加主页链接，xxx表示profile_e 阅读全文

posted @ 2019-08-07 22:57 Dragon、阅读(10132) 评论(3) 推荐(0)

2019年8月4日

scrapy之盗墓笔记三级页面爬取

摘要： #今日目标 **scrapy之盗墓笔记三级页面爬取** 今天要爬取的是盗墓笔记小说，由分析该小说的主要内容在三级页面里，故需要我们一一解析 *代码实现* daomu.py ``` import scrapy from ..items import DaomuItem class DaomuSpider(scrapy.Spider): name = 'daomu' a... 阅读全文

posted @ 2019-08-04 21:10 Dragon、阅读(882) 评论(5) 推荐(0)

scrapy之360图片爬取

摘要： #今日目标 **scrapy之360图片爬取** 今天要爬取的是360美女图片，首先分析页面得知网页是动态加载，故需要先找到网页链接规律，然后调用ImagesPipeline类实现图片爬取 *代码实现* so.py ``` # -*- coding: utf-8 -*- import scrapy import json from ..items import SoItem clas... 阅读全文

posted @ 2019-08-04 21:00 Dragon、阅读(332) 评论(0) 推荐(0)

2019年8月1日

拉勾网python开发要求爬虫

摘要： #今日目标 **拉勾网python开发要求爬虫** 今天要爬取的是北京python开发的薪资水平，招聘要求，福利待遇以及公司的地理位置。通过实践发现除了必须携带headers之外，拉勾网对ip访问频率也是有限制的。一开始会提示 '访问过于频繁'，继续访问则会将ip拉入黑名单。不过一段时间之后会自动从黑名单中移除。针对这个策略，我们可以对请求频率进行限制，这个弊端就是影响爬虫效率。其次我们... 阅读全文

posted @ 2019-08-01 23:39 Dragon、阅读(348) 评论(1) 推荐(1)

2019年7月30日

selenium之京东商品爬虫

摘要： #今日目标 **selenium之京东商品爬虫** 自动打开京东首页，并输入你要搜索的东西，进入界面进行爬取信息 ``` from selenium import webdriver import time class JdSpider(object): def __init__(self): self.browser=webdriver.Chrome() ... 阅读全文

posted @ 2019-07-30 22:54 Dragon、阅读(810) 评论(0) 推荐(1)

多线程之小米商店APP爬虫

摘要： #今日目标 **多线程之小米商店APP爬虫** 爬取小米商店所有社交APP ``` import requests import time from threading import Thread from queue import Queue import json class XiaoAppSpider(object): def __init__(self): ... 阅读全文

posted @ 2019-07-30 22:49 Dragon、阅读(487) 评论(0) 推荐(0)

2019年7月28日

腾讯招聘爬虫

摘要： #今日目标 **腾讯招聘爬虫** 爬取该网站技术类的职位名以及它们的要求、职责 ``` import requests import json import time import random class TencentSpider(object): def __init__(self): self.headers = {'User-Agent':'Mozill... 阅读全文

posted @ 2019-07-28 21:41 Dragon、阅读(568) 评论(0) 推荐(1)

中华人民行政部网站爬虫

摘要： #中华人民行政部网站爬虫 **今日目标** 爬取该网站行政数据里的县以上最新行政区代码 ``` import requests from lxml import etree import pymysql import re class Govement(object): def __init__(self): self.one_url = 'http://www.m... 阅读全文

posted @ 2019-07-28 21:36 Dragon、阅读(411) 评论(0) 推荐(0)

公告