随笔分类 -  Python爬虫吧

摘要:首先找到自己心仪的棉袄,然后开发者工具手机数据。最主要是找到数据接口的参数变化。通过开发者工具发现, 上代码: 1 """ 2 今天来薅羊毛衣 3 """ 4 import pprint 5 import requests 6 import csv 7 import time 8 import ra 阅读全文
posted @ 2021-11-16 18:16 、一叶孤城 阅读(93) 评论(0) 推荐(0)
摘要:本文仅用于学习与交流使用,不具有任何商业价值,如有问题,请与我联系,我会即时处理。 Python逐梦者。 首先是某果TV。 弹幕。以电影《悬崖之上》为例。弹幕数据所在的文件是动态加载的,打开开发者工具,让它加载很多数据,然后搜索某一条数据就看到在哪个包里了,然后就是参数变化不同分析。某果TV的视频播 阅读全文
posted @ 2021-11-15 17:01 、一叶孤城 阅读(886) 评论(0) 推荐(0)
摘要:能打能扛有颜值,爬一波对奥运健儿的评论。 """ 爬一下B站“杀疯了,这就是国家队的美貌吗?”,视频地址: https://www.xx.com/video/BV1uU4y1H7wL?from=search&seid=14179860062243648577&spm_id_from=333.337. 阅读全文
posted @ 2021-11-15 15:26 、一叶孤城 阅读(64) 评论(0) 推荐(0)
摘要:微博热搜第一名;B站人气超过3.5亿,满屏弹幕;腾讯视频超过600万人观看;央视新闻也发微博祝贺EDG;今天用python来爬下B站“我们是冠军”这个视频的评论并做些可视化。获取呐喊的正确姿势。 评论爬取代码: 1 import csv 2 import pprint 3 import random 阅读全文
posted @ 2021-11-12 20:44 、一叶孤城 阅读(39) 评论(0) 推荐(0)
摘要:协程是啥 简单来说,协程是一种基于线程之上,但又比线程更加轻量级的存在。对于系统内核来说,协程具有不可见的特性,所以这种由 程序员自己写程序来管理 的轻量级线程又常被称作 "用户空间线程"。 协程比多线程好在哪 1. 线程的控制权在操作系统手中,而 协程的控制权完全掌握在用户自己手中,因此利用协程可 阅读全文
posted @ 2021-11-11 15:35 、一叶孤城 阅读(637) 评论(0) 推荐(0)
摘要:冬天来了,想着爬下某团的烤肉,代码如下: 1 """ 2 爬取某团 3 """ 4 import csv 5 import random 6 7 import requests 8 import pprint 9 import os 10 import time 11 12 keyword = in 阅读全文
posted @ 2021-11-10 21:28 、一叶孤城 阅读(81) 评论(0) 推荐(0)
摘要:连央视都祝贺EDG夺冠,作为码农的我们,怎么能闲着,就来爬爬B站的弹幕,看看人都说了什么。刚开始有这个想法的时候呢,B站的视频cid地址还保存在json中,今天来写的时候,发现已经没有了,截图如下: 本来请求视频播放页面后,会有一个playlist的包,包里的json数据呢,就是图中圈圈的位置,id 阅读全文
posted @ 2021-11-09 22:19 、一叶孤城 阅读(133) 评论(0) 推荐(0)
摘要:本文内容来源于网络,仅供学习和交流使用,不具有任何商业用途,如有侵权或者其他问题,请即时与我联系,我会第一时间处理。 Python逐梦者。 如题: 1 """ 2 下载应用宝上所有的apk文件 3 """ 4 import os 5 import random 6 7 from selenium i 阅读全文
posted @ 2021-11-08 20:53 、一叶孤城 阅读(588) 评论(0) 推荐(0)
摘要:本文内容仅供学习交流使用,不具有任何商业用途,如有问题请即时联系我处理。--Python逐梦者。 某度上很多免费代理的网站,今天尝试来爬一个试着做下代理池。 代码开始: 1 """ 2 找一个免费代理,然后将它搭建成爬虫的代理池 3 """ 4 import requests 5 import cs 阅读全文
posted @ 2021-11-08 17:19 、一叶孤城 阅读(86) 评论(0) 推荐(0)
摘要:本文内容仅供学习交流使用,不具有任何商业用途,如有问题请即时联系我处理。--Python逐梦者 """ 爬一下去哪儿的旅游景点 """ import random import requests import parsel import csv import time from urllib.par 阅读全文
posted @ 2021-11-08 15:31 、一叶孤城 阅读(152) 评论(0) 推荐(0)
摘要:爬取某房源数据,算加深对parsel库的使用。 1 """ 2 爬取房源 3 """ 4 5 import requests 6 import csv 7 import parsel 8 9 # 请求头 10 headers = { 11 'user-agent':'Mozilla/5.0 (Win 阅读全文
posted @ 2021-11-04 17:17 、一叶孤城 阅读(119) 评论(0) 推荐(0)
摘要:爬取某东商品数据,没有分页。 """ 采集某东数据 """ import random import time import csv from selenium import webdriver # 传入关键词进行搜索 def get_product(keyword): driver.find_el 阅读全文
posted @ 2021-11-03 20:23 、一叶孤城 阅读(88) 评论(0) 推荐(0)
摘要:查看一些解放号的外包数据。 """ 爬取解放号的数据 """ # 先搜索,找到我们需要的数据,然后通过开发者工具看看它是从哪里来的 # 首先打开解放号首页,然后搜索python # 查看第一条 # 发现它的数据来源为:https://www.jfh.com/jfportal/workMarket/g 阅读全文
posted @ 2021-11-02 21:01 、一叶孤城 阅读(71) 评论(0) 推荐(0)
摘要:用Python查看一下前程无忧的Python岗,并尝试做一些可视化以直观化。 """ Python爬取前程无忧,获取最新招聘薪资福利 """ import json import pprint import random import requests import re import csv im 阅读全文
posted @ 2021-11-02 11:11 、一叶孤城 阅读(165) 评论(0) 推荐(0)
摘要:几句闲话,确定数据来源,找到要爬的播放列表,先提取列表,然后请求列表中每个视频的播放页,确定播放请求的页面,确定视频的最终来源。抖音的最终播放网址是编码了放在源码中的。 """ 巩固爬取抖音小姐姐的视频 """ import time import requests import requests. 阅读全文
posted @ 2021-11-01 17:24 、一叶孤城 阅读(1098) 评论(0) 推荐(0)
摘要:爬某牙小姐姐视频,播放量最多的那种。因为数据提取很繁琐,就不bb了。直接上代码,代码里有注释。 """ 试爬某牙的视频,养养眼 """ import os import pprint import re import requests # 视频地址:https://v.huya.com/ ->频道, 阅读全文
posted @ 2021-10-29 10:15 、一叶孤城 阅读(44) 评论(0) 推荐(0)
摘要:现在很多音乐平台的音乐因为版权,或多或少要收费或者只对vip开放,有时候想听首自己喜欢的歌都很闹心。今天来爬下网易云音乐的热歌榜,也可以爬自己喜欢的音乐然后下载到本地进行欣赏。 """ Python爬取网易云音乐热歌榜 """ import requests import re import os 阅读全文
posted @ 2021-10-27 20:14 、一叶孤城 阅读(243) 评论(0) 推荐(0)
摘要:正文:今天来爬一下boss直聘上关于python在全国的招聘岗位。 开发环境: python 3.7.9 pycharm 用到的库: pandas csv selenium pyecharts (做可视化的时候用到) 爬虫以及保存csv文件的代码: """ 爬取boss直评数据 """ import 阅读全文
posted @ 2021-10-26 16:27 、一叶孤城 阅读(1324) 评论(0) 推荐(0)
摘要:电影《长津湖》是今年电影界的神,其他的不说,我来爬些豆瓣对长津湖的短评看看,暂时不做可视化。 """ 爬取一下豆瓣的长津湖短评,爬取短评的六个内容: 评论人,是否看过,星级(推荐力度),时间,获赞数,评论内容 将爬取的内容存储到csv文档中 """ import requests # from bs 阅读全文
posted @ 2021-10-21 21:47 、一叶孤城 阅读(467) 评论(0) 推荐(0)
摘要:前面做了个爬表情包的文章,群聊斗神 - Python爬取斗图表情包 - 斗图之神的战斗神。今天又爬取了一些表情包,但是这次的处理方式有些许的不同,就是在查找到网页中所有的img标签后,处理图片url和图片名字的时候有些许不同。前面是通过处理字符串的方式来处理,效率上会慢一些,今天用bs4处理标签的方 阅读全文
posted @ 2021-09-24 19:24 、一叶孤城 阅读(239) 评论(0) 推荐(0)