秋无之地 - 博客园

[置顶] python爬虫——抖音数据

摘要：最近挺火的抖音短视频，不仅带火了一众主播，连不少做电商的也进驻其中，于是今天我来扒一扒这火的不要不要的抖音数据：一、抓包工具获取用户ID 对于手机app数据，抓包是最直接也是最常见的手段，常用的抓包工具就有：charles、fiddler、wireshark、httpwatch等等，本文使用cha 阅读全文

posted @ 2021-05-13 15:46 秋无之地阅读(6238) 评论(2) 推荐(0)

python爬虫——链家二手房

摘要：相信大家买房前都会在网上找找资料，看看行情，问问朋友，今天就带大家扒一扒《链家二手房》的数据：一、查找数据所在位置：打开链家官网，进入二手房页面，选取某个城市，可以看到该城市房源总数以及房源列表数据。二、确定数据存放位置：某些网站的数据是存放在html中，而有些却api接口，甚至有些加密阅读全文

posted @ 2021-05-21 10:03 秋无之地阅读(493) 评论(0) 推荐(0)

python爬虫——豆瓣电影TOP250数据

摘要：这次以豆瓣电影TOP250网为例编写一个爬虫程序，并将爬取到的数据（排名、电影名和电影海报网址）存入MySQL数据库中。下面是完整代码： Ps：在执行程序前，先在MySQL中创建一个数据库"pachong"。 import pymysql import requests import re #获取资阅读全文

posted @ 2021-05-19 11:17 秋无之地阅读(553) 评论(0) 推荐(0)

python爬虫——《英雄联盟》英雄及皮肤图片

摘要：还记得那些年一起网吧开黑通宵的日子吗？《英雄联盟》绝对是大学时期的风靡游戏，即使毕业多年的大学同学相聚，难免不怀念一番当时一起玩《英雄联盟》的日子。今天就给大家分享一下英雄及皮肤图片的爬虫。一开始都是先去《英雄联盟》官网找到英雄及皮肤图片的网址： URL = r'https://lol.qq.c 阅读全文

posted @ 2021-05-18 11:25 秋无之地阅读(280) 评论(0) 推荐(0)

python爬虫——拉钩网python岗位信息

摘要：之前爬取的网页都是采用“GET”方法，这次爬取“拉勾网”是采取了“POST”的方法。其中,"GET"和“POST”之间最大的区别就是："GET"请求时，数据会直接显示在地址栏；“POST”请求时，数据在数据包（封装在请求体中，通常是js中），爬取难度相对大点。“拉勾网”恰好是需要“POST”请求才能阅读全文

posted @ 2021-05-16 21:35 秋无之地阅读(337) 评论(0) 推荐(0)

python爬虫——《瓜子网》的广州二手车市场信息

摘要：由于多线程爬取数据比单线程的效率要高，尤其对于爬取数据量大的情况，效果更好，所以这次采用多线程进行爬取。具体代码和流程如下： import math import re from concurrent.futures import ThreadPoolExecutor import requests 阅读全文

posted @ 2021-05-15 23:59 秋无之地阅读(394) 评论(0) 推荐(0)

python爬虫——汽车之家数据

摘要：相信很多买车的朋友，首先会在网上查资料，对比车型价格等，首选就是“汽车之家”，于是，今天我就给大家扒一扒汽车之家的数据：一、汽车价格：首先获取的数据是各款汽车名称、价格范围以及最低指导价： def get_oa_price(self): try: oa_price_data_list=[] fo 阅读全文

posted @ 2021-05-14 09:21 秋无之地阅读(938) 评论(0) 推荐(0)