摘要: # -*- coding: utf-8 -*- """ @Time : 2022/3/22 16:57 @Author : Andrew @File : 多线程应用.py """ # 1.如何提取单个页面的数据 # 2.设置线程池,多个页面同时抓取 from concurrent.futures.t 阅读全文
posted @ 2022-03-22 19:21 乔十六 阅读(49) 评论(0) 推荐(0)
摘要: # -*- coding: utf-8 -*- """ @Time : 2022/3/22 10:33 @Author : Andrew @File : 网易云评论.py """ # 找到未加密的参数 # 想办法把参数加密。过程必须参考网易加密过程 params,encSeckey # 请求网易拿到 阅读全文
posted @ 2022-03-22 13:43 乔十六 阅读(192) 评论(1) 推荐(0)
摘要: # -*- coding: utf-8 -*- """ @Time : 2022/3/21 17:02 @Author : Andrew @File : 防盗链.py """ # 页面源代码运行后,在数据的加持下,才是实时的f12所看到的样子 # 1通过对比视频播放地址,实际的地址https://w 阅读全文
posted @ 2022-03-21 19:26 乔十六 阅读(71) 评论(0) 推荐(0)
摘要: # -*- coding: utf-8 -*- """ @Time : 2022/3/21 14:10 @Author : Andrew @File : requests进阶.py """ """ requests进阶 -headers,是HTTP协议中的请求头,一般会存放一些和请求内容无关的数据。 阅读全文
posted @ 2022-03-21 17:00 乔十六 阅读(488) 评论(0) 推荐(0)
摘要: # -*- coding: utf-8 -*- """ @Time : 2022/3/19 16:31 @Author : Andrew @File : 抓取优美图库.py """ # 1.拿到主页面的地址,获取主页面的源代码 # 2.通过f12进行定位,在该区域寻找图片,看是否需要进入子页面提取 阅读全文
posted @ 2022-03-19 21:01 乔十六 阅读(48) 评论(0) 推荐(0)
摘要: 1.爬取2022精品电影名和下载链接(种子) # -*- coding: utf-8 -*- """ @Time : 2022/3/18 17:21 @Author : Andrew @File : 电影天堂.py """ import csv import requests import re " 阅读全文
posted @ 2022-03-19 12:20 乔十六 阅读(35922) 评论(0) 推荐(0)
摘要: # -*- coding: utf-8 -*- """ @Time : 2022/3/18 15:53 @Author : Andrew @File : 豆瓣top250.py """ import requests # 拿到页面源代码 import re # 提取有效信息 import csv # 阅读全文
posted @ 2022-03-18 17:03 乔十六 阅读(51) 评论(0) 推荐(0)
摘要: 1.requests安装 pip安装库 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests 2.获取搜狗网页时的处理小反爬 import requests # 地址栏里的链接都是get请求 url = "https://w 阅读全文
posted @ 2022-03-18 10:42 乔十六 阅读(78) 评论(0) 推荐(0)