爬虫 - 随笔分类(第2页) - __username

88某团的_token，采集一些信息

摘要：凑合看吧，涉及一些版权问题，地址：aHR0cHM6Ly93d3cubWVpdHVhbi5jb20v cookie和用户id 自行更换。仅供学习参考，切勿商用，后果自负部分图展示： base64接码 # coding=gbk # -*- coding:uft-8 -*- # @Time: 202 阅读全文

posted @ 2023-03-06 12:22 __username 阅读(237) 评论(0) 推荐(0)

77**招聘，**boss 仅供参考，切勿违法犯罪！

摘要：写了一份脚本，（*联）可获取链接自动投递(playwright或者selenium) 仅供学习使用，切勿违法犯罪 **效果图**：boss![](https://img2023.cnblogs.com/blog/3005444/202302/3005444-20230216000952727-12 阅读全文

posted @ 2023-02-15 22:32 __username 阅读(540) 评论(0) 推荐(0)

67使用slenium自动化爬取200页职位信息（也可以用playwright）

摘要：使用虚拟环境创建一个 selenium版本>4 因为反爬比较严重这里没用协议弄采用selenium 思路：1.先用selenium，获取网页（这里获取外页，内页请求量太大），2.再解析得到我们想要的结果避免爬一半被反爬了部分图实现代码如下 # 1.获取网页 from selenium 阅读全文

posted @ 2023-02-06 11:51 __username 阅读(167) 评论(0) 推荐(0)

66拼dd评论采集

摘要：# 需要更改的地方 cookie 、 accesstoken、与之对应的用户id、 # coding=gbk # -*- coding:uft-8 -*- # @Time: 2023/2/4 # @Author: 十架bgm # @FileName: pd import datetime im 阅读全文

posted @ 2023-02-05 13:44 __username 阅读(261) 评论(0) 推荐(0)

64爬取b站，微博，ai问答等数据写入excel

摘要：# 功能1：获取手机号归属地 # 功能2：查询天气 # 功能3：查询百度热搜 # 功能4：查询微博热搜 # 功能5：查询b站 # 功能6 ai问答（在这用不了涉及网站逆向写在另外一个py模块，没写入到这里） # coding=gbk # -*- coding:uft-8 -*- import re 阅读全文

posted @ 2023-02-04 11:10 __username 阅读(167) 评论(0) 推荐(0)

53逆向aes获取接口响应

摘要：# coding=gbk # -*- coding:uft-8 -*- from Crypto.Cipher import AES import base64 import binascii import requests import json # 数据类 class MData(): def _ 阅读全文

posted @ 2023-01-15 11:40 __username 阅读(101) 评论(0) 推荐(0)

42爬取数据并保存至db

摘要：需求：将爬取数据保存到数据库将爬取数据保存为txt文件将txt文件内容生成为词云查看爬取到数据库的数据信息代码如下： import os.path import requests import pymysql import parsel import csv #保存csv文件 import 阅读全文

posted @ 2022-12-23 11:26 __username 阅读(69) 评论(0) 推荐(0)

28构建IP池与从csv中提取ip

摘要：1.技巧打印的字标红 # \033[31m可用\033[0m 例如： a = 1 print(a,'\033[31m变红\033[0m') 2.IP池与 IP提取 ip池 # coding=gbk # -*- coding:uft-8 -*- # @Time: 2022/12/18 # @Aut 阅读全文

posted @ 2022-12-19 02:10 __username 阅读(51) 评论(0) 推荐(0)

25selenium的无头模式，进程池，随机ua、词云图

摘要：1.selenium的无头模式,后期有需要可直接提取 # 实现无可视化界面 from selenium.webdriver.chrome.options import Options # 实现无头模式的操作 chrome_options = Options() chrome_options.add_ 阅读全文

posted @ 2022-12-16 21:46 __username 阅读(251) 评论(0) 推荐(0)

爬取腾讯职位

摘要：# coding=gbk import requests from lxml import etree import time # 每页的职位数 PAGE_SIZE = 10 BASE_DOMAIN = 'https://hr.tencent.com/' HEADERS = { "User-Agen 阅读全文

posted @ 2022-12-08 21:42 __username 阅读(45) 评论(0) 推荐(0)

爬取图片并合成

摘要：爬取的网址：url import requests from lxml import etree from time import sleep # 爬取多页页的代码 def pageTotall(num=None): for i in range(num): # 从0到68 if i == 0: i 阅读全文

posted @ 2022-12-07 04:03 __username 阅读(36) 评论(0) 推荐(0)

chrome高级调试技巧总结

摘要：chrome高级调试技巧总结 chrome高级调试技巧总结转载！很不错，值得推荐，留着备用！！！阅读全文

posted @ 2022-12-03 18:55 __username 阅读(33) 评论(0) 推荐(0)

飞翔的企鹅

日日行，不怕千万里；常常做，不怕千万事

随笔分类 - 爬虫

公告