随笔分类 - 爬虫
摘要:凑合看吧,涉及一些版权问题,地址:aHR0cHM6Ly93d3cubWVpdHVhbi5jb20v cookie和用户id 自行更换 。 仅供学习参考,切勿商用,后果自负 部分图展示: base64接码 # coding=gbk # -*- coding:uft-8 -*- # @Time: 202
阅读全文
摘要:写了一份脚本,(*联)可获取链接 自动投递(playwright或者selenium) 仅供学习使用,切勿违法犯罪 **效果图**:boss,2.再解析 得到我们想要的结果 避免爬一半被反爬了 部分图 实现代码如下 # 1.获取网页 from selenium
阅读全文
摘要:# 需要更改的地方 cookie 、 accesstoken、 与之 对应的 用户id、 # coding=gbk # -*- coding:uft-8 -*- # @Time: 2023/2/4 # @Author: 十架bgm # @FileName: pd import datetime im
阅读全文
摘要:# 功能1:获取手机号归属地 # 功能2:查询天气 # 功能3:查询百度热搜 # 功能4:查询微博热搜 # 功能5:查询b站 # 功能6 ai问答(在这用不了 涉及网站逆向写在另外一个py模块,没写入到这里) # coding=gbk # -*- coding:uft-8 -*- import re
阅读全文
摘要:# coding=gbk # -*- coding:uft-8 -*- from Crypto.Cipher import AES import base64 import binascii import requests import json # 数据类 class MData(): def _
阅读全文
摘要:需求: 将爬取数据保存到数据库 将爬取数据保存为txt文件 将txt文件内容生成为词云 查看爬取到数据库的数据信息 代码如下: import os.path import requests import pymysql import parsel import csv #保存csv文件 import
阅读全文
摘要:1.技巧 打印的字标红 # \033[31m可用\033[0m 例如: a = 1 print(a,'\033[31m变红\033[0m') 2.IP池 与 IP提取 ip池 # coding=gbk # -*- coding:uft-8 -*- # @Time: 2022/12/18 # @Aut
阅读全文
摘要:1.selenium的无头模式,后期有需要可直接提取 # 实现无可视化界面 from selenium.webdriver.chrome.options import Options # 实现无头模式的操作 chrome_options = Options() chrome_options.add_
阅读全文
摘要:# coding=gbk import requests from lxml import etree import time # 每页的职位数 PAGE_SIZE = 10 BASE_DOMAIN = 'https://hr.tencent.com/' HEADERS = { "User-Agen
阅读全文
摘要:爬取的网址:url import requests from lxml import etree from time import sleep # 爬取多页页的代码 def pageTotall(num=None): for i in range(num): # 从0到68 if i == 0: i
阅读全文
摘要:chrome高级调试技巧总结 chrome高级调试技巧总结 转载!很不错,值得推荐,留着备用!!!
阅读全文