随笔分类 -  爬虫

摘要:凑合看吧,涉及一些版权问题,地址:aHR0cHM6Ly93d3cubWVpdHVhbi5jb20v cookie和用户id 自行更换 。 仅供学习参考,切勿商用,后果自负 部分图展示: base64接码 # coding=gbk # -*- coding:uft-8 -*- # @Time: 202 阅读全文
posted @ 2023-03-06 12:22 __username 阅读(219) 评论(0) 推荐(0)
摘要:写了一份脚本,(*联)可获取链接 自动投递(playwright或者selenium) 仅供学习使用,切勿违法犯罪 **效果图**:boss![](https://img2023.cnblogs.com/blog/3005444/202302/3005444-20230216000952727-12 阅读全文
posted @ 2023-02-15 22:32 __username 阅读(507) 评论(0) 推荐(0)
摘要:使用虚拟环境 创建一个 selenium版本>4 因为反爬比较严重 这里没用协议弄 采用selenium 思路:1.先用selenium,获取网页(这里获取外页,内页请求量太大),2.再解析 得到我们想要的结果 避免爬一半被反爬了 部分图 实现代码如下 # 1.获取网页 from selenium 阅读全文
posted @ 2023-02-06 11:51 __username 阅读(143) 评论(0) 推荐(0)
摘要:# 需要更改的地方 cookie 、 accesstoken、 与之 对应的 用户id、 # coding=gbk # -*- coding:uft-8 -*- # @Time: 2023/2/4 # @Author: 十架bgm # @FileName: pd import datetime im 阅读全文
posted @ 2023-02-05 13:44 __username 阅读(218) 评论(0) 推荐(0)
摘要:# 功能1:获取手机号归属地 # 功能2:查询天气 # 功能3:查询百度热搜 # 功能4:查询微博热搜 # 功能5:查询b站 # 功能6 ai问答(在这用不了 涉及网站逆向写在另外一个py模块,没写入到这里) # coding=gbk # -*- coding:uft-8 -*- import re 阅读全文
posted @ 2023-02-04 11:10 __username 阅读(119) 评论(0) 推荐(0)
摘要:# coding=gbk # -*- coding:uft-8 -*- from Crypto.Cipher import AES import base64 import binascii import requests import json # 数据类 class MData(): def _ 阅读全文
posted @ 2023-01-15 11:40 __username 阅读(73) 评论(0) 推荐(0)
摘要:需求: 将爬取数据保存到数据库 将爬取数据保存为txt文件 将txt文件内容生成为词云 查看爬取到数据库的数据信息 代码如下: import os.path import requests import pymysql import parsel import csv #保存csv文件 import 阅读全文
posted @ 2022-12-23 11:26 __username 阅读(54) 评论(0) 推荐(0)
摘要:1.技巧 打印的字标红 # \033[31m可用\033[0m 例如: a = 1 print(a,'\033[31m变红\033[0m') 2.IP池 与 IP提取 ip池 # coding=gbk # -*- coding:uft-8 -*- # @Time: 2022/12/18 # @Aut 阅读全文
posted @ 2022-12-19 02:10 __username 阅读(48) 评论(0) 推荐(0)
摘要:1.selenium的无头模式,后期有需要可直接提取 # 实现无可视化界面 from selenium.webdriver.chrome.options import Options # 实现无头模式的操作 chrome_options = Options() chrome_options.add_ 阅读全文
posted @ 2022-12-16 21:46 __username 阅读(227) 评论(0) 推荐(0)
摘要:# coding=gbk import requests from lxml import etree import time # 每页的职位数 PAGE_SIZE = 10 BASE_DOMAIN = 'https://hr.tencent.com/' HEADERS = { "User-Agen 阅读全文
posted @ 2022-12-08 21:42 __username 阅读(30) 评论(0) 推荐(0)
摘要:爬取的网址:url import requests from lxml import etree from time import sleep # 爬取多页页的代码 def pageTotall(num=None): for i in range(num): # 从0到68 if i == 0: i 阅读全文
posted @ 2022-12-07 04:03 __username 阅读(26) 评论(0) 推荐(0)
摘要:chrome高级调试技巧总结 chrome高级调试技巧总结 转载!很不错,值得推荐,留着备用!!! 阅读全文
posted @ 2022-12-03 18:55 __username 阅读(23) 评论(0) 推荐(0)