上一页 1 2 3 4 5 6 ··· 25 下一页
摘要: 博客皮肤:custom 博客侧面栏公告:空 页面定制css代码 #loading{bottom:0;left:0;position:fixed;right:0;top:0;z-index:9999;background-color:#f4f5f5;pointer-events:none;}.load 阅读全文
posted @ 2025-01-17 18:14 布都御魂 阅读(25) 评论(0) 推荐(0)
摘要: import logging from io import BytesIO import tos from urllib.parse import quote_plus import pymongo # 设置日志格式 logging.basicConfig(level=logging.INFO, f 阅读全文
posted @ 2025-01-16 10:52 布都御魂 阅读(49) 评论(0) 推荐(0)
摘要: 在 Python 爬虫开发过程中,"补环境"通常指的是确保你的爬虫具备所有必要的配置和依赖,以便能够成功地访问和解析目标网站。以下是一些常见的情况,以及如何补全环境的方法: ### 1. 网站需要特定的 User-Agent如果网站根据 User-Agent 来限制爬虫访问,你需要设置一个常见的浏览 阅读全文
posted @ 2025-01-10 11:26 布都御魂 阅读(144) 评论(0) 推荐(0)
摘要: 隐身模式(也称为隐身窗口或隐私模式)在浏览器自动化和爬虫应用中提供了几个关键好处: 避免跟踪:隐身模式不会保存浏览历史、Cookie 或站点数据。这意味着每次启动隐身会话时,都是一个全新的、无痕迹的会话,有助于避免跨站点的跟踪。 减少检测:许多网站使用 Cookie 和本地存储来识别和跟踪用户行为。 阅读全文
posted @ 2025-01-10 11:20 布都御魂 阅读(404) 评论(0) 推荐(0)
摘要: from urllib.parse import quote_plus import pymongo connection_string = "mongodb://localhost:27017" client = pymongo.MongoClient(connection_string) db 阅读全文
posted @ 2024-11-13 16:09 布都御魂 阅读(54) 评论(0) 推荐(0)
摘要: import pandas as pd import os def convert_file_to_json(file_path): # 检查文件扩展名并读取文件 _, file_extension = os.path.splitext(file_path) if file_extension.lo 阅读全文
posted @ 2024-11-13 15:45 布都御魂 阅读(37) 评论(0) 推荐(0)
摘要: 爬虫工程化是指将爬虫开发成一个稳定、可维护、可扩展的系统。这通常涉及到以下几个方面: 模块化设计:将爬虫分解为多个模块,例如数据抓取、数据解析、数据存储、错误处理等。 配置管理:使用配置文件来管理爬虫的参数,如目标URL、请求头、代理服务器等。 异常处理:合理处理网络请求异常、数据解析异常等。 日志 阅读全文
posted @ 2024-10-21 11:39 布都御魂 阅读(121) 评论(0) 推荐(0)
摘要: 解决办法:关闭代理 阅读全文
posted @ 2024-10-18 15:53 布都御魂 阅读(334) 评论(0) 推荐(0)
摘要: # 获取网页源码 import re import html2text import requests def preprocess_html(html): # 删除没有 src 属性的 img 标签 processed_html = re.sub(r'<img(?![^>]*\ssrc=)[^>] 阅读全文
posted @ 2024-10-08 11:30 布都御魂 阅读(29) 评论(0) 推荐(0)
摘要: 删除“If-Modified-Since” 和 “If-None-Match” 等条件请求头 阅读全文
posted @ 2024-09-03 10:28 布都御魂 阅读(12) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 ··· 25 下一页