布都御魂 - 博客园

2025年1月17日

摘要：下载YouTube视频网址https://www.socialplug.io/free-tools/youtube-video-downloader下载哔哩哔哩视频网址https://greenvideo.cc/bilibili 阅读全文

posted @ 2025-01-17 18:30 布都御魂阅读(589) 评论(0) 推荐(0)

博客园美化

摘要：博客皮肤：custom 博客侧面栏公告：空页面定制css代码 #loading{bottom:0;left:0;position:fixed;right:0;top:0;z-index:9999;background-color:#f4f5f5;pointer-events:none;}.load 阅读全文

posted @ 2025-01-17 18:14 布都御魂阅读(30) 评论(0) 推荐(0)

2025年1月16日

把MongoDB数据库里某字段的内容上传到tos，并把原内容替换成tos链接

摘要： import logging from io import BytesIO import tos from urllib.parse import quote_plus import pymongo # 设置日志格式 logging.basicConfig(level=logging.INFO, f 阅读全文

posted @ 2025-01-16 10:52 布都御魂阅读(56) 评论(0) 推荐(0)

2025年1月10日

补环境的情况和方法

摘要：在 Python 爬虫开发过程中，"补环境"通常指的是确保你的爬虫具备所有必要的配置和依赖，以便能够成功地访问和解析目标网站。以下是一些常见的情况，以及如何补全环境的方法： ### 1. 网站需要特定的 User-Agent如果网站根据 User-Agent 来限制爬虫访问，你需要设置一个常见的浏览阅读全文

posted @ 2025-01-10 11:26 布都御魂阅读(171) 评论(0) 推荐(0)

浏览器隐身模式

摘要：隐身模式（也称为隐身窗口或隐私模式）在浏览器自动化和爬虫应用中提供了几个关键好处：避免跟踪：隐身模式不会保存浏览历史、Cookie 或站点数据。这意味着每次启动隐身会话时，都是一个全新的、无痕迹的会话，有助于避免跨站点的跟踪。减少检测：许多网站使用 Cookie 和本地存储来识别和跟踪用户行为。阅读全文

posted @ 2025-01-10 11:20 布都御魂阅读(626) 评论(0) 推荐(0)

2024年11月13日

python查询MongoDB数据库中重复数据的标题和数量以及删除重复项只保留最新一个

摘要： from urllib.parse import quote_plus import pymongo connection_string = "mongodb://localhost:27017" client = pymongo.MongoClient(connection_string) db 阅读全文

posted @ 2024-11-13 16:09 布都御魂阅读(67) 评论(0) 推荐(0)

根据后缀名把Excel文件转换成可以插入MongoDB数据库的数据

摘要： import pandas as pd import os def convert_file_to_json(file_path): # 检查文件扩展名并读取文件 _, file_extension = os.path.splitext(file_path) if file_extension.lo 阅读全文

posted @ 2024-11-13 15:45 布都御魂阅读(44) 评论(0) 推荐(0)

2024年10月21日

工程化爬虫的写法

摘要：爬虫工程化是指将爬虫开发成一个稳定、可维护、可扩展的系统。这通常涉及到以下几个方面：模块化设计：将爬虫分解为多个模块，例如数据抓取、数据解析、数据存储、错误处理等。配置管理：使用配置文件来管理爬虫的参数，如目标URL、请求头、代理服务器等。异常处理：合理处理网络请求异常、数据解析异常等。日志阅读全文

posted @ 2024-10-21 11:39 布都御魂阅读(135) 评论(0) 推荐(0)

2024年10月18日

Server disconnected without sending a response.

摘要：解决办法：关闭代理阅读全文

posted @ 2024-10-18 15:53 布都御魂阅读(380) 评论(0) 推荐(0)

2024年10月8日

获取网页的markdown

摘要： # 获取网页源码 import re import html2text import requests def preprocess_html(html): # 删除没有 src 属性的 img 标签 processed_html = re.sub(r'<img(?![^>]*\ssrc=)[^>] 阅读全文

posted @ 2024-10-08 11:30 布都御魂阅读(38) 评论(0) 推荐(0)