摘要: from urllib.parse import quote_plus import pymongo # 创建MongoClient实例,连接到MongoDB connection_string = f'' client = pymongo.MongoClient(connection_string 阅读全文
posted @ 2024-11-13 16:09 布都御魂 阅读(8) 评论(0) 推荐(0) 编辑
摘要: import pandas as pd import os def convert_file_to_json(file_path): # 检查文件扩展名并读取文件 _, file_extension = os.path.splitext(file_path) if file_extension.lo 阅读全文
posted @ 2024-11-13 15:45 布都御魂 阅读(1) 评论(0) 推荐(0) 编辑
摘要: 爬虫工程化是指将爬虫开发成一个稳定、可维护、可扩展的系统。这通常涉及到以下几个方面: 模块化设计:将爬虫分解为多个模块,例如数据抓取、数据解析、数据存储、错误处理等。 配置管理:使用配置文件来管理爬虫的参数,如目标URL、请求头、代理服务器等。 异常处理:合理处理网络请求异常、数据解析异常等。 日志 阅读全文
posted @ 2024-10-21 11:39 布都御魂 阅读(26) 评论(0) 推荐(0) 编辑
摘要: 解决办法:关闭代理 阅读全文
posted @ 2024-10-18 15:53 布都御魂 阅读(21) 评论(0) 推荐(0) 编辑
摘要: # 获取网页源码 import re import html2text import requests def preprocess_html(html): # 删除没有 src 属性的 img 标签 processed_html = re.sub(r'<img(?![^>]*\ssrc=)[^>] 阅读全文
posted @ 2024-10-08 11:30 布都御魂 阅读(5) 评论(0) 推荐(0) 编辑
摘要: 删除“If-Modified-Since” 和 “If-None-Match” 等条件请求头 阅读全文
posted @ 2024-09-03 10:28 布都御魂 阅读(4) 评论(0) 推荐(0) 编辑
摘要: def clean_title_source_date(s): # 使用正则表达式去除回车符、制表符、换行符、全角空格和非断行空白符 cleaned = re.sub(r'[ \r\t\n\u3000\xa0来源:]', '', s) return cleaned 阅读全文
posted @ 2024-08-28 10:16 布都御魂 阅读(11) 评论(0) 推荐(0) 编辑
摘要: # 把结果复制到MongoDB compass上的查询位置# 点击export data# 点击Export query results# Select fields in table 选择需要导出的字段# 导出last=open('spider.results_dangdang.csv','r', 阅读全文
posted @ 2024-07-10 16:27 布都御魂 阅读(39) 评论(0) 推荐(0) 编辑
摘要: import rea = """sdfkhellolsdlfsdfiooefo:877898989worldafdsf"""b = re.findall('hello(.*?)world',a)c = re.findall('hello(.*?)world',a,re.S)print ('b is 阅读全文
posted @ 2024-06-24 17:04 布都御魂 阅读(4) 评论(0) 推荐(0) 编辑
摘要: # 流冠IP获取代理 # 提取订单 """ orderId:提取订单号 secret:用户密钥 num:提取IP个数 pid:省份 cid:城市 type:请求类型,1=http/https,2=socks5 unbindTime:使用时长,秒/s为单位 noDuplicate:去重,0=不去重,1 阅读全文
posted @ 2024-03-22 09:08 布都御魂 阅读(29) 评论(0) 推荐(0) 编辑