会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
明媚的夏午
导航
博客园
首页
新随笔
联系
订阅
管理
公告
上一页
1
2
3
4
5
6
7
8
···
14
下一页
2023年3月14日
session 用法及post请求data写法
摘要: 用Session会保留访问网页的一些信息 ,如 Cookie 更高效 还有一种写法: 原因是源码中session方法 return Session 类 两种写法本质是一样的 报错 400: 成功写法: 或 有时候爬虫需要知道数据的总页数,可以去响应头或者返回数据里面找:
阅读全文
posted @ 2023-03-14 16:46 明媚的夏午
阅读(182)
评论(0)
推荐(0)
postman post请求
摘要: https://moh.nugmyanmar.org/news-media/ 翻页时 post请求 打开postman 输入请求网址 查看网页载荷 将载荷以key:value的方式输入
阅读全文
posted @ 2023-03-14 15:26 明媚的夏午
阅读(34)
评论(0)
推荐(0)
2023年3月13日
不完整的网页xpath
摘要: if page == 1: res = utils.multi_requests(url='https://moh.nugmyanmar.org/news-media/') selector = etree.HTML(res.text) tag_groups = selector.xpath("//
阅读全文
posted @ 2023-03-13 11:23 明媚的夏午
阅读(37)
评论(0)
推荐(0)
2023年3月6日
列表不改变顺序去重
摘要: tag_groups_3 = self.generate_groups_1(tag_groups_2,['div > table > tbody > tr > td', 'table > tbody > tr > td', 'div > div','p >img']) 方法一: tag_groups
阅读全文
posted @ 2023-03-06 14:58 明媚的夏午
阅读(24)
评论(0)
推荐(0)
2023年3月2日
python存 文件报错
摘要: with open("regulation_news_02.json", "w") as file: file.write(json.dumps(data, indent=2, ensure_ascii=False)) 报错: Traceback (most recent call last): F
阅读全文
posted @ 2023-03-02 12:00 明媚的夏午
阅读(45)
评论(0)
推荐(0)
2023年2月14日
提取关键词的算法
摘要: 1、keyBERT(英文效果>中文) 链接:https://hidadeng.github.io/blog/keybert_tutorial/ 用法: !pip3 install gensim==4.0.0 !pip3 install keybert==0.5.1!pip3 install gens
阅读全文
posted @ 2023-02-14 15:06 明媚的夏午
阅读(764)
评论(0)
推荐(0)
2023年2月1日
爬虫经验
摘要: 示例网站: 1、点页码只有后一部分start=1 改变 2、点步长只有第一次url改变 构造方法 :尝试在1后加上2的一部分
阅读全文
posted @ 2023-02-01 16:00 明媚的夏午
阅读(20)
评论(0)
推荐(0)
2023年1月31日
自己搭建代理池
摘要: 参考 : https://cuiqingcai.com/7048.html ProxyPool 简易高效的代理池,提供如下功能: 定时抓取免费代理网站,简易可扩展。 使用 Redis 对代理进行存储并对代理可用性进行排序。 定时测试和筛选,剔除不可用代理,留下可用代理。 提供代理 API,随机取用测
阅读全文
posted @ 2023-01-31 15:04 明媚的夏午
阅读(1315)
评论(0)
推荐(0)
2023年1月28日
一些库安装
摘要: seleniumwire from seleniumwire import webdriver参考 https://crifan.github.io/selenium_summary/website/plugin/selenium_wire.html from webdriver_manager.c
阅读全文
posted @ 2023-01-28 17:42 明媚的夏午
阅读(26)
评论(0)
推荐(0)
2023年1月6日
python 访问excel 、pdf链接 读取并处理 数据
摘要: python访问excel链接,读取内容 res_url = ‘https://dispozitive.anm.ro/f1f2-display’ res = requests.get(res_url, timeout=60) selector = etree.HTML(res.text) xls_l
阅读全文
posted @ 2023-01-06 15:25 明媚的夏午
阅读(290)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
···
14
下一页