会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Magiclala的博客
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
9
10
···
25
下一页
2024年3月5日
Python web crawler(9)多任务同步、异步(协程)
摘要: asyncio模块 协程对象(coroutine object),缩写coro,俗称coro对象。 概述 asyncio模块 是python3.4版本引入的标准库,直接内置了对异步IO的操作 编程模式 是一个消息循环,我们从asyncio模块中直接获取一个EventLoop的引用,然后把需要执行的协
阅读全文
posted @ 2024-03-05 11:57 Magiclala
阅读(141)
评论(0)
推荐(0)
2024年2月28日
Python web crawler(8)selenium的使用
摘要: 1.安装:selenium 在本地终端中安装 pip install selenium 2.下载浏览器API包:(chrome浏览器) 它与其他库不同的地方是他要启动你电脑上的浏览器, 这就需要一个驱动程序来辅助. 这里推荐用chrome浏览器 chrome驱动地址: 114.0.5735.90之前
阅读全文
posted @ 2024-02-28 16:14 Magiclala
阅读(284)
评论(0)
推荐(0)
2024年2月26日
Python web crawler(7)用requests模拟发送post请求
摘要: 用requests模拟发送post请求 思考:哪些地方我们会用到POST请求? 登录注册( POST 比 GET 更安全) 需要传输大文本内容的时候( POST 请求对数据长度没有要求) 所以同样的,我们的爬虫也需要在这两个地方回去模拟浏览器发送post请求 1.常用的post请求参数写法 impo
阅读全文
posted @ 2024-02-26 17:55 Magiclala
阅读(444)
评论(0)
推荐(0)
Python web crawler(6)使用cooike
摘要: 方法1:手动添加cooike 先用浏览器打开首页:'https://xq.com/',此时浏览器会被分配'Cookie' 在headers里加入 'User-Agent'、'Referer'、'Cookie'去请求URL 因为这里是异步加载,因此需要从“Fetch/XHR”的请求中查到“标头”里的请
阅读全文
posted @ 2024-02-26 17:00 Magiclala
阅读(147)
评论(0)
推荐(0)
2024年2月20日
小音箱里的TF闪存卡、外接的U盘、MP3里的歌曲播放顺序混乱修复
摘要: 修复MP3播放音乐顺序错乱的解决方法 一、问题描述: 大家是不是遇到过以下几种情况? 音箱里的TF闪存卡播放MP3歌曲顺序错乱; 音箱外接的U盘播放MP3歌曲顺序错乱; 直接播放MP3里的歌曲顺序错乱; 二、问题解读: 说明:MP3型号众多,排序原理各不相同 以上这些情况,都属于MP3播放器设计初期
阅读全文
posted @ 2024-02-20 17:53 Magiclala
阅读(5204)
评论(0)
推荐(0)
2024年2月18日
CentOS 7 系统更新和内核升级
摘要: 安装必要的功能:wget和vim后面会用到,以免出现问题 yum -y install wget vim 处理yum源:更换为阿里的yum源 备份原始文件: cd /etc/yum.repos.d/ mkdir /etc/yum.repos.d/bak mv /etc/yum.repos.d/*.r
阅读全文
posted @ 2024-02-18 11:59 Magiclala
阅读(5409)
评论(0)
推荐(0)
2024年1月25日
Python web crawler(2.1)多循环嵌套练习
摘要: 写个函数,传入(书名:book,标题:tittle,内容:content),要求在book文件夹下(不存在则创建),创建每个tittle.txt文件,写入content内容 import os def save_to_file(folder_book, title, content): # 如果文件
阅读全文
posted @ 2024-01-25 18:45 Magiclala
阅读(36)
评论(0)
推荐(0)
2024年1月23日
requests模块和网站的请求(get、post请求)
摘要: requests模块 发送get请求,一般拥有2种方式 一种是直接拼凑URL,直接发送最终的URL,不需要传参逻辑 另一种是使用params传参逻辑,用最正统的get请求方式 1、直接发送get请求,不使用params传入参数 response = requests.get(url, headers
阅读全文
posted @ 2024-01-23 17:17 Magiclala
阅读(1045)
评论(0)
推荐(0)
2024年1月22日
Python web crawler(5)多页网站拼接
摘要: 先搞单页网站: import requests from lxml import etree import re url = 'https://*********.com/top250?start=1' headers = { 'User-Agent': 'Mozilla/5.0 (Windows
阅读全文
posted @ 2024-01-22 18:57 Magiclala
阅读(74)
评论(0)
推荐(0)
xpath 一键去除前后空白、回车、换行
摘要: 使用xpath方式,打印结果,经常出现大量换行、空格等情况 示例如下: from lxml import etree # data = etree.parse('./素材/示例网站.html') parser = etree.HTMLParser(encoding="utf-8") # 出现读取错误
阅读全文
posted @ 2024-01-22 18:15 Magiclala
阅读(1458)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
9
10
···
25
下一页
公告