摘要: 关于selenium模块: 该模块最初是一个自动化测试工具,但是由于可以自动操作浏览器的功能,可以应用到爬虫领域,并且可以做到避免了很多防爬措施. 模块下载: pip3 install selenium file-setting-项目文件-双击搜索 输入selenium 选择国内源 驱动下载:(必不 阅读全文
posted @ 2021-09-28 21:13 查无此人cxc 阅读(75) 评论(0) 推荐(0)
摘要: xpath解析器 模拟文本 doc = ''' <html> <head> <base href='http://example.com/' /> <title id='t1'>Example website</title> </head> <body> <div id='images'> <a h 阅读全文
posted @ 2021-09-27 15:38 查无此人cxc 阅读(112) 评论(0) 推荐(0)
摘要: 爬取链家数据 先观察网页源码加载方式,为直接加载 再将需要的数据条件写入excel表格内 通过观察网页源码 需要的数据都在这里 那么接下来就是通过bs4模块筛选数据 通过先整体后局部 我们需要获取ul class='sellListContent'内部的li标签 再通过for循环 循环获取索要的内容 阅读全文
posted @ 2021-09-26 15:24 查无此人cxc 阅读(111) 评论(0) 推荐(0)
摘要: 爬取娱乐分类视频为例: https://www.pearvideo.com/category_4 打开网页后观察网页将滚轮条下拉后网站会自动加载 通过检查网页发现每次动态加载一次都会网该网站发送请求 https://www.pearvideo.com/category_loading.jsp?req 阅读全文
posted @ 2021-09-26 13:09 查无此人cxc 阅读(444) 评论(0) 推荐(0)
摘要: 关于excel 03版本之前,excel文件的后缀名是.xls 03版本之后,excel文件的后缀名是xlsx 通常,在python中操作excel表格的模块有很多 ,openpyxl模块是近几年比较流行的模块 该模块主要操作03版本之后的文件 该模块为第三方模块需要下载 pip3.install 阅读全文
posted @ 2021-09-23 20:33 查无此人cxc 阅读(288) 评论(0) 推荐(0)
摘要: 爬取糗图百科图片 import os # 导入os模块 import requests # 导入爬虫模块 import re # 导入re模块 import time # 导入时间模块 if not os.path.exists(r'糗图百科图片'): # 检查'糗图百科图片'文件夹如果不存在 执行 阅读全文
posted @ 2021-09-22 19:40 查无此人cxc 阅读(224) 评论(0) 推荐(0)
摘要: 爬取农产品数据http://www.xinfadi.com.cn/priceDetail.html import requests import time for n in range(1,5): url='http://www.xinfadi.com.cn/getPriceData.html' h 阅读全文
posted @ 2021-09-20 12:42 查无此人cxc 阅读(534) 评论(0) 推荐(0)
摘要: *数据的加载方式 1.常见加载方式: 当向服务端发送请求,页面数据直接全部返回并加载,以华华手机为例, 也可以通过邮右键,点击查看网页源码,随便复制网页中的一段文字,在网页源码页面crtl+f黏贴这段文字, 如果搜到了就是直接加载了全部内容 2.内部通过js代码发送请求 这是现在大多数网站都是这么做 阅读全文
posted @ 2021-09-17 14:42 查无此人cxc 阅读(57) 评论(0) 推荐(0)
摘要: cookies与session cookie和session的发明是为了专门解决http协议无状态的特点 因为http协议无状态的特点导致服务端向浏览器客户端发送数据完毕之后并不会保存用户端状态 早期的网站不需要保存用户状态,所有人访问的网站都是相同的数据 随着时代的发展,越来越多的网站需要有注册登 阅读全文
posted @ 2021-09-16 15:17 查无此人cxc 阅读(71) 评论(0) 推荐(0)
摘要: re模块代码结构 import re res=""" max maxl max2 max """ ret=re.findall('m.*?x',res) print(ret) 返回的是一个列表,内部包含了正则匹配到的所有数据 因为是全局匹配所以 不会匹配到一个相符的就停止 import re res 阅读全文
posted @ 2021-09-15 14:27 查无此人cxc 阅读(38) 评论(0) 推荐(0)