查无此人cxc

2021年9月28日

摘要：关于selenium模块: 该模块最初是一个自动化测试工具,但是由于可以自动操作浏览器的功能,可以应用到爬虫领域,并且可以做到避免了很多防爬措施. 模块下载: pip3 install selenium file-setting-项目文件-双击搜索输入selenium 选择国内源驱动下载:(必不阅读全文

posted @ 2021-09-28 21:13 查无此人cxc 阅读(75) 评论(0) 推荐(0)

2021年9月27日

解析库之Xpath解析器

摘要： xpath解析器模拟文本 doc = ''' <html> <head> <base href='http://example.com/' /> <title id='t1'>Example website</title> </head> <body> <div id='images'> <a h 阅读全文

posted @ 2021-09-27 15:38 查无此人cxc 阅读(112) 评论(0) 推荐(0)

2021年9月26日

爬取链家及汽车之家数据

摘要：爬取链家数据先观察网页源码加载方式,为直接加载再将需要的数据条件写入excel表格内通过观察网页源码需要的数据都在这里那么接下来就是通过bs4模块筛选数据通过先整体后局部我们需要获取ul class='sellListContent'内部的li标签再通过for循环循环获取索要的内容阅读全文

posted @ 2021-09-26 15:24 查无此人cxc 阅读(111) 评论(0) 推荐(0)

爬取梨视频网站详细过程

摘要：爬取娱乐分类视频为例: https://www.pearvideo.com/category_4 打开网页后观察网页将滚轮条下拉后网站会自动加载通过检查网页发现每次动态加载一次都会网该网站发送请求 https://www.pearvideo.com/category_loading.jsp?req 阅读全文

posted @ 2021-09-26 13:09 查无此人cxc 阅读(444) 评论(0) 推荐(0)

2021年9月23日

openpyxl操作excel表格

摘要：关于excel 03版本之前,excel文件的后缀名是.xls 03版本之后,excel文件的后缀名是xlsx 通常,在python中操作excel表格的模块有很多 ,openpyxl模块是近几年比较流行的模块该模块主要操作03版本之后的文件该模块为第三方模块需要下载 pip3.install 阅读全文

posted @ 2021-09-23 20:33 查无此人cxc 阅读(288) 评论(0) 推荐(0)

2021年9月22日

爬虫之较复杂案例

摘要：爬取糗图百科图片 import os # 导入os模块 import requests # 导入爬虫模块 import re # 导入re模块 import time # 导入时间模块 if not os.path.exists(r'糗图百科图片'): # 检查'糗图百科图片'文件夹如果不存在执行阅读全文

posted @ 2021-09-22 19:40 查无此人cxc 阅读(224) 评论(0) 推荐(0)

2021年9月20日

爬虫实战与数据筛选方式

摘要：爬取农产品数据http://www.xinfadi.com.cn/priceDetail.html import requests import time for n in range(1,5): url='http://www.xinfadi.com.cn/getPriceData.html' h 阅读全文

posted @ 2021-09-20 12:42 查无此人cxc 阅读(534) 评论(0) 推荐(0)

2021年9月17日

简单项目爬取

摘要： *数据的加载方式 1.常见加载方式: 当向服务端发送请求,页面数据直接全部返回并加载,以华华手机为例, 也可以通过邮右键,点击查看网页源码,随便复制网页中的一段文字,在网页源码页面crtl+f黏贴这段文字, 如果搜到了就是直接加载了全部内容 2.内部通过js代码发送请求这是现在大多数网站都是这么做阅读全文

posted @ 2021-09-17 14:42 查无此人cxc 阅读(57) 评论(0) 推荐(0)

2021年9月16日

爬虫简单操作

摘要： cookies与session cookie和session的发明是为了专门解决http协议无状态的特点因为http协议无状态的特点导致服务端向浏览器客户端发送数据完毕之后并不会保存用户端状态早期的网站不需要保存用户状态,所有人访问的网站都是相同的数据随着时代的发展,越来越多的网站需要有注册登阅读全文

posted @ 2021-09-16 15:17 查无此人cxc 阅读(71) 评论(0) 推荐(0)

2021年9月15日

爬虫入门

摘要： re模块代码结构 import re res=""" max maxl max2 max """ ret=re.findall('m.*?x',res) print(ret) 返回的是一个列表,内部包含了正则匹配到的所有数据因为是全局匹配所以不会匹配到一个相符的就停止 import re res 阅读全文

posted @ 2021-09-15 14:27 查无此人cxc 阅读(38) 评论(0) 推荐(0)

公告