随笔分类 - Python-爬虫相关
摘要:Ajax形式的请求时JS动态渲染的一种手段,我们可以通过requests和urllib库来实现页面数据抓取,但是js动态渲染页面不仅仅是AJAX一种形式, 有的网页是由JS直接生成的,并非原始HTML,可能还不包含AJAX请求;例如一些报表工具ECharts 官网的实例,图形都是通过JS生成的;例如
阅读全文
摘要:下面实例是抓取头条图片信息,只是抓取了查询列表返回的json中image,大图标,由于该结果不会包含该链接详情页的所有图片列表;因此这里抓取不全;后续有时间在完善; 1、抓取头条街拍相关图片请求如下: 2、通过debug可以看到请求参数以及相应结果数据: 3、响应结果,比较重要的是data(grou
阅读全文
摘要:用解析器解析出的数据后,可以通过TXT、JSON、CSV等文件形式进行存储; 1、TXT形式此处略; 2、JSON文件存储 json即js 对象标记,是一种数据格式; json格式: json对象:{"username":"ADMIN","pwd":"xxxx","address":"北京"} js
阅读全文
摘要:pyquery安装: pip install pyquery 初始化: 1)html字符串 2)url初始化 3)本地html文件初始化 例如: css选择器和find方法查找: 获取子节点children('选择器')和相关标签属性:【 获取父节点parent()parents(“选择器”) 用法
阅读全文
摘要:Beautiful Soup 是Python的一个HTML或者XML的解析库;会自动将输入的文档转化为Unicode编码,输出文档转换为UTF-8编码; 安装: C:\Users\issuser>pip install beautifulsoup4 Beautiful Soup在解析时实际上依赖解析
阅读全文
摘要:XPath,即XML Path Language, XML路径语言,是一种专门在XML文档中查找信息的语言; 它提供了 含有超过 100 个内建的函数。这些函数用于字符串值、数值、日期和时间比较、节点和 QName 处理、序列处理、逻辑值等等 并且XQuery和XPointer都构建于XPath基础
阅读全文
摘要:上面程序通过yield返回迭代器,修改如下:
阅读全文
摘要:requests库比urllib跟家方便操作Cookie、登录验证、代理设置等; 例如: 除了get方法以外,可以通过post、put、delete、head、options方法实现不同方式的请求; 注意:上面如果相应结果不是json格式,则r.json()方法会报异常错误; 抓取一个网页,例如:
阅读全文
摘要:urllib库的使用 Python2中有urllib和urllib2两个内置库实现请求的发送;Python3中则没有urllib2,统一为了内置的urllib库; API:https://docs.python.org/3/library/urllib.html #该库提供了相关函数和类,基于身份认
阅读全文