Python-爬虫相关 - 随笔分类 - zyg_100

Python-爬虫-动态渲染页面抓取-（Selenium）的使用

摘要：Ajax形式的请求时JS动态渲染的一种手段，我们可以通过requests和urllib库来实现页面数据抓取，但是js动态渲染页面不仅仅是AJAX一种形式，有的网页是由JS直接生成的，并非原始HTML，可能还不包含AJAX请求；例如一些报表工具ECharts 官网的实例，图形都是通过JS生成的；例如阅读全文

posted @ 2019-01-18 16:16 zyg_100 阅读(4886) 评论(0) 推荐(1)

Python-爬虫-抓取头条街拍图片-1.1

摘要：下面实例是抓取头条图片信息，只是抓取了查询列表返回的json中image，大图标，由于该结果不会包含该链接详情页的所有图片列表；因此这里抓取不全；后续有时间在完善； 1、抓取头条街拍相关图片请求如下： 2、通过debug可以看到请求参数以及相应结果数据： 3、响应结果，比较重要的是data（grou 阅读全文

posted @ 2019-01-14 15:34 zyg_100 阅读(752) 评论(0) 推荐(0)

Python-爬虫-12306购票业务实现

摘要：待续。。。阅读全文

posted @ 2019-01-09 10:39 zyg_100 阅读(780) 评论(0) 推荐(0)

Python-爬虫-（Json和Csv）文件存储

摘要：用解析器解析出的数据后，可以通过TXT、JSON、CSV等文件形式进行存储； 1、TXT形式此处略； 2、JSON文件存储 json即js 对象标记，是一种数据格式； json格式： json对象：{"username":"ADMIN","pwd":"xxxx","address":"北京"} js 阅读全文

posted @ 2019-01-02 17:37 zyg_100 阅读(1268) 评论(0) 推荐(0)

Python-爬虫-解析库（pyquery）的使用

摘要：pyquery安装： pip install pyquery 初始化： 1）html字符串 2）url初始化 3）本地html文件初始化例如： css选择器和find方法查找：获取子节点children('选择器')和相关标签属性：【获取父节点parent()parents(“选择器”) 用法阅读全文

posted @ 2019-01-02 16:42 zyg_100 阅读(606) 评论(0) 推荐(0)

Python-爬虫-解析库（Beautiful　Soup）的使用

摘要：Beautiful Soup 是Python的一个HTML或者XML的解析库；会自动将输入的文档转化为Unicode编码，输出文档转换为UTF-8编码；安装： C:\Users\issuser>pip install beautifulsoup4 Beautiful Soup在解析时实际上依赖解析阅读全文

posted @ 2019-01-02 15:06 zyg_100 阅读(486) 评论(0) 推荐(0)

Python-爬虫-解析库（XPath）的使用

摘要：XPath，即XML Path Language， XML路径语言，是一种专门在XML文档中查找信息的语言；它提供了含有超过 100 个内建的函数。这些函数用于字符串值、数值、日期和时间比较、节点和 QName 处理、序列处理、逻辑值等等并且XQuery和XPointer都构建于XPath基础阅读全文

posted @ 2018-12-29 18:12 zyg_100 阅读(564) 评论(0) 推荐(0)

Python-爬虫-基本库（requests）使用-抓取猫眼电影Too100榜

摘要：上面程序通过yield返回迭代器，修改如下：阅读全文

posted @ 2018-12-28 18:01 zyg_100 阅读(391) 评论(0) 推荐(0)

Python-爬虫-基本库（requests）使用

摘要：requests库比urllib跟家方便操作Cookie、登录验证、代理设置等；例如：除了get方法以外，可以通过post、put、delete、head、options方法实现不同方式的请求；注意：上面如果相应结果不是json格式，则r.json（）方法会报异常错误；抓取一个网页，例如：阅读全文

posted @ 2018-12-28 15:42 zyg_100 阅读(1171) 评论(0) 推荐(0)

Python-爬虫-基本库（urllib）使用

摘要：urllib库的使用 Python2中有urllib和urllib2两个内置库实现请求的发送；Python3中则没有urllib2，统一为了内置的urllib库； API：https://docs.python.org/3/library/urllib.html #该库提供了相关函数和类，基于身份认阅读全文

posted @ 2018-12-20 17:34 zyg_100 阅读(642) 评论(0) 推荐(0)

ygzhaof_100

随笔分类 - Python-爬虫相关

公告