摘要: Splash是一个JavaScript渲染服务,是一个带有HTTP API的轻量级浏览器,同时它对接了Python中的Twisted和QT库。利用它,我们同样可以实现动态渲染页面的抓取。 1. 功能介绍和基本实例 ### Splash的使用 ''' Splash是一个JavaScript渲染服务,是 阅读全文
posted @ 2020-04-01 10:29 糕事情 阅读(1195) 评论(0) 推荐(0) 编辑
摘要: Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样,可以用其进行网页动态渲染页面的爬取。 支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。 阅读全文
posted @ 2020-03-31 22:04 糕事情 阅读(547) 评论(0) 推荐(0) 编辑
摘要: Ajax 即“Asynchronous Javascript And XML”(异步 JavaScript 和 XML),是指一种创建交互式、快速动态网页应用的网页开发技术,无需重新加载整个网页的情况下,能够更新部分网页的技术。 通过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新。 阅读全文
posted @ 2020-03-23 19:33 糕事情 阅读(234) 评论(0) 推荐(0) 编辑
摘要: 本文内容介绍python和如下数据存储交互的基本使用: 文件存储:TXT、JSON、CSV 关系型数据库:Mysql(pymysql模块) 非关系型数据库:MongoDB(pymongo模块)、Redis(redis模块) 1. 文本存储;简单实例,爬取知乎话题、答者和回答内容保存到txt文件中 # 阅读全文
posted @ 2020-03-17 18:37 糕事情 阅读(498) 评论(0) 推荐(0) 编辑
摘要: 1. Xpath解析库 2. BeautifulSoup解析库 3. PyQuery解析库 阅读全文
posted @ 2020-03-16 22:15 糕事情 阅读(215) 评论(0) 推荐(0) 编辑
摘要: ### pyquery的介绍和使用 ## 测试文本 text = ''' <html><head><title>there is money</title></head> <body> <p class="title" name="dmr"><b>there is money</b>contents 阅读全文
posted @ 2020-03-16 22:09 糕事情 阅读(625) 评论(0) 推荐(0) 编辑
摘要: ### BeautifulSoup解析库的介绍和使用 ### 三大选择器:节点选择器,方法选择器,CSS选择器 ### 使用建议:方法选择器 > CSS选择器 > 节点选择器 ## 测试文本 text = ''' <html><head><title>there is money</title></ 阅读全文
posted @ 2020-03-16 21:53 糕事情 阅读(1735) 评论(0) 推荐(0) 编辑
摘要: ### Xpath常用规则 ## nodename 选取此节点的所有子节点 ## / 从当前节点选取直接子节点 ## // 从当前节点选取子孙节点 ## . 选取当前节点 ## .. 选取当前节点的父节点 ## @ 选取属性 ### 测试文本 text = ''' <ul id="dmr" name 阅读全文
posted @ 2020-03-16 14:58 糕事情 阅读(446) 评论(0) 推荐(0) 编辑
摘要: 1. 常用的匹配规则 ### 常用的匹配规则 # \w 匹配字母、数字及下划线 # \W 匹配不是字母、数字及下划线的字符 # \s 匹配任意空白字符,等价于[\t\n\t\f] # \S 匹配任意非空字符 # \d 匹配数字,等价于[0-9] # \D 匹配任意非数字的字符 # \A 匹配字符串开 阅读全文
posted @ 2020-03-13 18:40 糕事情 阅读(303) 评论(0) 推荐(0) 编辑
摘要: 1. 简单获取一个页面信息 1 import requests 2 3 # requests可以通过requests的get、post、put等方法进行请求调用 4 r = requests.get('https://www.baidu.com/') 5 print(r) 6 print(type( 阅读全文
posted @ 2020-03-11 19:04 糕事情 阅读(256) 评论(0) 推荐(0) 编辑