随笔分类 - Python爬虫
用来进行Python爬虫的相关技术总结
摘要:Splash是一个JavaScript渲染服务,是一个带有HTTP API的轻量级浏览器,同时它对接了Python中的Twisted和QT库。利用它,我们同样可以实现动态渲染页面的抓取。 1. 功能介绍和基本实例 ### Splash的使用 ''' Splash是一个JavaScript渲染服务,是
阅读全文
摘要:Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样,可以用其进行网页动态渲染页面的爬取。 支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。
阅读全文
摘要:Ajax 即“Asynchronous Javascript And XML”(异步 JavaScript 和 XML),是指一种创建交互式、快速动态网页应用的网页开发技术,无需重新加载整个网页的情况下,能够更新部分网页的技术。 通过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新。
阅读全文
摘要:本文内容介绍python和如下数据存储交互的基本使用: 文件存储:TXT、JSON、CSV 关系型数据库:Mysql(pymysql模块) 非关系型数据库:MongoDB(pymongo模块)、Redis(redis模块) 1. 文本存储;简单实例,爬取知乎话题、答者和回答内容保存到txt文件中 #
阅读全文
摘要:### pyquery的介绍和使用 ## 测试文本 text = ''' <html><head><title>there is money</title></head> <body> <p class="title" name="dmr"><b>there is money</b>contents
阅读全文
摘要:### BeautifulSoup解析库的介绍和使用 ### 三大选择器:节点选择器,方法选择器,CSS选择器 ### 使用建议:方法选择器 > CSS选择器 > 节点选择器 ## 测试文本 text = ''' <html><head><title>there is money</title></
阅读全文
摘要:### Xpath常用规则 ## nodename 选取此节点的所有子节点 ## / 从当前节点选取直接子节点 ## // 从当前节点选取子孙节点 ## . 选取当前节点 ## .. 选取当前节点的父节点 ## @ 选取属性 ### 测试文本 text = ''' <ul id="dmr" name
阅读全文
摘要:1. 常用的匹配规则 ### 常用的匹配规则 # \w 匹配字母、数字及下划线 # \W 匹配不是字母、数字及下划线的字符 # \s 匹配任意空白字符,等价于[\t\n\t\f] # \S 匹配任意非空字符 # \d 匹配数字,等价于[0-9] # \D 匹配任意非数字的字符 # \A 匹配字符串开
阅读全文
摘要:1. 简单获取一个页面信息 1 import requests 2 3 # requests可以通过requests的get、post、put等方法进行请求调用 4 r = requests.get('https://www.baidu.com/') 5 print(r) 6 print(type(
阅读全文
摘要:1. urllib中urlopen的基本使用介绍 1 ### urllib中urlopen的基本使用介绍 2 3 ## urlopen的基本用法(GET请求) 4 import urllib.request as r 5 # 访问一个url,返回一个对象 6 response = r.urlopen
阅读全文

浙公网安备 33010602011771号