摘要: 先详细的整理一下Python中的正则表达式的相关内容。正则表达式在Python爬虫中的作用就像是老师点名时用的花名册一样,是必不可少的神兵利器。 一、 正则表达式基础 1.1.概念介绍 正则表达式是用于处理字符串的强大工具,它并不是Python的一部分。 其他编程语言中也有正则表达式的概念,区别只在 阅读全文
posted @ 2020-05-28 15:45 程序员的人生A 阅读(837) 评论(0) 推荐(0)
摘要: Selector 的用法 我们之前介绍了利用 Beautiful Soup、pyquery 以及正则表达式来提取网页数据,这确实非常方便。而 Scrapy 还提供了自己的数据提取方法,即 Selector(选择器)。Selector 是基于 lxml 来构建的,支持 XPath 选择器、CSS 选择 阅读全文
posted @ 2020-05-28 15:37 程序员的人生A 阅读(11874) 评论(0) 推荐(0)
摘要: 遍历文档树 1.直接子节点:.contents .children属性 .content Tag的.content属性可以将Tag的子节点以列表的方式输出 #!/usr/bin/python3 # -*- coding:utf-8 -*- from bs4 import BeautifulSoup 阅读全文
posted @ 2020-05-28 15:21 程序员的人生A 阅读(656) 评论(0) 推荐(0)
摘要: Selenium是一个自动化测试工具,利用它可以驱动浏览器执行特定的动作,如点击、下拉等操作,同时还可以获取浏览器当前呈现的页面的源代码,做到可见即可爬。对于一些JavaScript动态渲染的页面来说,此种抓取方式非常有效。本节中,就让我们来感受一下它的强大之处吧。 1. 准备工作 本节以Chrom 阅读全文
posted @ 2020-05-28 15:16 程序员的人生A 阅读(1821) 评论(0) 推荐(0)
摘要: 简单而言,单例模式就是保证某个实例在项目的整个生命周期中只存在一个,在项目的任意位置使用,都是同一个实例。 单例模式虽然简单,但还是有些门道的,而少有人知道这些门道。 边界情况 Python中实现单例模式的方法很多,我以前最常使用的应该是下面这种写法。 class Singleton(object) 阅读全文
posted @ 2020-05-28 09:33 程序员的人生A 阅读(1032) 评论(0) 推荐(0)