正则表达式
Python 学习
标签(空格分隔): 正则表达式
1、Python三大优点:
简单、功能强大、支持面向对象。
python 扩展包库
2、Python的一些特点:
1)大小写严格区分
2)简单、易学、支持面向对象
3)开源
4)库非常丰富
5)跨平台使用
6)解释性语言
7)高级语言
正则表达式符号与方法 — 常用符号
. :匹配任意字符,换行符\n除外
- :匹配前一个字符0次或无限次
? :匹配前一个字符0次或1次
.* :贪心算法
.*?:非贪心算法
神器 Xpath
XPath 是一门语言
XPath可以在XML文档中查找信息
XPath支持HTML
XPath通过元素和属性进行导航
XPath可以用来提取信息
XPath比正则表达式厉害
XPath比正则表达式简单
如何使用Xpath
- 安装lxml库(sudo pip install lxml)
- from lxml import etree
- Selector = etree.HTML(网页源代码)
- Selector.xpath(一段神奇的符号)
Python并行化(多线程)— map的使用
map 函数一手包办了序列操作、参数传递和结果保存等一系列的操作。
- from multiprocessing.dummy import Pool
- pool = Pool(4)
- results = pool.map(爬取函数, 网址列表)

浙公网安备 33010602011771号