正则表达式

Python 学习

标签(空格分隔): 正则表达式


1、Python三大优点:

简单、功能强大、支持面向对象。 

python 扩展包库

http://www.lfd.uci.edu/~gohlke/pythonlibs/

2、Python的一些特点:

1)大小写严格区分
2)简单、易学、支持面向对象
3)开源
4)库非常丰富
5)跨平台使用
6)解释性语言
7)高级语言

正则表达式符号与方法 — 常用符号

. :匹配任意字符,换行符\n除外

  • :匹配前一个字符0次或无限次
    ? :匹配前一个字符0次或1次
    .* :贪心算法
    .*?:非贪心算法

神器 Xpath

XPath 是一门语言
XPath可以在XML文档中查找信息
XPath支持HTML
XPath通过元素和属性进行导航
XPath可以用来提取信息
XPath比正则表达式厉害
XPath比正则表达式简单

如何使用Xpath

  • 安装lxml库(sudo pip install lxml)
  • from lxml import etree
  • Selector = etree.HTML(网页源代码)
  • Selector.xpath(一段神奇的符号)

Python并行化(多线程)— map的使用

map 函数一手包办了序列操作、参数传递和结果保存等一系列的操作。

  • from multiprocessing.dummy import Pool
  • pool = Pool(4)
  • results = pool.map(爬取函数, 网址列表)
posted @ 2017-03-27 16:41  PTG7086  阅读(118)  评论(0)    收藏  举报