喵吉欧尼酱

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::

scrapy 优势:

  1. resquests和Beautifulsoup都是库,scrapy是框架
  2. scrapy框架可以加入前两项
  3. scrapy基于twisted,性能是最大的优势
  4. scrapy方便扩展,提供很多内置功能
  5. 内置的css和xpath selector非常方便,比Beautifulsoup快几十倍

常见类型网页:静态网页 动态网页 、 webserbice(restapi)


 

正则表达式: 

  1.   以xx开头   $  以xx结尾   *  0次以及以上1次及以上,非贪婪模式  + 一次及以上 {} n次 {m,}  m次以上 {m,n}  n次m  |  或
  2. [] 或   [^]  不是这个开头   [a-z]  a-z任意选一个  .
  3. \s  空格字符 \S  飞空格字符 \w 字母  \W  非字母
  4. [\u4e00-\u9FA5] 中文  ()  取括号也表示优先级和元祖  \d  数字 

小栗子:

  匹配出以下所有的日期

import re
line = 'xxx出生于2017年2月1日'
linex = 'xxx出生于2017年2月'
line1 = 'xxx出生于2017/2/1'
line2 = 'xxx出生于2017-2-1'
line3 = 'xxx出生于2017-02'
regex_str='.*出生于(\d{4}[年/-]\d{1,2}([月/-]$|$|[月/-]\d{1,2}[日]|[月/-]\d{1,2}))'
match_obj = re.match(regex_str,line)
print(match_obj.group(1))

 Xpath:

 

posted on 2017-10-08 13:00  喵吉欧尼酱  阅读(624)  评论(0)    收藏  举报