摘要:
1 # 多线程爬虫 2 # map函数的使用 3 # from multiprocessing.dummy import Pool 4 # pool=Pool(4) 5 # results = pool.map(爬取函数,网址列表) 6 # 实例演示: 7 from multiprocessing.dummy import Pool as ThreadPool 8 import ... 阅读全文
posted @ 2017-06-25 22:31
道高一尺
阅读(253)
评论(0)
推荐(0)
摘要:
# xpath的使用 安装lxml from lxml import etree Selector = etree.HTML(网页代码) Selector.xpath(一段神奇的代码) xpath的一般用法 //定位根节点 /表示往下层寻找 /text()提取文本内容 /@***提取属性 例: response.xpath('//ul[@id="useful"]/li/text()') 中括... 阅读全文
posted @ 2017-06-25 20:22
道高一尺
阅读(4549)
评论(0)
推荐(0)
摘要:
1 # -*- coding: utf-8 -*- 2 # scrapy爬取极客学院全部课程 3 import scrapy 4 from pyquery import PyQuery as pq 5 from jike.items import JikeItem 6 7 class JikespiderSpider(scrapy.Spider): 8 name = "... 阅读全文
posted @ 2017-06-25 18:12
道高一尺
阅读(580)
评论(0)
推荐(0)
摘要:
1 # 使用multiprocessing模块创建多进程 2 # multiprcessing模块提供了一个Process类来描述一个进程对象. 3 # 创建子进程时,只需要传入一个执行函数和函数的参数,即可完成一个process实例的创建 4 # 用start()方法启动进程 5 # 用join()方法实现进程间的同步. 6 import os 7 from multiproce... 阅读全文
posted @ 2017-06-25 15:27
道高一尺
阅读(319)
评论(0)
推荐(0)
摘要:
一种组合方式: (.*?)匹配除换行符以外任意字符,匹配模式加上re.S,则开启无敌模式,匹配一切.需要的内容放在括号里面. 两个方法: re.search+group()可以找到第几个括号的东西,在确定只有一个内容时,使用re.search会提高效率, 因为re.search找到第一个就不会去找了 阅读全文
posted @ 2017-06-25 14:17
道高一尺
阅读(184)
评论(0)
推荐(0)

浙公网安备 33010602011771号