2017 年 6月 25 日随笔档案 - 道高一尺

2017年6月25日

摘要： 1 # 多线程爬虫 2 # map函数的使用 3 # from multiprocessing.dummy import Pool 4 # pool=Pool(4) 5 # results = pool.map(爬取函数,网址列表) 6 # 实例演示: 7 from multiprocessing.dummy import Pool as ThreadPool 8 import ... 阅读全文

posted @ 2017-06-25 22:31 道高一尺阅读(255) 评论(0) 推荐(0)

xpath的一般用法与特殊用法

摘要： # xpath的使用安装lxml from lxml import etree Selector = etree.HTML(网页代码) Selector.xpath(一段神奇的代码) xpath的一般用法 //定位根节点 /表示往下层寻找 /text()提取文本内容 /@***提取属性例: response.xpath('//ul[@id="useful"]/li/text()') 中括... 阅读全文

posted @ 2017-06-25 20:22 道高一尺阅读(4551) 评论(0) 推荐(0)

scrapy爬取极客学院全部课程

摘要： 1 # -*- coding: utf-8 -*- 2 # scrapy爬取极客学院全部课程 3 import scrapy 4 from pyquery import PyQuery as pq 5 from jike.items import JikeItem 6 7 class JikespiderSpider(scrapy.Spider): 8 name = "... 阅读全文

posted @ 2017-06-25 18:12 道高一尺阅读(583) 评论(0) 推荐(0)

使用multiprocessing模块创建多进程

摘要： 1 # 使用multiprocessing模块创建多进程 2 # multiprcessing模块提供了一个Process类来描述一个进程对象. 3 # 创建子进程时,只需要传入一个执行函数和函数的参数,即可完成一个process实例的创建 4 # 用start()方法启动进程 5 # 用join()方法实现进程间的同步. 6 import os 7 from multiproce... 阅读全文

posted @ 2017-06-25 15:27 道高一尺阅读(320) 评论(0) 推荐(0)

正则最常用到的东西

摘要：一种组合方式: (.*?)匹配除换行符以外任意字符,匹配模式加上re.S,则开启无敌模式,匹配一切.需要的内容放在括号里面. 两个方法: re.search+group()可以找到第几个括号的东西,在确定只有一个内容时,使用re.search会提高效率, 因为re.search找到第一个就不会去找了阅读全文

posted @ 2017-06-25 14:17 道高一尺阅读(186) 评论(0) 推荐(0)

道高一尺

公告