如何选择多线程/多进程
摘要:1.结论: cpu密集型代码(各种循环处理, 计算等等);使用多进程 IO密集型代码(文件处理,网络爬虫等): 使用多线程 2,解释: 单线程是只有一条公路而且是单车道,只能同时行驶一辆汽车; 多线程是只有一条公路,但是是多车道,可以同时行驶多辆汽车; 多进程是有很多条公路,每条公路可能是单车道也可
阅读全文
posted @
2019-08-07 09:56
wy0925
阅读(155)
推荐(0)
多进程的使用
摘要:多进程multiprocessing和多线程treading类似,都是用在python中进行并行计算的, 而多进程则是为了弥补Python在多线程中的劣势而出现的 mutiprocessing 是使用计算机的多核进行运算, 它可以避免多线程中GIL的影响 Python使用multiprocesssing模块实现多进程, 用法和threading基本一致 import multiprocessi...
阅读全文
posted @
2019-08-07 09:54
wy0925
阅读(137)
推荐(0)
多线程的使用
摘要:1,一个cpu一次只能执行一个任务, 多个cpu同时可以执行多个任务 2,一个cpu一次只能执行一个进程, 其他进程处于非运行状态 3,进程里包含的执行单元叫线程,一个进程可以包含多个线程 4,一个进程的内存空间是共享的,每个进程里的线程都可以使用这个共享空间 5,一个线程在使用这个共享空间的时候, 其它的线程必须等待(阻塞状态) 6,互斥锁作用就是防止多个线程同时使用这块内存空间, 先使用的线程
阅读全文
posted @
2019-08-07 09:40
wy0925
阅读(177)
推荐(0)
JsonPath的使用
摘要:1,json.loads (字符串转换成Python对象) 2,json.dumps(Python对象转换成字符串) 3,json.load() 读取json文件内容转换为Python类型 例如: 4,json.dump() 将Python内置类型序列化为json对象写入文件 例如: jsonPat
阅读全文
posted @
2019-07-26 15:29
wy0925
阅读(165)
推荐(0)
爬虫 比较好的视频推荐
摘要:https://www.bilibili.com/video/av49809274/?p=13(ajax请求的抓取, https请求的使用, proxy的使用)
阅读全文
posted @
2019-07-26 14:17
wy0925
阅读(260)
推荐(0)
scrapy爬取阳光电影网全站资源
摘要:说一下我的爬取过程吧 第一步: 当然是 scrapy startproject + 名字 新建爬虫项目 第二步: scrapy genspider -t crawl +爬虫名字+ 所爬取网站的域名 (-t crawl是全站爬虫) 第三步: 最后执行爬虫代码 scrapy crawl + 爬虫名字
阅读全文
posted @
2019-07-26 10:16
wy0925
阅读(484)
推荐(0)
爬虫练手实例
摘要:第一个: 静态页面类爬取猫眼电影 TOP 100 , 应用beautifulsoup + requests def getHtml(url): try: r = requests.get(url, timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding ...
阅读全文
posted @
2019-07-24 15:38
wy0925
阅读(165)
推荐(0)
Scrapy框架详解
摘要:一, 介绍: scrapy是一个专业的,高效的爬虫框架, 它使用专业的Twisted包高效的处理网络通信, 使用lxml(专业的XML处理包),cssselect 高效的提取HTML页面的有效信息, 同时它也提供了有效的线程管理, 爬虫框架 是实现爬虫功能的一个软件结构和功能组件集合, 爬虫框架是一
阅读全文
posted @
2019-07-23 17:28
wy0925
阅读(317)
推荐(0)
淘宝商品信息定向爬虫实例介绍
摘要:功能描述: 1)目标: 获取淘宝搜索页面的信息, 提取其中的商品名称和价格. 2)理解: 淘宝的搜索接口, 翻页的处理 3)技术路线 requests-re import re """ 1, 提交商品搜索请求, 循环获取页面 2, 对于每个页面, 提取商品名称和价格信息 3, 将信息输出到屏幕上 """ def getHtmlText(url): try: r...
阅读全文
posted @
2019-07-23 15:10
wy0925
阅读(420)
推荐(0)
正则表达式的语法
摘要:""" 1) . 表示任何单个字符 2)[] 字符集, 对单个字符给出取值范围 [abc]表示a、b、c, [a-z]表示a到z单个字符 3)[^]非字符集, 对单个字符给出排除范围, [^abc] 除了a、b、c的单个字符 4)* 前一个字符0次或无限次扩展 abc* 表示ab,abc,abcc,abccc等 5)+ 前一个字符1次或者无限次扩展 abc+ 表示 abc, abcc,...
阅读全文
posted @
2019-07-22 17:02
wy0925
阅读(148)
推荐(0)
Beautisoup库
摘要:所看视频: https://www.bilibili.com/video/av9784617/?p=34 一, Beautifulsoup是一个可以从HTML或XML文件中提取数据的Python库,它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式 二,安装: pipenv insta
阅读全文
posted @
2019-07-22 11:57
wy0925
阅读(858)
推荐(0)
Robots协议
摘要:好的网络爬虫, 首先需要遵守Robots协议, Robots协议:也称为爬虫协议,机器人协议, 全称是"网络爬虫排除标准", 通过Robots协议高速搜索引擎哪些页面可以抓取,哪些页面不能抓取 在网站根目录下放一个robots.txt文本文件(如 https://www.taobao.com/rob
阅读全文
posted @
2019-07-22 09:58
wy0925
阅读(403)
推荐(0)
LXML解析html代码和文件
摘要:from lxml import etree text = """ 糗事百科 - 超搞笑的原创糗事笑话分享社区 ...
阅读全文
posted @
2019-06-27 10:42
wy0925
阅读(492)
推荐(0)
XPath简介
摘要:参考视频: https://www.bilibili.com/video/av49809274/?p=22 一,什么是XPATH? xpath(xml path language)是一门在xml和HTML文件中查找信息的语言,可用来在xml和HTML文档中对元素和属性进行遍历 XPATH开发工具 1
阅读全文
posted @
2019-06-27 10:20
wy0925
阅读(133)
推荐(0)
requests库 cookie和session
摘要:cookie 如果一个相应中包含了cookie,那么可以利用cookie属性拿到这个返回的cookie值: session 之前用urllib库,是可以使用opener发送多个请求,多个请求之间是可以共享cookie的,那么如果使用requests,也要达到共享cookie的目的,那么可以使用req
阅读全文
posted @
2019-06-26 21:59
wy0925
阅读(796)
推荐(0)
requests库 代理
摘要:import requests proxy = { 'http': '125.123.137.2208:9999' } res = requests.get('http://httpbin.org/ip', proxies=proxy) print(res.text)
阅读全文
posted @
2019-06-26 21:49
wy0925
阅读(140)
推荐(0)
requests库GET
摘要:文档地址:http://docs.python-requests.org/zh_CN/latest/index.html
阅读全文
posted @
2019-06-26 21:23
wy0925
阅读(165)
推荐(0)