python爬虫 - 随笔分类 - vlj

Python多线程实例

摘要：前言感觉理解python多线程用“切换”和“共享”就差不多了。这里就贴上一个抢车票的小小实例，还有自己在编程过程中遇到的坑..... 实例：抢车票抢车票有三类人：会员、弄了加速包、普通人。说说区别：钱带来的不公平：会员先跑，然后加速包，最后普通人可以欣慰的公平：跑道一样长守护线程SetD 阅读全文

posted @ 2019-04-08 23:21 vlj 阅读(475) 评论(0) 推荐(0)

Python多线程理解

摘要：前言在写python爬虫的时候遇到了多线程，使用多线程的目的是降低抓取时间。接着我接触了一些IO概念，IO就是Input和Ouput，数据进出CPU的意思。数据从网线或网卡进入CPU算Input（get请求得到源码），反之就是Output，这是网络IO。数据从硬盘进入CPU也是Input，反过阅读全文

posted @ 2019-03-25 01:14 vlj 阅读(363) 评论(0) 推荐(0)

python使用selenium爬百度文库ppt并生成pdf

摘要：详细的讲解我是写在另外一个网址：https://www.yuque.com/docs/share/aacfa45c-22c5-4ef6-be97-cd6849002274 有点尬尴，所以就..... 在这里直接放下另外一个例子(《数学模型答案》)的代码阅读全文

posted @ 2018-11-17 16:33 vlj 阅读(2787) 评论(0) 推荐(0)

python爬百度文库课件

摘要：库:re;selenium;requests 源码： from selenium import webdriverimport reimport requests def open_img(items): for item in items: item = re.sub('&','&',it 阅读全文

posted @ 2018-09-17 15:41 vlj 阅读(504) 评论(0) 推荐(0)

Python爬虫的步骤和工具

摘要：#四个步骤 1.查看crawl内容的源码格式 crawl的内容可以是 url(链接），文字，图片，视频 2.请求网页源码（可能要设置）代理，限速，cookie 3.匹配用正则表达式匹配 4.保存数据文件操作 #两个基本工具（库） 1.urllib 2.requests #使用reuests库的阅读全文

posted @ 2018-09-03 19:37 vlj 阅读(649) 评论(0) 推荐(0)

vlj

随笔分类 - python爬虫

公告