cnkai

2017年9月21日

Scrapy实战篇（七）之Scrapy配合Selenium爬取京东商城信息（下）

摘要：之前我们使用了selenium加Firefox作为下载中间件来实现爬取京东的商品信息。但是在大规模的爬取的时候，Firefox消耗资源比较多，因此我们希望换一种资源消耗更小的方法来爬取相关的信息。下面就使用selenium加PhantomJS来实现之前的相同的逻辑。这里需要修改的就是spider 阅读全文

posted @ 2017-09-21 19:10 cnkai 阅读(2484) 评论(0) 推荐(1)

Scrapy实战篇（六）之Scrapy配合Selenium爬取京东信息（上）

摘要：在之前的一篇实战之中，我们已经爬取过京东商城的文胸数据，但是前面的那一篇其实是有一个缺陷的，不知道你看出来没有，下面就来详细的说明和解决这个缺陷。我们在京东搜索页面输入关键字进行搜索的时候，页面的返回过程是这样的，它首先会直接返回一个静态的页面，页面的商品信息大致是30个，之所以说是大致，因为有几阅读全文

posted @ 2017-09-21 18:39 cnkai 阅读(14522) 评论(0) 推荐(0)

Scrapy实战篇（五）爬取京东商城文胸信息

摘要：创建scrapy项目填充 item.py文件在这里定义想要存储的字段信息填充middlewares.py文件中间件主要实现添加随机user agent的作用。填充pipelines.py文件将我们爬取到的结果存储在mongo数据库中设置settings.py文件下面的这些信息需要简单阅读全文

posted @ 2017-09-21 17:29 cnkai 阅读(1426) 评论(1) 推荐(0)

Selenium之PhantomJS相关设置

摘要：设置PhantomJS请求头默认情况下：设置User Agent User Agent已经变成指定的内容设置PhantomJS不加载图片 SERVICE_ARGS 常用的参数更多设置可以参考官网 "参数设置" 阅读全文

posted @ 2017-09-21 17:24 cnkai 阅读(2018) 评论(0) 推荐(0)

2017年9月17日

Selenium之Action Chains类

摘要： Action Chains类常用于模拟鼠标的行为，比如单击，双击，拖拽等行为，使用下面的方法导入Action Chains类下面先来看一个例子：以上的例子中，实现了鼠标的拖拽操作，首先需要实例化，然后调用其中的方法，完成相应的操作。下面是一些常用的模拟鼠标的操作 click(on_elemen 阅读全文

posted @ 2017-09-17 22:30 cnkai 阅读(13059) 评论(0) 推荐(0)

Selenium快速入门（下）

摘要： Frame相关等待隐式等待显示等待显示等待常用的方法页面的前进和后退 cookies设置选项卡设置异常处理不使用异常处理使用异常处理阅读全文

posted @ 2017-09-17 22:29 cnkai 阅读(771) 评论(0) 推荐(0)

Selenium快速入门（上）

摘要：浏览器驱动下载 "Edge浏览器" "Firefox浏览器" "Safari浏览器" "Chrome浏览器" "PhantomJS浏览器" 下载完成之后，添加到环境变量。声明浏览器对象 selenium支持的浏览器版本很多，常用的有如下的几种。访问网页以浏览器为例，访问百度网页，并打印出网页源阅读全文

posted @ 2017-09-17 22:28 cnkai 阅读(1142) 评论(0) 推荐(0)

2017年9月13日

Python中yield和yield from的用法

摘要： yield python中yield的用法很像return，都是提供一个返回值，但是yield和return的最大区别在于，return一旦返回，则代码段执行结束，但是yield在返回值以后，会交出CUP的使用权，代码段并没有直接结束，而是在此处中断，当调用send()或者next()方法之后，yi 阅读全文

posted @ 2017-09-13 14:36 cnkai 阅读(12552) 评论(4) 推荐(2)

Python多进程

摘要： Python中提供了函数和类来实现多进程创建多进程使用函数方式使用类方式使用以上两种方式创建多进程时，join()方法与多线程效果相同，多线程设置守护线程的命令是 , 而多进程设置守护进程的命令是进程锁Lock() 进程锁可以避免因为多个进程访问共享资源而发生冲突。不使用进程锁可以看到阅读全文

posted @ 2017-09-13 14:35 cnkai 阅读(841) 评论(0) 推荐(0)

2017年9月11日

Python多线程

摘要： python中提供了函数和类两种方式使用多线程：创建多线程函数方式类方式使用类方式需要写一个类，继承自threading.Thread类，然后重写run()方法。线程锁 threading.Lock() 由于线程之间可以共享数据，而线程交替被送上CPU运行，这时很容易出现的一个问题就是，一阅读全文

posted @ 2017-09-11 19:08 cnkai 阅读(1458) 评论(0) 推荐(0)

公告