上一页 1 ··· 17 18 19 20 21 22 23 24 25 ··· 32 下一页
摘要: 当Item 在Spider中被收集之后,就会被传递到Item Pipeline中进行处理 每个item pipeline组件是实现了简单的方法的python类,负责接收到item并通过它执行一些行为,同时也决定此Item是否继续通过pipeline,或者被丢弃而不再进行处理 item pipelin 阅读全文
posted @ 2018-10-26 14:35 王竹笙 阅读(327) 评论(0) 推荐(0)
摘要: Spider类定义了如何爬去某个网站,包括爬取的动作以及如何从网页内容中提取结构化的数据,总的来说spider就是定义爬取的动作以及分析某个网页 工作流程分析 1、以初始的URL初始化Request,并设置回调函数,当该request下载完毕并返回时,将生成response,并作为参数传给回调函数. 阅读全文
posted @ 2018-10-26 13:44 王竹笙 阅读(329) 评论(0) 推荐(0)
摘要: Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中选择节点的语言,也可以用在HTML上。CSS是一门将HTML文档样式化语言,选择器由它定义,并与特定的HTML元素的样式相关联。 X 阅读全文
posted @ 2018-10-26 13:42 王竹笙 阅读(216) 评论(0) 推荐(0)
摘要: 创建爬虫项目 scrapy startproject 项目名 例子如下: 这个时候爬虫的目录结构就已经创建完成了,目录结构如下: 接着我们按照提示可以生成一个spider,这里以百度作为例子,生成spider的命令格式为;scrapy genspider 爬虫名字 爬虫的网址 关于命令详细使用 命令 阅读全文
posted @ 2018-10-26 13:04 王竹笙 阅读(319) 评论(0) 推荐(0)
摘要: 这里是通过爬取伯乐在线的全部文章为例子,让自己先对scrapy进行一个整理的理解 该例子中的详细代码会放到我的github地址:https://github.com/pythonsite/spider/tree/master/jobboleSpider 注:这个文章并不会对详细的用法进行讲解,是为了 阅读全文
posted @ 2018-10-26 10:25 王竹笙 阅读(234) 评论(0) 推荐(0)
摘要: 一、什么是Selenium selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行处理(Selenium Grid)。Selenium的核心Selenium Core基于JsUnit 阅读全文
posted @ 2018-10-16 16:19 王竹笙 阅读(44) 评论(0) 推荐(0)
摘要: 什么是正则表达式 正则表达式是对字符串操作的一种逻辑公式,就是 事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符”,这个“规则字符” 来表达对字符的一种过滤逻辑。 正则并不是python独有的,其他语言也都有正则python中的正则,封装了re模块 python正则的详细讲解 常用 阅读全文
posted @ 2018-10-16 10:37 王竹笙 阅读(305) 评论(0) 推荐(0)
摘要: 什么是Requests Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库如果你看过上篇文章关于urllib库的使用,你会发现,其实urllib还是非常不方便的,而Requests它会比urllib更加方便,可以节约我们大量的工作 阅读全文
posted @ 2018-10-15 17:42 王竹笙 阅读(4831) 评论(0) 推荐(0)
摘要: 可以知道需要安装的是32位系统上的python 3.6.5版本的 ②登陆 https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud 网址找到相应文件 pip install wordcloud-1.4.1-cp36-cp36m-win32.whl ( 阅读全文
posted @ 2018-10-09 11:57 王竹笙 阅读(1275) 评论(0) 推荐(0)
摘要: centos7安装jumpserver3.0跳板机 Jumpserver是一款由python编写, Django开发的开源跳板机/堡垒机系统, 助力互联网企业高效 用户、资产、权限、审计 管理。jumpserver实现了跳板机应有的功能,基于ssh协议来管理,客户端无需安装agent。Jumpser 阅读全文
posted @ 2018-09-27 15:19 王竹笙 阅读(145) 评论(0) 推荐(0)
上一页 1 ··· 17 18 19 20 21 22 23 24 25 ··· 32 下一页