王竹笙

2018年10月26日

摘要：当Item 在Spider中被收集之后，就会被传递到Item Pipeline中进行处理每个item pipeline组件是实现了简单的方法的python类，负责接收到item并通过它执行一些行为，同时也决定此Item是否继续通过pipeline,或者被丢弃而不再进行处理 item pipelin 阅读全文

posted @ 2018-10-26 14:35 王竹笙阅读(329) 评论(0) 推荐(0)

5-----Scrapy框架中Spiders用法

摘要： Spider类定义了如何爬去某个网站，包括爬取的动作以及如何从网页内容中提取结构化的数据，总的来说spider就是定义爬取的动作以及分析某个网页工作流程分析 1、以初始的URL初始化Request，并设置回调函数，当该request下载完毕并返回时，将生成response，并作为参数传给回调函数. 阅读全文

posted @ 2018-10-26 13:44 王竹笙阅读(332) 评论(0) 推荐(0)

4-----Scrapy框架中选择器的用法

摘要： Scrapy提取数据有自己的一套机制，被称作选择器（selectors）,通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中选择节点的语言，也可以用在HTML上。CSS是一门将HTML文档样式化语言，选择器由它定义，并与特定的HTML元素的样式相关联。 X 阅读全文

posted @ 2018-10-26 13:42 王竹笙阅读(217) 评论(0) 推荐(0)

3-----Scrapy框架的命令行详解

摘要：创建爬虫项目 scrapy startproject 项目名例子如下：这个时候爬虫的目录结构就已经创建完成了,目录结构如下：接着我们按照提示可以生成一个spider,这里以百度作为例子,生成spider的命令格式为;scrapy genspider 爬虫名字爬虫的网址关于命令详细使用命令阅读全文

posted @ 2018-10-26 13:04 王竹笙阅读(325) 评论(0) 推荐(0)

1-----Scrapy框架整体的一个了解

摘要：这里是通过爬取伯乐在线的全部文章为例子，让自己先对scrapy进行一个整理的理解该例子中的详细代码会放到我的github地址：https://github.com/pythonsite/spider/tree/master/jobboleSpider 注：这个文章并不会对详细的用法进行讲解，是为了阅读全文

posted @ 2018-10-26 10:25 王竹笙阅读(235) 评论(0) 推荐(0)

2018年10月16日

Python8-----Selenium库的使用

摘要：一、什么是Selenium selenium 是一套完整的web应用程序测试系统，包含了测试的录制（selenium IDE）,编写及运行（Selenium Remote Control）和测试的并行处理（Selenium Grid）。Selenium的核心Selenium Core基于JsUnit 阅读全文

posted @ 2018-10-16 16:19 王竹笙阅读(44) 评论(0) 推荐(0)

Python入妖5-----正则的基本使用

摘要：什么是正则表达式正则表达式是对字符串操作的一种逻辑公式，就是事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符”，这个“规则字符” 来表达对字符的一种过滤逻辑。正则并不是python独有的，其他语言也都有正则python中的正则，封装了re模块 python正则的详细讲解常用阅读全文

posted @ 2018-10-16 10:37 王竹笙阅读(305) 评论(0) 推荐(0)

2018年10月15日

Python入妖4-----Request库的基本使用

摘要：什么是Requests Requests是用python语言基于urllib编写的，采用的是Apache2 Licensed开源协议的HTTP库如果你看过上篇文章关于urllib库的使用，你会发现，其实urllib还是非常不方便的，而Requests它会比urllib更加方便，可以节约我们大量的工作阅读全文

posted @ 2018-10-15 17:42 王竹笙阅读(4835) 评论(0) 推荐(0)

2018年10月9日

win安装wordcloud报错解决方案

摘要：可以知道需要安装的是32位系统上的python 3.6.5版本的 ②登陆 https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud 网址找到相应文件 pip install wordcloud-1.4.1-cp36-cp36m-win32.whl ( 阅读全文

posted @ 2018-10-09 11:57 王竹笙阅读(1275) 评论(0) 推荐(0)

2018年9月27日

jumpserver3.0跳板机

摘要： centos7安装jumpserver3.0跳板机 Jumpserver是一款由python编写, Django开发的开源跳板机/堡垒机系统, 助力互联网企业高效用户、资产、权限、审计管理。jumpserver实现了跳板机应有的功能，基于ssh协议来管理，客户端无需安装agent。Jumpser 阅读全文

posted @ 2018-09-27 15:19 王竹笙阅读(147) 评论(0) 推荐(0)

纵浪大化中，不喜亦不忧，应尽便须尽，无复独多虑。

公告