zhangjpn - 博客园

2017年5月10日

摘要： scrapy框架使用代理ip的基本思路是修改请求对象中的meta['proxy']的值，将代理ip赋值给这个属性。遵循这个思路，只要是生成Request对象的地方都可以设置Request的值。 downloader中间件 spider中间件 spider内部对象定义的内部parse函数和parse_ 阅读全文

posted @ 2017-05-10 21:45 zhangjpn 阅读(458) 评论(0) 推荐(0)

2017年5月5日

python标准库：Configparser模块

摘要：配置文件test.conf 示例阅读全文

posted @ 2017-05-05 00:20 zhangjpn 阅读(199) 评论(0) 推荐(0)

2017年5月4日

git使用总结

摘要：一、安装 $ sudo apt-get install git ubuntuxia windows下使用msysgit 二、使用 1.配置 $git config --global user.name "xxx" $git config --global user.email "abc@qq.com 阅读全文

posted @ 2017-05-04 11:39 zhangjpn 阅读(177) 评论(0) 推荐(0)

2017年5月3日

Scrapy笔记：使用scrapy shell url时出现403错误的解决办法

摘要：参考： http://www.th7.cn/Program/Python/201704/1154208.shtml 原因是网站的防爬虫配置起到了作用 (1):第一种方法是在命令上加上-s USER_AGENT='Mozilla/5.0' (2):第二种方法是修改scrapy默认配置中的user-a 阅读全文

posted @ 2017-05-03 16:55 zhangjpn 阅读(1568) 评论(0) 推荐(0)

Scrapy笔记：日志的使用

摘要： scrapy的日志记录有两种方式： spider.logger.xx()和python标准库中的logger = logging.get_Logger('log information') 向日志对象写入信息就可以记录日志。默认的日志是输出到控制台的，为了进一步处理这些日志，需要有统一的处理程序进阅读全文

posted @ 2017-05-03 16:45 zhangjpn 阅读(962) 评论(0) 推荐(0)

Scrapy笔记：CrawSpider中rules中的使用

摘要： scrapy.spiders.crawl.CrawlSpider类的使用这个类比较适用于对网站爬取批量网页，相比于Spider类，CrawlSpider主要使用规则(rules)来提取链接 rules = ( Rule(LinkExtractor(allow=(r'https://movie.do 阅读全文

posted @ 2017-05-03 16:34 zhangjpn 阅读(9885) 评论(1) 推荐(0)

2017年4月22日

django+nginx+mod_wsgi+apache网站部署

摘要：软件安装 0.如果对selunix不熟就先把它停掉 vi /etc/selinux/config 改动selinux=diabled 然后重启计算机 1.编译安装python mod_wsgi的安装需要使用到python的共享库，编译安装python时要启用共享库 ./congifure --ena 阅读全文

posted @ 2017-04-22 21:29 zhangjpn 阅读(3119) 评论(0) 推荐(0)

2017年4月19日

关于URL编码 [转]

摘要：转自： http://www.ruanyifeng.com/blog/2010/02/url_encoding.html 作者：阮一峰日期： 2010年2月11日一、问题的由来 URL就是网址，只要上网，就一定会用到。一般来说，URL只能使用英文字母、阿拉伯数字和某些标点符号，不能使用其他文阅读全文

posted @ 2017-04-19 10:32 zhangjpn 阅读(413) 评论(0) 推荐(0)

2017年3月17日

FTP上传文件服务器python实现

摘要：总结使用Python的socket和socketserver模块实现ftp文件服务器。不是很难，但在粘包的问题上纠缠了不少时间。解决办法是发送文件信息之后等待一段时间。 1 #!/usr/bin/python 2 #coding:utf-8 3 ''' 4 ftp文件上传服务器端 5 ''' 6 阅读全文

posted @ 2017-03-17 15:19 zhangjpn 阅读(438) 评论(0) 推荐(0)

2017年2月27日

LVS高可用集群的配置

摘要：网络结构： LVS DR工作原理 LVS集群从客户端上看可以将整个集群看成单个服务器对外提供服务，其IP是集群内部的VIP（虚拟IP）。从内部看，转发服务器（DS）其实并没有启动应用层的服务对接口进行监听，那它是怎么发挥作用的呢？这就是LVS属于内核模块的意思了，因为这个模块是在内核编译的时候就有了阅读全文

posted @ 2017-02-27 10:21 zhangjpn 阅读(562) 评论(0) 推荐(0)

门前大树下，路过一群鸭