06 2017 档案

摘要:selenium是一个web测试应用框架也可以拿来做爬虫。 1.安装selenium模块 pip install -U selenium 2.安装selenium模块后需要有相应的浏览器驱动 A.使用phantomjs phantomjs是无界面的测试浏览器 我用的是phantomjs-2.1.0- 阅读全文
posted @ 2017-06-24 18:22 sea101 阅读(281) 评论(0) 推荐(0)
摘要:linux ftp服务器部署 1.sudo apt-get install vsftpd ##下载vsftpd 2.sudo vim /etc/vsftpd.conf ##vsftpd配置文件 添加 #禁止匿名访问 anonymous_enable=NO #接受本地用户 local_enable=Y 阅读全文
posted @ 2017-06-24 17:30 sea101 阅读(477) 评论(0) 推荐(0)
摘要:scp 远程拷贝命令 格式:scp -r 源 目标 将本地文件考到远程文件 scp -r 本地文件路径 root@ip:文件或文件夹路径 将远程文件考到本地 scp -r root@ip:文件夹或文件 本地存放路径 阅读全文
posted @ 2017-06-24 12:29 sea101 阅读(101) 评论(0) 推荐(0)
摘要:使用selenium模块爬取验证码页面,selenium模块需要另外安装这里不讲环境的配置,我有一篇博客有专门讲ubuntn下安装和配置模拟浏览器的开发 spider的代码 如果出现这个HTTP status code is not handled or not allowed 错误 说明还有spi 阅读全文
posted @ 2017-06-23 13:12 sea101 阅读(1135) 评论(0) 推荐(0)
摘要:Class内部,可以有属性和方法,而外部代码可以通过直接调用实例变量的方法来操作数据 1.__xx__(两边两个下划线):是特列方法像__init__之类的,是python的内嵌的方法在特定的时候会被自动调用。 2.__xx(左边只有两个下划线):类的私有变量,只能是允许这个类本身进行访问了,连子类 阅读全文
posted @ 2017-06-22 17:19 sea101 阅读(427) 评论(0) 推荐(0)
摘要:我的系统是 ubuntu14.04 我们使用的是python2.7,建议安装qt4+pyqt4+eric4 eric是pyqt的界面设计器的代码生成软件。 1.安装sip 这个是python和qt之间的c和c++连接库的东西sudo apt-get install python-sipsudo ap 阅读全文
posted @ 2017-06-22 16:33 sea101 阅读(729) 评论(0) 推荐(0)
摘要:scrapy 验证码登录程序, https://accounts.douban.com/login 豆瓣的登录程序 github完整代码链接地址: https://github.com/sea1234/myyangzhengma 阅读全文
posted @ 2017-06-22 13:16 sea101 阅读(2332) 评论(0) 推荐(0)
摘要:点对点通讯分为客户端和服务器,多个客户端通过服务器进行信息的交流 服务器端代码 service端 客户端代码 程序需要先运行服务端在运行多个客户端,多个客户端可已进行通讯 阅读全文
posted @ 2017-06-21 10:42 sea101 阅读(1897) 评论(0) 推荐(0)
摘要:python多线程模块包括:thread、threading、Queue 实现模块 thread:多线程的底层支持模块,一般不建议使用; threading:对thread进行了封装,将一些线程的操作对象化。 Queue:提供了一个适用于多线程编程的先进先出的数据结构,即队列,用来在生产者和消费者线 阅读全文
posted @ 2017-06-20 15:04 sea101 阅读(196) 评论(0) 推荐(0)
摘要:伪装浏览器代理 在爬取网页是有些服务器对请求过滤的不是很高可以不用ip来伪装请求直接将自己的浏览器信息给伪装也是可以的。 第一中方法: 1.在setting.py文件中加入以下内容,这是一些浏览器的头信息 1 # encoding: utf-8 2 from scrapy.utils.project 阅读全文
posted @ 2017-06-19 20:55 sea101 阅读(8348) 评论(0) 推荐(2)
摘要:ubuntn默认下载路径的源是国外的下载很慢换成国内的下载路径会好很多 在ubuntu应用搜索框(左上脚那个)中输入software 1.software&Updates 应用点击software 2.在弹出的界面中的download中选择other 3.在之后弹出的框中选到china 4.在里面选 阅读全文
posted @ 2017-06-18 11:10 sea101 阅读(1047) 评论(0) 推荐(1)
摘要:http://jingyan.baidu.com/article/ad310e80ae6d971849f49ed3.html 文章来自以上链接 安装搜狗输入法 下载搜狗http://pinyin.sogou.com/linux/?r=pinyin选择对应版本我的是64位的 进入对应文件夹输入sudo 阅读全文
posted @ 2017-06-18 11:05 sea101 阅读(240) 评论(0) 推荐(0)
摘要:socket套接字:为了使2个不同应用程序进行通信。 两种套接字类型:基于文件的和基于网络的 1.基于文件(AF_LOCAL或AF_UNIX):代表Unix 2.面向网络(AF_INET):代表因特网 面向连接的套接字(SOCK_STREAM):TCP 面向无连接的套接字(SOCK_DGRAM):U 阅读全文
posted @ 2017-06-17 22:05 sea101 阅读(241) 评论(0) 推荐(0)
摘要:我的版本是14.04 1.更新系统 ##如果系统没有换国内下载路径需要换下系统的更新下载路径 http://www.cnblogs.com/seablog/p/7043798.html sudo apt-get update 更新系统 sudo apt-get upgrade 2.安装pip scr 阅读全文
posted @ 2017-06-12 17:17 sea101 阅读(340) 评论(0) 推荐(0)
摘要:在spider中最后一个函数返回item时会scrapy会调用pipeline里面的 阅读全文
posted @ 2017-06-12 17:15 sea101 阅读(493) 评论(0) 推荐(1)
摘要:scrapy stratproject projectname ##创建一个项目 scrapy genspider myspidername fider ##创建一个spider文件 scrapy crawl spidername ## 执行一个spider程序 scrapy shell url # 阅读全文
posted @ 2017-06-12 16:50 sea101 阅读(294) 评论(0) 推荐(1)
摘要:python的正则是通过re模块的支持 匹配的3个函数 match :只从字符串的开始与正则表达式匹配,匹配成功返回matchobject,否则返回none; re.match(pattern, string, flags=0) ##flags标志位,用于控制正则表达式的匹配方式,如:是否区分大小写 阅读全文
posted @ 2017-06-12 16:10 sea101 阅读(256) 评论(0) 推荐(1)
摘要:python中函数参数有:默认参数、关键字参数、非关键字可变长参数(元组)、关键字可变长参数(字典) 阅读全文
posted @ 2017-06-11 16:00 sea101 阅读(359) 评论(0) 推荐(0)
摘要:在scrapy项目中建一个与spider同级的python目录并在下面添加一个py文件内容为 阅读全文
posted @ 2017-06-10 17:35 sea101 阅读(2710) 评论(0) 推荐(0)
摘要:链接:http://www.zhihu.com/question/19801131/answer/27459821来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 编程分为两类:系统编程(system programming)和应用编程(application prog 阅读全文
posted @ 2017-06-10 16:08 sea101 阅读(375) 评论(0) 推荐(0)