随笔分类 - Python

摘要: 首先,在items.py中定义几个字段用来保存网页数据(网址,标题,网页源码) 如下所示: 最重要的是我们的spider,我们这里的spider继承自CrawlSpider,方便我们定义正则来提示爬虫需要抓取哪些页面。 如:爬去下一页,爬去各个文章 在spdier中,我们使用parse_item方法阅读全文
posted @ 2017-04-02 21:55 曾是土木人 阅读(1362) | 评论 (0) 编辑
摘要: 在ubuntu 的终端中用代码下载最新的Python 用命令删除usr/bin/目录下的默认python link文件 给系统默认python编译器建立新的连接 验证系统默认Python是否是刚才安装的 直接在命令窗口输入python即可阅读全文
posted @ 2017-04-02 14:46 曾是土木人 阅读(9822) | 评论 (1) 编辑
摘要: 代码如下:#coding:utf-8from PIL import Imageimport pytesseractdef test(): im = Image.open(r"pic.gif") vcode = pytesseract.image_to_string(im) prin...阅读全文
posted @ 2015-04-18 09:39 曾是土木人 阅读(11181) | 评论 (1) 编辑
摘要: 需求:将utf-8格式的文件转换成gbk格式的文件实现代码如下:def ReadFile(filePath,encoding="utf-8"): with codecs.open(filePath,"r",encoding) as f: return f.read() def W...阅读全文
posted @ 2015-01-21 21:31 曾是土木人 阅读(16096) | 评论 (0) 编辑
摘要: 相关文章Python中文编码问题:为何在控制台下输出中文会乱码及其原理1. 字符编码简介1.1. ASCIIASCII(American Standard Code for Information Interchange),是一种单字节的编码。计算机世界里一开始只有英文,而单字节可以表示256个不同...阅读全文
posted @ 2015-01-07 23:31 曾是土木人 阅读(501) | 评论 (0) 编辑
摘要: 站点停留时间(Time on Site,下文简称Ts) 和 页面停留时间(Time on Page,下文简称Tp)是用户体验分析及流量质量监控的重要指标。但是极少有人知道网站访问的平均时间(Average Time on Site)是怎么计算出来的。无论是使用竞争情报分析工具,还是某种网站分析解决方...阅读全文
posted @ 2014-09-24 19:57 曾是土木人 阅读(30316) | 评论 (0) 编辑
摘要: 首先,推荐一个组件:progressive效果如下:进度条和一般的print区别在哪里呢?答案就是print会输出一个\n,也就是换行符,这样光标移动到了下一行行首,接着输出,之前已经通过stdout输出的东西依旧保留,而且保证我们在下面看到最新的输出结果。进度条不然,我们必须再原地输出才能保证他是...阅读全文
posted @ 2014-09-19 20:40 曾是土木人 阅读(34153) | 评论 (1) 编辑
摘要: def is_chinese(uchar): """判断一个unicode是否是汉字""" if uchar >= u'\u4e00' and uchar= u'\u0030' and uchar= u'\u0041' and uchar= u'\u0061' and u...阅读全文
posted @ 2014-08-22 22:40 曾是土木人 阅读(4929) | 评论 (0) 编辑
摘要: SAX的特点:是基于事件的 API在一个比 DOM 低的级别上操作为您提供比 DOM 更多的控制几乎总是比 DOM 更有效率但不幸的是,需要比 DOM 更多的工作基于对象和基于事件的接口您可能已经知道语法分析器有两类接口 - 基于对象的(如:DOM)和基于事件(如:SAX)的接口。DOM是基于对象的...阅读全文
posted @ 2014-07-29 20:49 曾是土木人 阅读(12963) | 评论 (1) 编辑
摘要: sql注入工具:sqlmapDNS安全监测:DNSRecon暴力破解测试工具:patatorXSS漏洞利用工具:XSSerWeb服务器压力测试工具:HULKSSL安全扫描器:SSLyze网络Scapy: send, sniff and dissect and forge network packet...阅读全文
posted @ 2014-07-29 00:47 曾是土木人 阅读(19693) | 评论 (2) 编辑
摘要: 源代码 1 def start(): 2 """ 3 This function calls a function that performs checks on both URL 4 stability and all GET, POST, Cookie and U...阅读全文
posted @ 2014-07-28 18:32 曾是土木人 阅读(4589) | 评论 (0) 编辑
摘要: 目标网址http://127.0.0.1/shentou/sqli-labs-master/Less-5/?id=1Payload的生成 1 2 MySQL >= 5.0 AND error-based - WHERE or HAVING clause 3 2 4 1...阅读全文
posted @ 2014-07-28 06:42 曾是土木人 阅读(5115) | 评论 (0) 编辑
摘要: http://192.168.136.131/sqlmap/mysql/get_int.php?id=1当给sqlmap这么一个url的时候,它会:1、判断可注入的参数2、判断可以用那种SQL注入技术来注入3、识别出哪种数据库4、根据用户选择,读取哪些数据sqlmap支持五种不同的注入模式:1、基于阅读全文
posted @ 2014-07-27 23:16 曾是土木人 阅读(134946) | 评论 (1) 编辑
摘要: 建议阅读Time-Based Blind SQL Injection Attacks基于时间的盲注(time-basedblind) 测试应用是否存在SQL注入漏洞时,经常发现某一潜在的漏洞难以确认。这可能源于多种原因,但主要是因为Web应用未显示任何错误,因而无法检索任何数据。 对于这种情况,...阅读全文
posted @ 2014-07-27 16:47 曾是土木人 阅读(10313) | 评论 (1) 编辑
摘要: 下载地址 英文版(文字版) 官方文档 The Python Standard Library 《Python标准库》一书的目录 《python标准库》 译者序 序 前言 第1章 文本1 1.1 string—文本常量和模板1 1.1.1 函数1 1.1.2 模板2 1.1.3 高级模板4 1.2 t阅读全文
posted @ 2014-07-26 23:17 曾是土木人 阅读(12143) | 评论 (0) 编辑
摘要: #HiRoot's BlogOptions(选项):--version 显示程序的版本号并退出-h, --help 显示此帮助消息并退出-v VERBOSE 详细级别:0-6(默认为1)Target(目标):以下至少需要设置其中一个选项,设置目标URL。-d DIRECT 直接连接到数据库。-u U...阅读全文
posted @ 2014-07-25 13:55 曾是土木人 阅读(1201) | 评论 (0) 编辑
摘要: 流程图代码解析后面补充……版权作 者:曾是土木人新浪微博:http://weibo.com/cstmr转载请注明出处:http://www.cnblogs.com/hongfei/p/sqlmap-workflow.html阅读全文
posted @ 2014-07-24 23:34 曾是土木人 阅读(1580) | 评论 (0) 编辑
摘要: try: import termios, TERMIOS 1except ImportError: try: import msvcrt 2 except ImportError: try: ...阅读全文
posted @ 2014-07-24 20:57 曾是土木人 阅读(958) | 评论 (0) 编辑
摘要: 1. 线程基础1.1. 线程状态线程有5种状态,状态转换的过程如下图所示:1.2. 线程同步(锁)多线程的优势在于可以同时运行多个任务(至少感觉起来是这样)。但是当线程需要共享数据时,可能存在数据不同步的问题。考虑这样一种情况:一个列表里所有元素都是0,线程"set"从后向前把所有元素改成1,而线程...阅读全文
posted @ 2014-07-23 11:33 曾是土木人 阅读(452) | 评论 (0) 编辑
摘要: XML %d...阅读全文
posted @ 2014-07-22 16:01 曾是土木人 阅读(4240) | 评论 (0) 编辑
摘要: Python所有的内置函数 相关文章链接 sorted的使用(写得不错) 常用的内置函数 __init__() __init__方法在类的一个对象被建立时,马上运行。这个方法可以用来对你的对象做一些你希望的初始化。注意,这个名称的开始和结尾都是双下划线。代码例子: 说明:__init__方法定义为取阅读全文
posted @ 2014-07-21 13:45 曾是土木人 阅读(20855) | 评论 (0) 编辑
摘要: 网站被入侵,担心被挂马,因此就想自己写个脚本来查找那些被挂马的文件思路需要实现准备一份未受感染的源代码和一份可能受感染的源代码,然后运行以下脚本,就能找出到底哪些文件被挂马了。其中,主要是根据比对2份文件的md5值来过滤可能被挂马的文件(确切的说应该是被修改过的文件)Python脚本__author...阅读全文
posted @ 2014-06-05 16:32 曾是土木人 阅读(1590) | 评论 (0) 编辑
摘要: 在操作某个很多进程都要频繁用到的大文件的时候,应该尽早释放文件资源(f.close())前2种方法主要用到了列表解析,性能稍差,而最后一种使用的时候生成器表达式,相比列表解析,更省内存列表解析和生成器表达式很相似:列表解析[expr for iter_var in iterable if cond_...阅读全文
posted @ 2014-06-04 16:47 曾是土木人 阅读(2597) | 评论 (0) 编辑
摘要: 比如,你想采集标题中包含“58同城”的SERP结果,并过滤包含有“北京”或“厦门”等结果数据。该Python脚本主要是实现以上功能。其中,使用BeautifulSoup来解析HTML,可以参考我的另外一篇文章:Windows8下安装BeautifulSoup代码如下:__author__ = '曾是...阅读全文
posted @ 2014-06-02 11:42 曾是土木人 阅读(910) | 评论 (0) 编辑
摘要: 运行环境:Windows 8.1Python:2.7.6在安装的时候,我使用的pip来进行安装,命令如下:pip install beautifulsoup4运行的时候,报错如下:Exception:Traceback (most recent call last): File "J:\Progr...阅读全文
posted @ 2014-06-01 11:26 曾是土木人 阅读(4726) | 评论 (0) 编辑
摘要: 地址:https://github.com/altercation/vim-colors-solarized安装:$ cd vim-colors-solarized/colors$ mv solarized.vim ~/.vim/colors/然后在~/.gvimrc 文件中添加以下几行命令synt...阅读全文
posted @ 2014-04-21 22:57 曾是土木人 阅读(37121) | 评论 (0) 编辑
摘要: 从头讲讲编码的故事。那么就让我们找个草堆坐下,先抽口烟,看看夜晚天空上的银河,然后想一想要从哪里开始讲起。嗯,也许这样开始比较好……很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物。他们看到8个开关状态是好的,于是他们把这称为"字节"。 再后来,他们又做了一些可以处理这些字节的机器,机器开动了,可以用字节来组合出很多状态,状态开始变来变去。他们看到这样是好的,于是它们就这机器称为"计算机"。开始计算机只在美国用。八位的字节一共可以组合出256(2的8次方)种不同的状态。他们把其中的编号从0开始的32种状态分别规阅读全文
posted @ 2014-04-06 16:51 曾是土木人 阅读(3128) | 评论 (2) 编辑