随笔分类 - Python

摘要:首先,在items.py中定义几个字段用来保存网页数据(网址,标题,网页源码) 如下所示: 最重要的是我们的spider,我们这里的spider继承自CrawlSpider,方便我们定义正则来提示爬虫需要抓取哪些页面。 如:爬去下一页,爬去各个文章 在spdier中,我们使用parse_item方法 阅读全文
posted @ 2017-04-02 21:55 曾是土木人 阅读(1757) 评论(0) 推荐(0) 编辑
摘要:在ubuntu 的终端中用代码下载最新的Python 用命令删除usr/bin/目录下的默认python link文件 给系统默认python编译器建立新的连接 验证系统默认Python是否是刚才安装的 直接在命令窗口输入python即可 阅读全文
posted @ 2017-04-02 14:46 曾是土木人 阅读(10460) 评论(1) 推荐(2) 编辑
摘要:代码如下:#coding:utf-8from PIL import Imageimport pytesseractdef test(): im = Image.open(r"pic.gif") vcode = pytesseract.image_to_string(im) prin... 阅读全文
posted @ 2015-04-18 09:39 曾是土木人 阅读(15296) 评论(1) 推荐(0) 编辑
摘要:需求:将utf-8格式的文件转换成gbk格式的文件实现代码如下:def ReadFile(filePath,encoding="utf-8"): with codecs.open(filePath,"r",encoding) as f: return f.read() def W... 阅读全文
posted @ 2015-01-21 21:31 曾是土木人 阅读(20224) 评论(0) 推荐(2) 编辑
摘要:相关文章Python中文编码问题:为何在控制台下输出中文会乱码及其原理1. 字符编码简介1.1. ASCIIASCII(American Standard Code for Information Interchange),是一种单字节的编码。计算机世界里一开始只有英文,而单字节可以表示256个不同... 阅读全文
posted @ 2015-01-07 23:31 曾是土木人 阅读(679) 评论(0) 推荐(0) 编辑
摘要:站点停留时间(Time on Site,下文简称Ts) 和 页面停留时间(Time on Page,下文简称Tp)是用户体验分析及流量质量监控的重要指标。但是极少有人知道网站访问的平均时间(Average Time on Site)是怎么计算出来的。无论是使用竞争情报分析工具,还是某种网站分析解决方... 阅读全文
posted @ 2014-09-24 19:57 曾是土木人 阅读(36448) 评论(0) 推荐(2) 编辑
摘要:首先,推荐一个组件:progressive效果如下:进度条和一般的print区别在哪里呢?答案就是print会输出一个\n,也就是换行符,这样光标移动到了下一行行首,接着输出,之前已经通过stdout输出的东西依旧保留,而且保证我们在下面看到最新的输出结果。进度条不然,我们必须再原地输出才能保证他是... 阅读全文
posted @ 2014-09-19 20:40 曾是土木人 阅读(38955) 评论(1) 推荐(3) 编辑
摘要:def is_chinese(uchar): """判断一个unicode是否是汉字""" if uchar >= u'\u4e00' and uchar= u'\u0030' and uchar= u'\u0041' and uchar= u'\u0061' and u... 阅读全文
posted @ 2014-08-22 22:40 曾是土木人 阅读(5558) 评论(0) 推荐(0) 编辑
摘要:SAX的特点:是基于事件的 API在一个比 DOM 低的级别上操作为您提供比 DOM 更多的控制几乎总是比 DOM 更有效率但不幸的是,需要比 DOM 更多的工作基于对象和基于事件的接口您可能已经知道语法分析器有两类接口 - 基于对象的(如:DOM)和基于事件(如:SAX)的接口。DOM是基于对象的... 阅读全文
posted @ 2014-07-29 20:49 曾是土木人 阅读(15801) 评论(1) 推荐(2) 编辑
摘要:sql注入工具:sqlmapDNS安全监测:DNSRecon暴力破解测试工具:patatorXSS漏洞利用工具:XSSerWeb服务器压力测试工具:HULKSSL安全扫描器:SSLyze网络Scapy: send, sniff and dissect and forge network packet... 阅读全文
posted @ 2014-07-29 00:47 曾是土木人 阅读(20611) 评论(3) 推荐(10) 编辑
摘要:源代码 1 def start(): 2 """ 3 This function calls a function that performs checks on both URL 4 stability and all GET, POST, Cookie and U... 阅读全文
posted @ 2014-07-28 18:32 曾是土木人 阅读(5116) 评论(0) 推荐(0) 编辑
摘要:目标网址http://127.0.0.1/shentou/sqli-labs-master/Less-5/?id=1Payload的生成 1 2 MySQL >= 5.0 AND error-based - WHERE or HAVING clause 3 2 4 1... 阅读全文
posted @ 2014-07-28 06:42 曾是土木人 阅读(5770) 评论(0) 推荐(0) 编辑
摘要:http://192.168.136.131/sqlmap/mysql/get_int.php?id=1当给sqlmap这么一个url的时候,它会:1、判断可注入的参数2、判断可以用那种SQL注入技术来注入3、识别出哪种数据库4、根据用户选择,读取哪些数据sqlmap支持五种不同的注入模式:1、基于 阅读全文
posted @ 2014-07-27 23:16 曾是土木人 阅读(172083) 评论(2) 推荐(7) 编辑
摘要:建议阅读Time-Based Blind SQL Injection Attacks基于时间的盲注(time-basedblind) 测试应用是否存在SQL注入漏洞时,经常发现某一潜在的漏洞难以确认。这可能源于多种原因,但主要是因为Web应用未显示任何错误,因而无法检索任何数据。 对于这种情况,... 阅读全文
posted @ 2014-07-27 16:47 曾是土木人 阅读(12462) 评论(1) 推荐(1) 编辑
摘要:下载地址 英文版(文字版) 官方文档 The Python Standard Library 《Python标准库》一书的目录 《python标准库》 译者序 序 前言 第1章 文本1 1.1 string—文本常量和模板1 1.1.1 函数1 1.1.2 模板2 1.1.3 高级模板4 1.2 t 阅读全文
posted @ 2014-07-26 23:17 曾是土木人 阅读(15624) 评论(0) 推荐(0) 编辑
摘要:#HiRoot's BlogOptions(选项):--version 显示程序的版本号并退出-h, --help 显示此帮助消息并退出-v VERBOSE 详细级别:0-6(默认为1)Target(目标):以下至少需要设置其中一个选项,设置目标URL。-d DIRECT 直接连接到数据库。-u U... 阅读全文
posted @ 2014-07-25 13:55 曾是土木人 阅读(1523) 评论(0) 推荐(0) 编辑
摘要:流程图代码解析后面补充……版权作 者:曾是土木人新浪微博:http://weibo.com/cstmr转载请注明出处:http://www.cnblogs.com/hongfei/p/sqlmap-workflow.html 阅读全文
posted @ 2014-07-24 23:34 曾是土木人 阅读(2014) 评论(0) 推荐(0) 编辑
摘要:try: import termios, TERMIOS 1except ImportError: try: import msvcrt 2 except ImportError: try: ... 阅读全文
posted @ 2014-07-24 20:57 曾是土木人 阅读(1301) 评论(0) 推荐(0) 编辑
摘要:1. 线程基础1.1. 线程状态线程有5种状态,状态转换的过程如下图所示:1.2. 线程同步(锁)多线程的优势在于可以同时运行多个任务(至少感觉起来是这样)。但是当线程需要共享数据时,可能存在数据不同步的问题。考虑这样一种情况:一个列表里所有元素都是0,线程"set"从后向前把所有元素改成1,而线程... 阅读全文
posted @ 2014-07-23 11:33 曾是土木人 阅读(558) 评论(0) 推荐(0) 编辑
摘要:XML %d... 阅读全文
posted @ 2014-07-22 16:01 曾是土木人 阅读(4709) 评论(0) 推荐(0) 编辑