摘要:
HTTP 请求中包含Accept-encoding: gzip头信息可以告诉服务器,如果它有任何新数据要发送给我时,请以压缩的格式发送。如果服务器支持压缩,它将返回由 gzip 压缩的数据并且使用Content-encoding: gzip头信息标记。#codeing:utf-8import urllib2, httplibimport StringIOimport gzipdef findUrlGzip(url):request =urllib2.Request(url)request.add_header('Accept-encoding', 'gzip') 阅读全文
随笔档案-2013年7月30日
python之md5模块
2013-07-30 23:30 by 江湖么名, 932 阅读, 收藏,
摘要:
python的md5模块使用非常简单,包括以下几个函数:md5.new([arg])返回一个md5对象,如果给出参数,则相当于调用了update(arg)md5.updte(arg)用string参数arg更新md5对象md5.digest()返回16字节的摘要,由传给update的string生成,摘要没有ascii字符md5.hexdigest()以16进制的形式返回摘要代码示例:01.#!/usr/bin/python02.import sys03.import md504.05.str=sys.argv[1]06.key = md5.new()07.key.update(str)08. 阅读全文
python访问web的利器:urllib2
2013-07-30 23:26 by 江湖么名, 783 阅读, 收藏,
摘要:
使用Python访问网页主要有三种方式: urllib, urllib2, httpliburllib比较简单,功能相对也比较弱,httplib简单强大,但好像不支持session1. 最简单的页面访问res=urllib2.urlopen(url)print res.read()2. 加上要get或post的数据data={"name":"hank", "passwd":"hjz"}urllib2.urlopen(url, urllib.urlencode(data))3. 加上http头header={&quo 阅读全文
urllib2模块、cookielib模块
2013-07-30 23:13 by 江湖么名, 5454 阅读, 收藏,
摘要:
urllib2模块 urllib模块和urllib模块类似,用来打开URL并从中获取数据。与urllib模块不同的是,urllib模块不仅可以使用urlopen() 函数还可以自定义Opener来访问网页。同时要注意:urlretrieve()函数是urllib模块中的,urllib2模块中不存在该函数。但是 使用urllib2模块时一般都离不开urllib模块,因为POST的数据需要使用urllib.urlencode()函数来编码。 一、urlopen() 最简单的请求方式就是用urlopen()函数。 urlopen (url [,data ,[timeout]]) 函数打开URL u. 阅读全文
Python BeautifulSoup 简单笔记
2013-07-30 22:54 by 江湖么名, 18443 阅读, 收藏,
摘要:
Beautiful Soup 是用 Python 写的一个 HTML/XML 的解析器,它可以很好的处理不规范标记并生成剖析树。通常用来分析爬虫抓取的web文档。对于 不规则的 Html文档,也有很多的补全功能,节省了开发者的时间和精力。Beautiful Soup 的官方文档齐全,将官方给出的例子实践一遍就能掌握。官方英文文档,中文文档一 安装 Beautiful Soup 安装 BeautifulSoup 很简单,下载 BeautifulSoup 源码。解压运行 python setup.py install 即可。测试安装是否成功。键入 import BeautifulSoup 如果没有 阅读全文
Python 标准库 urllib2 的使用细节
2013-07-30 22:35 by 江湖么名, 375 阅读, 收藏,
摘要:
Python 标准库中有很多实用的工具类,但是在具体使用时,标准库文档上对使用细节描述的并不清楚,比如 urllib2 这个 HTTP 客户端库。这里总结了一些 urllib2 的使用细节。Proxy 的设置Timeout 设置在 HTTP Request 中加入特定的 HeaderRedirectCookie使用 HTTP 的 PUT 和 DELETE 方法得到 HTTP 的返回码Debug LogProxy 的设置urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。如果想在程序中明确控制 Proxy 而不受环境变量的影响,可以使用下面的方式import 阅读全文
SQLite使用小结
2013-07-30 19:00 by 江湖么名, 4047 阅读, 收藏,
摘要:
一、SQLite简介 SQLite是一款轻型的数据库,是遵守ACID的关联式数据库管理系统,它的设计目标是嵌入式的,而且目前已经在很多嵌入式产品中使用了它,它占用资源非常的低,在嵌入式设备中,可能只需要几百K的内存就够了。它能够支持Windows/Linux/Unix等等主流的操作系统,同时能够跟很多程序语言相结合,比如Tcl、PHP、Java等,还有ODBC接口,同样比起Mysql、PostgreSQL这两款开源世界著名的数据库管理系统来讲,它的处理速度比他们都快。 SQLite虽然很小巧,但是支持的SQL语句不会逊色于其他开源数据库,它支持的SQL包括: ATTACH DATABA... 阅读全文
Python与SQLite日期时间函数的使法
2013-07-30 18:29 by 江湖么名, 1264 阅读, 收藏,
摘要:
SQLite的时间函数跟Python的时间函数有些许差别,所以稍做记录,供自己以后查询。 网上有将SQLite官方WIKI内容翻译成中文的文章,大家有兴趣可以搜索一下,我这里单纯记录一下个人比较常用的一些内容。SQLite的五个时间函数:date(日期时间字符串, 修正符, 修正符, ......)time(日期时间字符串, 修正符, 修正符, ......)datetime(日期时间字符串, 修正符, 修正符, ......)julianday(日期时间字符串, 修正符, 修正符, ......)strftime(日期时间格式, 日期时间字符串, 修正符, 修正符, ......) date 阅读全文
python之sqlite3使用详解
2013-07-30 17:11 by 江湖么名, 630 阅读, 收藏,
摘要:
Python SQLITE数据库是一款非常小巧的嵌入式开源数据库软件,也就是说没有独立的维护进程,所有的维护都来自于程序本身。它使用一个文件存储整个数据库,操 作十分方便。它的最大优点是使用方便,功能相比于其它大型数据库来说,确实有些差距。但是性能表现上,SQLITE并不逊色。麻雀虽小,五脏俱全, sqlite 实现了多数 sql-92 的标准,比如说 transaction 、 trigger 和复杂的查询等。python的数据库模块有统一的接口标准,所以数据库操作都有统一的模式,基本上都是下面几步(假设数据库模块名为db):1. 用db.connect创建数据库连接,假设连接对象为conn 阅读全文
python3连接使用sqlite3
2013-07-30 16:36 by 江湖么名, 3220 阅读, 收藏,
摘要:
一直比较喜欢sqlite,业余爱好不需要大型数据库,原来在windows下最常用的就是access,使用很方便,但是linux下没法用,后 来从php+sqlite2开始使用,编程时间很少,代码量很小所以不是很熟悉。现在又开始学python(汗一个先,我都不知道这是第几次开始 了,^_^,没怎么能坚持,所以依然还是学基础),首选sqlite3.在python中连接使用sqlite3非常方便,需要载入sqlite3模块就能使用了 1 import sqlite3 2 #建立连接 3 conn = sqlite3.connect('/tmp/example') 4 5 #建立了连接 阅读全文
python数据库编程_sqlite
2013-07-30 16:34 by 江湖么名, 2616 阅读, 收藏,
摘要:
原文请看:http://blog.csdn.net/jj_liuxin/article/details/3584448sqlite是一个轻量级的数据库,与很多大型的数据库(例如DB2,Oracle,MSSQL,MYSQL,PostgreSQL)相比,它不需要一个 Server Process,因此更相像于其他的小型数据库,例如Access,而且事实上,它的作用很类似于Access,不过由于缺乏商业支持,没有像 Access一样提供丰富的界面组件,相信如果需要的话,其实不是很难做的。 前面也用到过sqlite,例如在对pickle模块的学习,以及我所写的下载糗事百科的程序中都大量的使用到了sql 阅读全文
python socket 超时设置 errno10054
2013-07-30 13:38 by 江湖么名, 21600 阅读, 收藏,
摘要:
python socket.error: [Errno 10054] 远程主机强迫关闭了一个现有的连接。问题解决方案:前几天使用python读取网页。因为对一个网站大量的使用urlopen操作,所以会被那个网站认定为攻击行为。有时就不再允许下载。导致urlopen()后,request.read()一直卡死在那里。最后会抛出errno 10054.这 个错误是connection reset by peer.也就是传说的远端主机重置了此连接。原因可能是socket超时时间过长;也可能是request = urllib.request.urlopen(url)之后,没有进行request.clo 阅读全文
Python 实现腾讯新闻抓取
2013-07-30 08:42 by 江湖么名, 494 阅读, 收藏,
摘要:
原文地址:http://www.cnblogs.com/rails3/archive/2012/08/14/2636780.htm思路:1.抓取腾讯新闻列表页面: http://news.qq.com/2.提取详细页面的url:http://news.qq.com/a/20120814/000070.htm 3.在详细页中提取新闻标题和内容4.去除提取内容中的html标签,生成txt文档 代码: 1 #coding=utf-8 2 import sys 3 import urllib2 4 import re 5 import os 6 7 def extract_url(info): 8 . 阅读全文
浙公网安备 33010602011771号