2013 年 7月 30 日随笔档案 - 江湖么名

Python—HTTP处理Gzip压缩数据

2013-07-30 23:33 by 江湖么名, 8636 阅读, 收藏,

摘要： HTTP 请求中包含Accept-encoding: gzip头信息可以告诉服务器，如果它有任何新数据要发送给我时，请以压缩的格式发送。如果服务器支持压缩，它将返回由 gzip 压缩的数据并且使用Content-encoding: gzip头信息标记。#codeing:utf-8import urllib2, httplibimport StringIOimport gzipdef findUrlGzip(url):request =urllib2.Request(url)request.add_header('Accept-encoding', 'gzip') 阅读全文

0 Comment

python之md5模块

2013-07-30 23:30 by 江湖么名, 932 阅读, 收藏,

摘要： python的md5模块使用非常简单，包括以下几个函数：md5.new([arg])返回一个md5对象，如果给出参数，则相当于调用了update(arg)md5.updte(arg)用string参数arg更新md5对象md5.digest()返回16字节的摘要，由传给update的string生成，摘要没有ascii字符md5.hexdigest()以16进制的形式返回摘要代码示例：01.#!/usr/bin/python02.import sys03.import md504.05.str=sys.argv[1]06.key = md5.new()07.key.update(str)08. 阅读全文

0 Comment

python访问web的利器：urllib2

2013-07-30 23:26 by 江湖么名, 783 阅读, 收藏,

摘要：使用Python访问网页主要有三种方式： urllib, urllib2, httpliburllib比较简单，功能相对也比较弱，httplib简单强大，但好像不支持session1. 最简单的页面访问res=urllib2.urlopen(url)print res.read()2. 加上要get或post的数据data={"name":"hank", "passwd":"hjz"}urllib2.urlopen(url, urllib.urlencode(data))3. 加上http头header={&quo 阅读全文

0 Comment

urllib2模块、cookielib模块

2013-07-30 23:13 by 江湖么名, 5454 阅读, 收藏,

摘要： urllib2模块 urllib模块和urllib模块类似，用来打开URL并从中获取数据。与urllib模块不同的是，urllib模块不仅可以使用urlopen() 函数还可以自定义Opener来访问网页。同时要注意：urlretrieve()函数是urllib模块中的，urllib2模块中不存在该函数。但是使用urllib2模块时一般都离不开urllib模块，因为POST的数据需要使用urllib.urlencode()函数来编码。一、urlopen（）最简单的请求方式就是用urlopen()函数。 urlopen (url [,data ,[timeout]]) 函数打开URL u. 阅读全文

0 Comment

Python BeautifulSoup 简单笔记

2013-07-30 22:54 by 江湖么名, 18443 阅读, 收藏,

摘要： Beautiful Soup 是用 Python 写的一个 HTML/XML 的解析器，它可以很好的处理不规范标记并生成剖析树。通常用来分析爬虫抓取的web文档。对于不规则的 Html文档，也有很多的补全功能，节省了开发者的时间和精力。Beautiful Soup 的官方文档齐全，将官方给出的例子实践一遍就能掌握。官方英文文档，中文文档一安装 Beautiful Soup 安装 BeautifulSoup 很简单，下载 BeautifulSoup 源码。解压运行 python setup.py install 即可。测试安装是否成功。键入 import BeautifulSoup 如果没有阅读全文

0 Comment

Python 标准库 urllib2 的使用细节

2013-07-30 22:35 by 江湖么名, 375 阅读, 收藏,

摘要： Python 标准库中有很多实用的工具类，但是在具体使用时，标准库文档上对使用细节描述的并不清楚，比如 urllib2 这个 HTTP 客户端库。这里总结了一些 urllib2 的使用细节。Proxy 的设置Timeout 设置在 HTTP Request 中加入特定的 HeaderRedirectCookie使用 HTTP 的 PUT 和 DELETE 方法得到 HTTP 的返回码Debug LogProxy 的设置urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。如果想在程序中明确控制 Proxy 而不受环境变量的影响，可以使用下面的方式import 阅读全文

0 Comment

SQLite使用小结

2013-07-30 19:00 by 江湖么名, 4047 阅读, 收藏,

摘要：一、SQLite简介 SQLite是一款轻型的数据库，是遵守ACID的关联式数据库管理系统，它的设计目标是嵌入式的，而且目前已经在很多嵌入式产品中使用了它，它占用资源非常的低，在嵌入式设备中，可能只需要几百K的内存就够了。它能够支持Windows/Linux/Unix等等主流的操作系统，同时能够跟很多程序语言相结合，比如Tcl、PHP、Java等，还有ODBC接口，同样比起Mysql、PostgreSQL这两款开源世界著名的数据库管理系统来讲，它的处理速度比他们都快。 SQLite虽然很小巧，但是支持的SQL语句不会逊色于其他开源数据库，它支持的SQL包括： ATTACH DATABA... 阅读全文

0 Comment

Python与SQLite日期时间函数的使法

2013-07-30 18:29 by 江湖么名, 1264 阅读, 收藏,

摘要： SQLite的时间函数跟Python的时间函数有些许差别，所以稍做记录，供自己以后查询。网上有将SQLite官方WIKI内容翻译成中文的文章，大家有兴趣可以搜索一下，我这里单纯记录一下个人比较常用的一些内容。SQLite的五个时间函数：date(日期时间字符串, 修正符, 修正符, ......)time(日期时间字符串, 修正符, 修正符, ......)datetime(日期时间字符串, 修正符, 修正符, ......)julianday(日期时间字符串, 修正符, 修正符, ......)strftime(日期时间格式, 日期时间字符串, 修正符, 修正符, ......) date 阅读全文

0 Comment

python之sqlite3使用详解

2013-07-30 17:11 by 江湖么名, 630 阅读, 收藏,

摘要： Python SQLITE数据库是一款非常小巧的嵌入式开源数据库软件，也就是说没有独立的维护进程，所有的维护都来自于程序本身。它使用一个文件存储整个数据库，操作十分方便。它的最大优点是使用方便，功能相比于其它大型数据库来说，确实有些差距。但是性能表现上，SQLITE并不逊色。麻雀虽小，五脏俱全， sqlite 实现了多数 sql-92 的标准，比如说 transaction 、 trigger 和复杂的查询等。python的数据库模块有统一的接口标准，所以数据库操作都有统一的模式，基本上都是下面几步（假设数据库模块名为db）：1. 用db.connect创建数据库连接，假设连接对象为conn 阅读全文

0 Comment

python3连接使用sqlite3

2013-07-30 16:36 by 江湖么名, 3220 阅读, 收藏,

摘要：一直比较喜欢sqlite，业余爱好不需要大型数据库，原来在windows下最常用的就是access，使用很方便，但是linux下没法用，后来从php+sqlite2开始使用，编程时间很少，代码量很小所以不是很熟悉。现在又开始学python（汗一个先，我都不知道这是第几次开始了，^_^，没怎么能坚持，所以依然还是学基础），首选sqlite3.在python中连接使用sqlite3非常方便，需要载入sqlite3模块就能使用了 1 import sqlite3 2 #建立连接 3 conn = sqlite3.connect('/tmp/example') 4 5 #建立了连接阅读全文

0 Comment

python数据库编程_sqlite

2013-07-30 16:34 by 江湖么名, 2616 阅读, 收藏,

摘要：原文请看:http://blog.csdn.net/jj_liuxin/article/details/3584448sqlite是一个轻量级的数据库，与很多大型的数据库(例如DB2,Oracle,MSSQL,MYSQL,PostgreSQL)相比，它不需要一个 Server Process,因此更相像于其他的小型数据库，例如Access，而且事实上，它的作用很类似于Access，不过由于缺乏商业支持，没有像 Access一样提供丰富的界面组件，相信如果需要的话，其实不是很难做的。前面也用到过sqlite，例如在对pickle模块的学习，以及我所写的下载糗事百科的程序中都大量的使用到了sql 阅读全文

0 Comment

python socket 超时设置 errno10054

2013-07-30 13:38 by 江湖么名, 21600 阅读, 收藏,

摘要： python socket.error: [Errno 10054] 远程主机强迫关闭了一个现有的连接。问题解决方案：前几天使用python读取网页。因为对一个网站大量的使用urlopen操作，所以会被那个网站认定为攻击行为。有时就不再允许下载。导致urlopen()后，request.read()一直卡死在那里。最后会抛出errno 10054.这个错误是connection reset by peer.也就是传说的远端主机重置了此连接。原因可能是socket超时时间过长；也可能是request = urllib.request.urlopen(url)之后，没有进行request.clo 阅读全文

1 Comment

Python 实现腾讯新闻抓取

2013-07-30 08:42 by 江湖么名, 494 阅读, 收藏,

摘要：原文地址:http://www.cnblogs.com/rails3/archive/2012/08/14/2636780.htm思路：1.抓取腾讯新闻列表页面: http://news.qq.com/2.提取详细页面的url：http://news.qq.com/a/20120814/000070.htm 3.在详细页中提取新闻标题和内容4.去除提取内容中的html标签，生成txt文档代码： 1 #coding=utf-8 2 import sys 3 import urllib2 4 import re 5 import os 6 7 def extract_url(info): 8 . 阅读全文

0 Comment

江湖么名

随笔档案-2013年7月30日