飞机场场长

本博客主要摘录python相关的知识,欢迎参阅。

导航

上一页 1 ··· 3 4 5 6 7 8 9 10 下一页

2012年8月7日 #

python 处理中文网页时,忽略特殊字符,忽略异常

摘要: http://hi.baidu.com/wen122056/blog/item/c92ecba97ea1c8ee1f17a262.html中文网页大部分是gb2312编码的,在用python 处理时候最好转换成unicode的,怎么转换呢?比如: html = open('http://www.baidu.com') 这时html是字节流,咱应该转换成字符流,转换成unicode编码: html = html.decode('gb2312') html = html.decode('gb18030') 这两个编码,最好用gb18030或者gbk, 阅读全文

posted @ 2012-08-07 14:58 飞机场场长 阅读(3711) 评论(0) 推荐(0)

2012年7月27日 #

HTML ISO-8859-1 Reference

摘要: http://www.w3schools.com/tags/ref_entities.aspISO-8859-1ISO-8859-1 is the default character set in most browsers.The first 128 characters of ISO-8859-1 is the original ASCII character-set (the numbers from 0-9, the uppercase and lowercase English alphabet, and some special characters).The higher par 阅读全文

posted @ 2012-07-27 11:24 飞机场场长 阅读(237) 评论(0) 推荐(0)

Python chardet 字符编码判断

摘要: http://pnig0s1992.blog.51cto.com/393390/496208使 用 chardet 可以很方便的实现字符串/文件的编码检测。尤其是中文网页,有的页面使用GBK/GB2312,有的使用UTF8,如果你需要去爬一些页面,知道网页编码 很重要的,虽然HTML页面有charset标签,但是有些时候是不对的。那么chardet就能帮我们大忙了。chardet实例import urllibrawdata = urllib.urlopen('http://www.google.cn/').read()import chardetchardet.detect(r 阅读全文

posted @ 2012-07-27 11:19 飞机场场长 阅读(311) 评论(0) 推荐(0)

MYSQL删除表的记录后如何使ID从1开始

摘要: http://blog.sina.com.cn/s/blog_68431a3b0100y04v.html 方法1:truncate table 你的表名//这样不但将数据全部删除,而且重新定位自增的字段方法2:delete from 你的表名dbcc checkident(你的表名,reseed,0)//重新定位自增的字段,让它从1开始方法3:如果你要保存你的数据,介绍你第三种方法,by QINYI用phpmyadmin导出数据库,你在里面会有发现哦编辑sql文件,将其中的自增下一个id号改好,再导入。-------------------------truncate命令是会把自增的字段还原为 阅读全文

posted @ 2012-07-27 11:17 飞机场场长 阅读(288) 评论(0) 推荐(0)

2012年7月20日 #

线程vs进程,多线程vs多进程(概念)

摘要: http://www.bkill.com/tech/201203/1808.html 线程和进程都是现在电脑概念里比较时髦的用语,什么是多线程,什么是多进程?本文详细的给您介绍一下,希望能增进您对当代电脑技术的了解,有不到之处,还往高手予以更正。进程(英语:Process,中国大陆译作进程,台湾译作行程)是计算机中已运行程序的实体。进程本身不会运行,是线程的容器。程序本身只是指令的集合,进程才是程序(那些指令)的真正运行。若干进程有可能与同一个程序相关系,且每个进程皆可以同步(循序)或不同步(平行)的方式独立运行。进程为现今分时系统的基本运作单位 线程 线程,有时被称为轻量级进程(Li... 阅读全文

posted @ 2012-07-20 10:15 飞机场场长 阅读(1137) 评论(0) 推荐(0)

2012年7月19日 #

中文搜索引擎技术揭密

摘要: 中文搜索引擎技术揭密:中文分词http://club.topsage.com/thread-543541-1-1.html中文搜索引擎技术揭密:排序技术http://club.topsage.com/thread-543545-1-1.html中文搜索引擎技术揭密:网络蜘蛛http://club.topsage.com/thread-543553-1-1.html中文搜索引擎技术揭密:系统架构http://club.topsage.com/thread-543560-1-1.html 阅读全文

posted @ 2012-07-19 17:19 飞机场场长 阅读(184) 评论(0) 推荐(0)

毕业设计中怎样用python写一个搜索引擎的分布式爬虫

摘要: http://hi.baidu.com/zhuangzebo/item/5fa891468ec6badec0a59257用python编写分布式爬虫1、 网络连接需要持续连接(persistent connection),DNS解析的瓶颈(先查本地DNS缓存)实现方法:基于python httplib(对http1.1完成对持续连接的支持(python的httplib完全支持http1.1),如果不是http1.1那么可以使用urlopen对其进行一次连接)并对其socket对象进行控制,关键是加入对读取DNS本地缓存(在我的机制下这个根本就不是主要问题可以暂时忽略),以及有settimeou 阅读全文

posted @ 2012-07-19 17:01 飞机场场长 阅读(1118) 评论(0) 推荐(0)

Python中date与datetime转换

摘要: http://www.codecho.com/convert-date-to-datetime-in-python/?replytocom=76071.date转为datetime类型,使用datetime的combine():>>> from datetime import datetime,date,time >>> d = date(2011,7,14) >>> dt = datetime.combine(d,time()) >>> dt datetime.datetime(2011, 7, 14, 0, 0) 2. 阅读全文

posted @ 2012-07-19 14:11 飞机场场长 阅读(6788) 评论(0) 推荐(2)

cmd 之基础命令

摘要: cmd路径之间切换CD命令是改变目录的命令,也是我们最常使用的命令之一。例如,我们想进入当前XYZ目录下名为ABC的子目录,那么只要执行“CD ABC”即可,如果再想返回XYZ父目录,那么只要执行“CD..”命令,如果想在“C:/>”状态下一下子转到ABC目录,那么只要执行“CD XYZ /ABC”命令即可。如果要从很“深”的目录路径中一下子返回根目录,那么我们没有必要一步一步地执行“CD..”命令,这时只要执行“CD/”命令即可。 提示:如果想改变当前磁盘驱动器盘符,例如想从“C:/WINDOWS/SYSTEM32”命令提示符状态下转到D盘根目录,那么需要执行“D:”命令,同样如果想转 阅读全文

posted @ 2012-07-19 13:57 飞机场场长 阅读(1436) 评论(0) 推荐(0)

2012年7月18日 #

python datetime.timedelta(时间差)

摘要: http://hi.baidu.com/paulau/blog/item/22139b08cd6039930a7b82e4.htmlhttp://www.crifan.com/python_time_not_support_timedelta_while_datetime_support/>>> import time, datetime>>> d = datetime.datetime(*time.localtime()[:6])>>> print d2007-09-04 10:10:00>>> d + 15Traceb 阅读全文

posted @ 2012-07-18 14:51 飞机场场长 阅读(4126) 评论(0) 推荐(0)

上一页 1 ··· 3 4 5 6 7 8 9 10 下一页