随笔分类 -  python

1 2 下一页

python urljoin问题
摘要:如何去除url拼接的时候存在的遗留的'../'问题,可以参考如下的强制去除方法: def fix_URL(urlstring): parts = list(urlparse.urlparse(urlstring)) parts[2] = os.path.normpath(parts[2].repla 阅读全文

posted @ 2016-03-11 16:07 chybot 阅读(614) 评论(0) 推荐(0)

python 写文件刷新缓存
摘要:搞爬虫的时候,结果是通过file.write(strs)写入文件的。 带来的问题是,进程如果是被杀死的时候,最后一条结果总是缺损的,因为缓存的部分还未写入文件。 解决办法是每次写入文件时,都刷新缓存,直接将缓存数据全部写入文件: fi = open('file', 'wb') fi.write('s 阅读全文

posted @ 2016-02-01 19:31 chybot 阅读(10307) 评论(0) 推荐(0)

python Popen卡死问题
摘要:程序经常卡死,定位了半天才定位到原因,原来是Popen导致的卡死; 程序如下: s = subprocess.Popen([*,*,*], stdout=subprocess.PIPE) ret = s.stdout.read() return ret 官方文档的解释是: This will dea 阅读全文

posted @ 2016-02-01 19:26 chybot 阅读(7678) 评论(0) 推荐(1)

scrapy中的canonicalize_url【转】
摘要:转自:http://www.leyle.com/archives/canonicalize_url.html思考一下:对url进行规范化处理是否是必须的?因为这一步处理涉及到编码转换,对于一个网页的新链发现来说是比较耗时的。为什么需要格式化 url?比如下面几个url:http://www.exam... 阅读全文

posted @ 2016-01-24 22:29 chybot 阅读(609) 评论(0) 推荐(0)

phantomjs学习资料
摘要:http://blog.csdn.net/mecho/article/details/45888465phantomjs的使用说明,尤其是webpage创建,资源加载前后的处理方法。 阅读全文

posted @ 2015-12-22 19:30 chybot 阅读(148) 评论(0) 推荐(0)

lxml.etree去除子节点
摘要:去除etree中的某个子节点有两种方法:1、parentnode.remove(node)2、etree.strip_elements(html, 'element_name', with_tag=True/False)但是在实际使用的时候如果要删除的node.tail不为空,则会把node.tai... 阅读全文

posted @ 2015-12-14 19:33 chybot 阅读(2574) 评论(0) 推荐(0)

[转]Python的getattr(),setattr(),delattr(),hasattr()
摘要:getattr()函数是Python自省的核心函数,具体使用大体如下:获取对象引用getattrGetattr用于返回一个对象属性,或者方法classA: def__init__(self): self.name ='zhangjing' #self.age='24'defmethod(self... 阅读全文

posted @ 2015-11-17 18:59 chybot 阅读(191) 评论(0) 推荐(0)

网页正文抽取
摘要:转自丕子:http://www.zhizhihu.com/html/y2013/4202.html总结我用过的网页正文抽取工具: decrufthttp://t.cn/S7bVECpython-readabilityhttp://t.cn/zYeoZ8bboilerpipehttp://t.cn/h... 阅读全文

posted @ 2015-10-20 11:48 chybot 阅读(645) 评论(0) 推荐(0)

python 去除不可见的控制字符
摘要:尤其是在json load的时候,字符串中的不可见控制字符可能会导致错误,应该先对字符串进行控制字符过滤。对网页文本同样适用,最好在处理网页文本时先进性控制字符清洗。Replace null bytes in html text with space char to walk around lxml... 阅读全文

posted @ 2015-10-19 20:13 chybot 阅读(7915) 评论(0) 推荐(1)

正则表达式备忘
摘要:匹配中文字符的正则表达式:[\u4e00-\u9fa5]评注:匹配中文还真是个头疼的事,有了这个表达式就好办了匹配双字节字符(包括汉字在内):[^\x00-\xff]评注:可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1)匹配空白行的正则表达式:\n\s*\r评注:可以用来删除空... 阅读全文

posted @ 2015-10-19 19:56 chybot 阅读(190) 评论(0) 推荐(0)

url拼接
摘要:在做网页抓取的时候经常会遇到一个问题就是页面中的链接是相对链接,这个时候就需要对链接进行url拼接,才能得到绝对链接。 url严格按照一定的格式构成,一般为如下5个字段: 详细可参考RFC:http://tools.ietf.org/html/rfc3986 url拼接一般包含如下几种情况: 1.相 阅读全文

posted @ 2015-10-08 20:25 chybot 阅读(2013) 评论(0) 推荐(0)

python 类和对象的属性
摘要:python类和对象的属性分为类属性和对象属性两大类,类属性属于类,而对象属性属于对象。1. 父类的对象属性会被子类的对象继承。2. 父类的类属性会被子类继承,还是作为类属性,如果父类改变了类属性,父类和子类的类属性都会被改变。3. 子类继承父类的类属性可以通过类名+属性名使用,但是一旦发生赋值,就... 阅读全文

posted @ 2015-08-29 17:24 chybot 阅读(662) 评论(0) 推荐(0)

python find命令、startwith命令
摘要:python的字符串有很多好用的操作,比如find,startswith命令。这几个命令在处理配置文件的时候很有用,比如用startswith判断是否是注释行。注意:几个函数的返回值是不同滴。函数原型:find(str,pos_start,pos_end),返回-1或第一个查找到的位置。 ... 阅读全文

posted @ 2015-08-02 20:50 chybot 阅读(570) 评论(0) 推荐(0)

机器学习实战
摘要:接下来的两周,没两天阅读或实现一些机器学习代码,让自己成长,立贴为证,加油! 阅读全文

posted @ 2015-07-26 20:59 chybot 阅读(127) 评论(0) 推荐(0)

python中的上下文管理器
摘要:刚刚看了vamei大神的上下文管理器博客,理解如下:其实我自己经常用到上下文管理器,尤其是在打开文件的时候,如果自己比较懒,不想手工打上f.close(),使用上下文管理器就ok拉。上下文管理器就是with ** as:例如打开文件时,>>> with open('test.txt', 'r') a... 阅读全文

posted @ 2015-07-26 11:25 chybot 阅读(237) 评论(0) 推荐(0)

python中的参数传递
摘要:一般的参数顺序是先位置,再关键字,然后是包裹位置传递,包裹关键字传递。 阅读全文

posted @ 2015-07-25 23:14 chybot 阅读(209) 评论(0) 推荐(0)

python 使用getopt 获取配置参数
摘要:在工程中特别是稍微大一点的项目基本上都会用到配置,就会涉及到配置文件的读取,配置参数的读取。常用的解析配置文件的是configParser,解析命令行参数的则为getopt。getopt的参数可以分为两种:长模式和短模式。长模式在命令行中为:--arg1 arg_value。短模式则是长模式之外的常... 阅读全文

posted @ 2015-07-21 23:42 chybot 阅读(1052) 评论(0) 推荐(0)

python 匹配中文和英文
摘要:在处理文本时经常会匹配中文名或者英文word,python中可以在utf-8编码下方便的进行处理。中文unicode编码范围[\u4e00-\u9fa5]英文字符编码范围[a-zA-Z]此时匹配连续的中文或者英文就很方便了,例如:>>> import re>>> strings = u'中国chin... 阅读全文

posted @ 2015-07-21 19:17 chybot 阅读(3864) 评论(0) 推荐(0)

python 对字典排序
摘要:工作中经常需要对python的字典进行排序,下面就简单介绍一下如何对字典排序:使用sorted命令,默认进行从大到小字母序排序:>>> from operator import itemgetter>>> a = {}>>> a['1'] = 1>>> a['2'] = 2>>> a['3'] = ... 阅读全文

posted @ 2015-07-12 16:48 chybot 阅读(322) 评论(0) 推荐(0)

python print和strip
摘要:在使用这两个模块时犯过错误,总结如下:1.printprint在打印时会自动加上换行,例如:>>> for i in xrange(1,5):... print i... 1234如果想屏蔽换行,则在参数后加上逗号,,打印时会用空格分隔,例如:>>> for i in xrange(1,5)... 阅读全文

posted @ 2015-07-05 22:55 chybot 阅读(395) 评论(0) 推荐(0)

1 2 下一页