01 2012 档案
lustre快速安装
摘要:最近看了一下lustre,快速安装了一下,记录在这里。首先去这里下载对应的服务器版本的包。系统版本是rhel5.4 x86_64。既然是服务器用的并行文件系统,以稳定为主,我这里使用lustre1.8.7,对应的文档在这里server要可能要用到的包e2fsprogs-1.41.12.2.ora1-0redhat.rhel5.x86_64.rpmkernel-2.6.18-194.17.1.el5_lustre.1.8.7.x86_64-ext4.rpmkernel-2.6.18-194.17.1.el5_lustre.1.8.7.x86_64.rpmlustre-1.8.7-2.6.18_1
阅读全文
sina微博的动态载入
摘要:最近写的爬虫就是为了抓取sina微薄的内容,结果发现11月份以后微薄改版了,改版之后一页并不是一次性现实的,而是分三次显示。第一次访问获取的内容只有1/3,其余的内容分两次,通过新浪自己的STK库中的lazy_load来完成动态加载的。本来以为很难解决,抓了一下包以后发现其实挺简单。body={'__rnd':访问这一页面的时间,以秒表示的13位整数'_k':本次登录第一次访问此微薄的时间,16位整数'_t':0'count':第二次和第二次访问时都是15,第一次访问时是50'end_id':最新的这一项微博的mi
阅读全文
html内嵌javascript中unicode的处理
摘要:接着上一篇爬虫处理,发现内嵌javascript里使用的中文字符是以unicode编码\uxxxx形式出现。fnick=\u5200\u5200\u72d7\u7ae5\u8bdd\u96c6\">\n但python用正则表达式读取的时候是把这些\uxxxx当作ascii码来处理,于是为了转义,在每个字符前又加了反斜杠,成为\\uxxx。a='\\u5200\\u5200\\u72d7\\u7ae5\\u8bdd\\u96c6'所以问题就是怎么把这个字符改成python能正常辨认的字符串str类型。python中相关对象分str和unicode,可以用type命
阅读全文
python中dict类的显式和隐式产生
摘要:python中有两种方法创建dict类显式foo.update(dict(a= 1, b='2'})隐式foo.update({'a': 1, 'b': '2'})最近在写一个爬虫的时候碰到一个问题,dict的key是系统的保留字from于是在stackoverflow上找到了答案。对于这类情况,只能使用隐式方法创建dict类如foo.update({'from':1,'d':2})显式方法只能适用于key为普通字符串的情况,任何包含标点,空格,unicode代码的key都必须用隐式方法产成dict
阅读全文