上一页 1 ··· 58 59 60 61 62 63 64 65 66 ··· 70 下一页
摘要: 1. 专业知识类 2.科技类 3. 财经类 4. 职场类 5. 思维及生活习惯类 阅读全文
posted @ 2013-05-23 15:32 myLittleGarden 阅读(168) 评论(0) 推荐(0)
摘要: 1. larbin简介(百度百科) larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人Sébastien Ailleret独立开发,用c++语言实现。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。 Larbin只是一个爬虫,也就是说larbin只抓取网页,至于如何parse的事情则由用户自己完成。另外,如何存储到数据库以及建立索引的事情 larbin也不提供。 latbin最初的设计也是依据设计简单但是高度可配置性的原则,因此我们可以看到,一个简单的larbin的爬虫可以每天获取500万的网页,实在是非常高效。 利用larbin,我们 阅读全文
posted @ 2013-05-23 14:21 myLittleGarden 阅读(217) 评论(0) 推荐(0)
摘要: Python中,文件操作主要来自os模块,主要方法如下:os.listdir(dirname):列出dirname下的目录和文件os.getcwd():获得当前工作目录os.curdir:返回当前目录('.')os.chdir(dirname):改变工作目录到dirnameos.path.isdir(name):判断name是不是一个目录,name不是目录就返回falseos.path.isfile(name):判断name是不是一个文件,不存在name也返回falseos.path.exists(name):判断是否存在文件或目录nameos.path.getsize(nam 阅读全文
posted @ 2013-05-23 11:31 myLittleGarden 阅读(731) 评论(0) 推荐(0)
摘要: 文/余晟环视结构(look-around)分析日志(或普通数据文件),恐怕是大家在日常工作中经常遇到的问题,正则表达式应当是理所当然的选择,简单的正则表达式应用,大家应该都会,即使暂时不熟悉,查查资料也能解决。但是,有时候情况复杂,看起来正则表达式往往“束手无策”,其实事实并非如此。在这篇文章中,我们通过一个具体的例子,来讲解正则表达式的高级技巧。事情源于朋友的一封来信:“最近我遇到个小问题:公司让我处理日志文件,说实话我还真是巧,本来没有打算学正则,要是没有正则可能我这次还不知道怎么处理。简单说一下,主要任务是逐行读取数据,对每行内容进行分析,第一行是字段名,其余是日志内容,行与行之间没有联 阅读全文
posted @ 2013-05-12 22:02 myLittleGarden 阅读(699) 评论(0) 推荐(0)
摘要: 转自:http://blog.csdn.net/lpy123456/article/details/6398500以前自己也总结收藏过一起别人的技术博客,不过搜集的不多,这次就拿来用了。===================================引用的分割线====================================limodou 的 BlogUliweb、Ulipad 作者,python-cn 邮件列表大妈,Python 中文社区骨灰级人物!Smallfish 鱼哥国内资深玩蛇人士,熟练民工BT 的花qyb 兄弟俩的 blog铁骑世界Google 信徒,nexus on 阅读全文
posted @ 2013-05-10 10:19 myLittleGarden 阅读(378) 评论(0) 推荐(0)
上一页 1 ··· 58 59 60 61 62 63 64 65 66 ··· 70 下一页