2016年7月14日

摘要: 当我们想读取一个文件夹下的多个文件,并且将所有文件的内容整合成一个文件,应该怎么做?基本的思路是:写一个专门的函数实现以上两个功能。主要用到的命令包括os.listdir()、codecs.open(),其中前者可以获取指定路径下所有的文件名,后者可以用指定编码打开或... 阅读全文

posted @ 2016-07-14 19:32 jackley 阅读(387) 评论(0) 推荐(0)

2016年7月13日

摘要: 在一些情况下,我们需要判断字符串是否为合法json格式。思路很简单:尝试对字符串使用json.loads(),如果不是合法json格式,则会抛出ValueError异常。 示例如下:import json def is_json(myjson): try: ... 阅读全文

posted @ 2016-07-13 20:00 jackley 阅读(632) 评论(0) 推荐(0)

2016年7月12日

摘要: 当选择两个字段时,例如:"select XX1, XX2 from tb; ",那么将distinct放在前一个字段XX1之前和放在后一个字段XX2之前,结果有什么不同呢? 先说结论:如果将distinct放在前一个字段之前,则会返回对两个字段的组合去重后的结果;而如果将distinct放在后一个字 阅读全文

posted @ 2016-07-12 19:38 jackley 阅读(680) 评论(0) 推荐(0)

2016年7月11日

摘要: 同一条语句之中,如果同时有group by和distinct语句,是先group by后distinct,还是先distinct后group by呢? 先说结论:先group by后distinct。 以下是在HIVE中的验证: 1)建表:其中xxx替换为本地目录名 2)从tmp_tb文件中导入数据 阅读全文

posted @ 2016-07-11 20:02 jackley 阅读(307) 评论(0) 推荐(0)

2016年6月19日

摘要: mail是linux shell中的邮件工具,与crontab配合使用,可以实现定期发送邮件。本文主要介绍mail工具使用方法及注意事项。 1、mail命令一般用法:mail –s “邮件主题” –c”抄送地址” –b “密送地址” -f 发送人邮件地址 –F 发件人... 阅读全文

posted @ 2016-06-19 18:40 jackley 阅读(380) 评论(0) 推荐(0)

摘要: 使用mail发邮件时,应先将相关邮件服务启动,本文主要介绍sendmail邮件工具的配置方法和问题处理。 1、安装ubuntu中sendmail函数可以很方便的发送邮件,ubuntu sendmail先要安装两个包。sudo apt-get install sendm... 阅读全文

posted @ 2016-06-19 18:36 jackley 阅读(278) 评论(0) 推荐(0)

摘要: crontab不是通常意义下的linux指令,它更是一个配置工具。通过这个工具,我们可以为系统定制固定周期的任务。1、crond和crontab1) crond:cron服务的守护进程,用于定期调度。2) crontab:cron提供的UI,用于编辑调度计划。... 阅读全文

posted @ 2016-06-19 17:57 jackley 阅读(185) 评论(0) 推荐(0)

摘要: 本文仅记述笔者认为最为常用的功能,因为掌握了这些,基本上就能够无阻碍的进行日常编辑工作。这些功能包括: 编辑类:1、插入文本:i2、删除整行:dd,删除单词:dw,删除至行尾:d$3、复制整行:yy,复制所选内容:y,复制至行尾:y$4、选择文本块并复制:v或者Ctr... 阅读全文

posted @ 2016-06-19 17:01 jackley 阅读(105) 评论(0) 推荐(0)

摘要: awk是Linux下优良的文本处理工具,有自成一体的编程语法规则,在循环和条件判断语句等方面和C语言很像。其一般形式是:Pattern1 {ACTIONS; } Pattern2 { ACTIONS; },其中Pattern可以理解为条件(类似if语句),当满足相应条... 阅读全文

posted @ 2016-06-19 16:56 jackley 阅读(135) 评论(0) 推荐(0)

2016年6月8日

摘要: 前面有篇文章给出了爬取动态页面的一种思路,即应用Selenium+Firefox(参考《scrapy动态页面爬取》)。但是selenium需要运行本地浏览器,比较耗时,不太适合大规模网页抓取。事实上,还有一种执行效率更高的方法。就是事先分析js发出的GET或者POST... 阅读全文

posted @ 2016-06-08 16:38 jackley 阅读(101) 评论(0) 推荐(0)