08 2012 档案

摘要:转载:http://www.dwway.com/article-8715-1.html数据质量管理 由于数据清洗(DataCleaning)工具通常简单地被称为数据质量(Data Quality)工具,因此很多人认为数据质量管理,就是修改数据中的错误、是对错误数据和垃圾数据进行清理。这个理解是片面的,其实数据清洗只是数据质量管理中的一步。数据质量管理(DQM),不仅包含了对数据质量的改善,同时还包含了对组织的改善。针对数据的改善和管理,主要包括数据分析、数据评估、数据清洗、数据监控、错误预警等内容;针对组织的改善和管理,主要包括确立组织数据质量改进目标、评估组织流程、制定组织流程改善计划、制. 阅读全文
posted @ 2012-08-29 21:51 subsir 阅读(3063) 评论(0) 推荐(0)
摘要:正则表达式语法正则表达式是一种文本模式,包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为“元字符”)。模式描述在搜索文本时要匹配的一个或多个字符串。正则表达式示例/** * 验证 正则表达式 * * @author zhujie regex 正则表达式 value 所属字符串 * @return boolean */ public static boolean regex(String regex, String value) { // 方法1: Pattern p = Pattern.compile(regex); Matcher m = p.mat... 阅读全文
posted @ 2012-08-24 16:31 subsir 阅读(226) 评论(0) 推荐(0)
摘要:Hive 的官方文档中对查询语言有了很详细的描述,请参考:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL ,本文的内容大部分翻译自该页面,期间加入了一些在使用过程中需要注意到的事项。详细查看:http://wiki.apache.org/hadoop/Hive/LanguageManualCreate TableCREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], .... 阅读全文
posted @ 2012-08-23 12:58 subsir 阅读(419) 评论(0) 推荐(0)
摘要:因工作需要,因为要判断rsync是否成功,一开始我是判断本地文件有没有到,这样做相当安全,现在要把数据PUSH过去,我就没法判断了,只能用rsync的返回状态吗,一开始直接把`rsync ....`赋给了一个值,SHELL里不是这样地rsync xxx yyyret=$?if [ $ret -ne 0 ]; then echo "失败, 错误码: $ret"fi rsync常用的错误代码:0 Success1 Syntax or usage error2 Protocol incompatibility3 Errors selecting inpu... 阅读全文
posted @ 2012-08-14 09:00 subsir 阅读(1210) 评论(0) 推荐(0)
摘要:mail -s "hello"comeol@163.com<~/mailworld.txt普通模式下带附件发送cat hello.gif |uuencode hello.gif | mail -s "hello"comeol@163.com伪装gmail的邮箱发邮件echo hello|sendmail -vfcomeol@gmail.com-oi tocomeol@163.com用telnet SMTP发送邮件(伪装163发给Gmail)ll00$ telnet 127.0.0.1 25Trying 127.0.0.1...Connected t 阅读全文
posted @ 2012-08-13 18:30 subsir 阅读(1684) 评论(0) 推荐(0)
摘要:转载:http://www.cnblogs.com/bugY/archive/2012/06/05/2537030.html##基本用法(配合sed/awk/grep)$curl http: //bpsky.net##下载保存$curl http://bpsky.net > index.html$c... 阅读全文
posted @ 2012-08-10 18:31 subsir 阅读(12055) 评论(0) 推荐(1)
摘要:下载地址:https://github.com/dominictarr/JSON.shtest_json.sh 测试代码source ${local}/conf/json.sh ## json function tokenize | parse## shell read http-filecurl http://192.168.1.100/json.txt | tokenize | parse | while read line do echo $line | awk '{print $2}' | sed -e 's/"//g'donejson.sh 阅读全文
posted @ 2012-08-10 16:08 subsir 阅读(4616) 评论(0) 推荐(0)
摘要:首先认识什么是分区Hive 中的分区就是分目录,把一个大的数据集根据业务需要分割成更下的数据集。1. 如何定义分区,创建分区hive>create table test(name string,sex int) partitioned by (birth string, age string);Time taken: 0.044 secondshive>alter tabletest add partition (birth='1980',age='30');Time taken: 0.079 secondshive> alter tablet 阅读全文
posted @ 2012-08-10 12:02 subsir 阅读(6246) 评论(0) 推荐(0)
摘要:转载官方:http://hadoop.apache.org/common/docs/r0.19.2/cn/index.html文档概述快速入门集群搭建HDFS构架设计HDFS使用指南HDFS权限指南HDFS配额管理指南命令手册FS Shell使用指南DistCp使用指南Map-Reduce教程Hadoop本地库StreamingHadoop ArchivesHadoop On DemandAPI参考API Changes维基常见问题邮件列表发行说明变更日志 阅读全文
posted @ 2012-08-08 00:08 subsir 阅读(207) 评论(0) 推荐(0)
摘要:机器环境系统版本:CentOS 5.5硬件型号:HP ProLiant DL380 G6hpacucli HP Raid信息查看1.下载安装wgetftp://ftp.hp.com/pub/softlib2/software1/pubsw-linux/p414707558/v63381/hpacucli-8.70-8.0.noarch.rpmrpm -ivh hpacucli-8.70-8.0.noarch.rpm2.使用帮助进入阵列配置界面hpacucli查看阵列卡与硬盘状态信息root@Server01:~# hpacucli HP Array Configuration Utilit.. 阅读全文
posted @ 2012-08-03 18:56 subsir 阅读(2109) 评论(0) 推荐(0)