摘要: 远程mysql导入本地文件 登陆数据库 选择数据库 导入文件 转载自 http://blog.csdn.net/vinson0526/article/details/9063615 阅读全文
posted @ 2017-10-23 17:59 wswang 阅读(2168) 评论(0) 推荐(0) 编辑
摘要: 使用BC库解密出现no such provider错误 错误提示如下: 解决方式 谷歌得到了一个 "解决方式" ,如下: 但是上面这种方式并不在某些情况下不适用,又找到了另外一个方式,在代码里用到的地方前添加如下代码: 阅读全文
posted @ 2017-10-23 17:58 wswang 阅读(10523) 评论(0) 推荐(0) 编辑
摘要: 使用Python实现Map Reduce程序 起因 想处理一些较大的文件,单机运行效率太低,多线程也达不到要求,最终采用了集群的处理方式。 详细的讨论可以在 "v2ex" 上看一下。 步骤 MapReduce程序要分为两部分,即Map和Reduce部分,所以Python代码也是要分为两部分 程序运行 阅读全文
posted @ 2017-10-23 17:57 wswang 阅读(1299) 评论(0) 推荐(0) 编辑
摘要: 使用PyHive操作Hive 废话 搜了一下,看到了StackOverFlow的 "回答" ,试了一下前两个方案,感觉第二个更简洁,这里记录一下,更详细的见参考。 安装依赖 操作 参考 https://github.com/dropbox/PyHive https://stackoverflow.c 阅读全文
posted @ 2017-10-23 17:57 wswang 阅读(18847) 评论(0) 推荐(0) 编辑
摘要: 安装Python2.7出现configure: error: no acceptable C compiler found in $PATH错误 安装步骤: 安装依赖 安装Python2.7 错误 由于没有gcc导致的,安装gcc即可解决: 参考 http://raulkang.blog.51cto 阅读全文
posted @ 2017-10-23 17:56 wswang 阅读(13083) 评论(0) 推荐(0) 编辑
摘要: 新买的主机,安装MySQL遇到了一系列问题,如下: 1 这是由于包名应该是 mysql server 2 这个就奇怪了,为毛正确了还不行呢?想了一下,新主机,应该是源的问题,随手 了一下,然后就好了,啧啧 3 安装MySQL的过程中提示有一个错误: 这让我感到很奇怪,因为已经让我输入MySQL的密码 阅读全文
posted @ 2017-10-23 17:56 wswang 阅读(397) 评论(0) 推荐(0) 编辑
摘要: hive 当前用到的就这些,以后用到的再补充。 参考自 "官方文档" 大小写不敏感 创建/删除数据库 创建表(例子来源于 "官方文档" ) 根据已有表建新表(复制表结构) 注意: stored as 后面默认为textfile,此种类型不可对其进行分片(split your //file into 阅读全文
posted @ 2017-10-23 17:54 wswang 阅读(506) 评论(0) 推荐(0) 编辑
摘要: 参数 crontab是一个处理定时任务的命令,在终端输入man crontab可以得到使用方法提示,主要参数如下: crontab u 指定运行的账户,默认为当前账户 crontab l list当前任务 crontab r remove任务 crontab e 编辑任务 使用流程 crontab 阅读全文
posted @ 2017-10-23 17:54 wswang 阅读(223) 评论(0) 推荐(0) 编辑
摘要: hive sequencefile导入文件遇到FAILED: SemanticException Unable to load data to destination table. Error: The file that you are trying to load does not match 阅读全文
posted @ 2017-10-23 17:53 wswang 阅读(12616) 评论(0) 推荐(0) 编辑
摘要: hive查询遇到java.io.EOFException: Unexpected end of input stream错误 原因基本上有两个: 空文件 不完整的文件 解决办法: 删除对应文件… 参考 看 "这里" 阅读全文
posted @ 2017-10-23 17:52 wswang 阅读(5760) 评论(0) 推荐(1) 编辑
摘要: hive的join查询 语法 实例: left join/right join 左查询就是不管能不能匹配到右边的表,都会输出左面的表,未匹配到的项目为空 | name | age | | | | | wang | 13 | | zhao | 14 | | name | score | | | | | 阅读全文
posted @ 2017-10-23 17:51 wswang 阅读(1137) 评论(0) 推荐(0) 编辑
摘要: hive内部表、外部表、分区 内部表(managed table) 默认创建的是内部表(managed table),存储位置在 设置,默认位置是 。 导入数据的时候是将文件剪切(移动)到指定位置,即原有路径下文件不再存在 删除表的时候,数据和元数据都将被删除 默认创建的就是内部表 外部表(exte 阅读全文
posted @ 2017-10-23 17:51 wswang 阅读(5422) 评论(0) 推荐(0) 编辑
摘要: hive的UDF读取配置文件 实现步骤 在读取配置文件的写为 ,然后在添加UDF的时候把配置文件也加入资源就好了: 不然可能会出现下面错误: 参考 "古韦的专栏" 阅读全文
posted @ 2017-10-23 17:50 wswang 阅读(4057) 评论(3) 推荐(0) 编辑
摘要: hive的row_number()函数 功能 1. 用于分组,比方说依照uuid分组 2. 组内可以依照某个属性排序,比方说依照uuid分组,组内按照imei排序 3. 语法为 ,其中rank为分组的别名,你也可以换个名字比方说换成hahahah 4. 取组内某个数据,可以使用where a.ran 阅读全文
posted @ 2017-10-23 17:50 wswang 阅读(13528) 评论(0) 推荐(0) 编辑
摘要: hive里的group by和distinct 前言 今天才明确知道group by实际上还是有去重读作用的,其实细想一下,按照xx分类,肯定相同的就算是一类了,也就相当于去重来,详细的看一下。 group by 看一下实例1: 按照这个去分类,最后结果只有一个,达到了去重的效果;实际上,所谓去重, 阅读全文
posted @ 2017-10-23 17:49 wswang 阅读(20410) 评论(0) 推荐(0) 编辑
摘要: hive外部表删除遇到的一个坑 操作步骤 1. 创建某个表( ) 2. 插入数据( ) 3. 删除表( ) 4. 重新创建 5. 插入数据 6. 查询数据 现象 查询数据发现部分第一次插入的数据 查询数据量发现大于第二次插入的数量 原因 与其说是坑,不如说是自己忽略了一点: 插入的是外部表,当dro 阅读全文
posted @ 2017-10-23 17:48 wswang 阅读(9672) 评论(0) 推荐(0) 编辑
摘要: hive添加UDF 步骤如下: 函数分为永久和临时函数,后者会话退出则消失,前者不会 查看已有函数( 创建好后也可以通过这个来查看是否成功 ) 写UDF的java文件,如: 将写好的java文件打包成jar: 进入hive,添加jar文件 添加临时函数( 会话结束函数消失 ) 进入hive,添加ja 阅读全文
posted @ 2017-10-23 17:48 wswang 阅读(1738) 评论(0) 推荐(1) 编辑
摘要: hive一行变多行及多行变一行 场景 | name | alias | | | | | zhaoqiansun | abc def ghi | 处理数据时需要将上表处理成为下面的形式: | name | alias | | | | | zhaoqiansun | abc | | zhaoqiansu 阅读全文
posted @ 2017-10-23 17:47 wswang 阅读(16849) 评论(0) 推荐(0) 编辑
摘要: hive遇到FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask错误 起因 使用hive做join查询,a表十几万数据,b表1kw多点数据,结果跑起来就是跑一半返回错误,提示如 阅读全文
posted @ 2017-10-23 17:46 wswang 阅读(53519) 评论(2) 推荐(1) 编辑
摘要: Mac使用pyenv安装Python出现The Python zlib extension was not compiled. Missing the zlib错误 参考这里,详细如下: On Mac OS X 10.9, 10.10 and 10.11 you may need to set th 阅读全文
posted @ 2017-10-23 17:45 wswang 阅读(2192) 评论(0) 推荐(0) 编辑