会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
大师兄的博客
过早退出是一切失败的根源
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
10
11
12
13
14
15
16
17
18
下一页
2018年5月29日
hadoop开发环境部署——通过eclipse远程连接hadoop2.7.3进行开发
摘要: 一、前言 环境: 系统:centos6.5 hadoop版本:Apache hadoop2.7.3(Windows和centos都是同一个) eclipse版本:4.2.0(juno版本,windows) ant版本:ant 1.7.1(windows) java版本:1.8.0_05(window
阅读全文
posted @ 2018-05-29 23:46 大师兄啊哈
阅读(8429)
评论(1)
推荐(1)
2018年5月27日
linux系统/proc/stat信息与top的cup信息的联系及区别
摘要: 一、 /proc 目录 Linux系统上的/proc目录是一种文件系统,即proc文件系统,与其它常见的文件系统不同的是,/proc文件系统是一个伪文件系统,它只存在内存当中,而不占用外存空间。它以文件系统的方式为内核与进程提供通信的接口。用户和应用程序可以通过/proc得到系统的信息,并可以改变内
阅读全文
posted @ 2018-05-27 00:33 大师兄啊哈
阅读(6999)
评论(0)
推荐(1)
2018年5月26日
hive单节点数据倾斜解决方法
摘要: 一、现象 map/reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的reduce节点所处理的数据量比其他节点就大很多,从而导致某几个节
阅读全文
posted @ 2018-05-26 15:10 大师兄啊哈
阅读(525)
评论(0)
推荐(0)
2018年5月20日
豆瓣书籍数据爬取与分析
摘要: 前言 17年底,买了清华大学出版社出版的《Hadoop权威指南》(第四版)学习,没想到这本书质量之差,超越我的想象,然后上网一看,也是骂声一片。从那个时候其就对出版社综合实力很感兴趣,想通过具体数据分析各个出版社的出版质量,另外借此也可以熟悉大数据生态和相关操作。 豆瓣上的书籍数据刚好可以满足需求,
阅读全文
posted @ 2018-05-20 16:09 大师兄啊哈
阅读(8326)
评论(0)
推荐(1)
2018年5月18日
使用sqoop从mysql导入数据到hive
摘要: 前言这篇文章主要是用sqoop从mysql导入数据到hive时遇到的坑的总结。环境:系统:Centos 6.5Hadoop:Apache,2.7.3Mysql:5.1.73JDK:1.8Sqoop:1.4.7Hadoop以伪分布式模式运行。一、使用的导入命令我主要是参考一篇文章去测试的,Sqoop: Import Data From MySQL to Hive。参照里面的方法,在mysql建了表,...
阅读全文
posted @ 2018-05-18 17:19 大师兄啊哈
阅读(15380)
评论(0)
推荐(0)
centos6.5系统hadoop2.7安装sqoop
摘要: 一、sqoop简介 Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数
阅读全文
posted @ 2018-05-18 16:40 大师兄啊哈
阅读(1841)
评论(0)
推荐(0)
2018年5月17日
用python控制路由器
摘要: 前言 最近用爬虫爬豆瓣上的资料,无奈总是被封,agent伪装和cookie修改这些都用过了,可惜都起不了什么作用,到了一定次数,还是会返回403。想用代理ip,无奈免费的太不稳定,买收费的又有点没必要。今天在查资料的时候,读到一篇谈ADSL拨号代理的文章,刚好我又是用这种方式上网,于是想到了一个对付
阅读全文
posted @ 2018-05-17 00:26 大师兄啊哈
阅读(10805)
评论(0)
推荐(1)
2018年5月11日
centos6.5安装/升级到python2.7
摘要: 前言 最近想爬点东西,2.7比较稳定,但是因为在linux机器上用yum安装的默认是2.6.6版本的,所以需要升级到2.7。 一、安装过程 1. 先安装相应的依赖 如果没安装好这些依赖的,后面还要重新走编译流程,别问我为什么知道 。 2. 下载软件包 3. 解压安装包 4. 安装 在检测脚本中加上e
阅读全文
posted @ 2018-05-11 14:07 大师兄啊哈
阅读(11634)
评论(7)
推荐(2)
2018年5月4日
关于《Spark快速大数据分析》运行例子遇到的报错及解决
摘要: 一、描述 在书中第二章,有一个例子,构建完之后,运行: 如果用的spark版本与书中用到的不一样的话,就会出现各种问题,譬如书中用的是1.2.0而我用的是最新的2.3.0。 二、问题及解决 1. 第一次编译的时候,出现类似下面的报错: 首先是解决版本依赖的问题: (1)获得spark-core的版本
阅读全文
posted @ 2018-05-04 17:37 大师兄啊哈
阅读(1079)
评论(0)
推荐(1)
2018年5月3日
解决git无法clone地址为https的库
摘要: 原文链接:https://www.cnblogs.com/harrymore/p/8985058.html 一、问题描述 早上在学习《Spark快速大数据分析》的时候,需要下载书本的实例代码,于是用git clone一下给出的库: https://github.com/databricks/lear
阅读全文
posted @ 2018-05-03 14:07 大师兄啊哈
阅读(51479)
评论(0)
推荐(0)
上一页
1
···
10
11
12
13
14
15
16
17
18
下一页
公告