蓝鲸王子 - 博客园

2017年2月8日

摘要：今天犯了一个致命理解错误，Spark中的RDD Map操作只是一个计算式的传递，并不是Action，也就是在for循环中不会产生真正的计算。因此，如果for循环中出现了RDD的Map类似操作，都会引起异常，例如栈溢出等等，属于相互引用错误。把我的错误代码贴在下面，加深理解。阅读全文

posted @ 2017-02-08 19:56 蓝鲸王子阅读(4102) 评论(1) 推荐(1)

2017年1月5日

Windows下搭建Spark+Hadoop开发环境

摘要： Windows下搭建Spark+Hadoop开发环境需要一些工具支持。只需要确保您的电脑已装好Java环境，那么就可以开始了。一. 准备工作 1. 下载Hadoop2.7.1版本（写Spark和Hadoop主要是用到了Yarn，因此Hadoop必须安装）下载地址：http://apache.f 阅读全文

posted @ 2017-01-05 16:50 蓝鲸王子阅读(3539) 评论(1) 推荐(1)

2017年1月2日

Ubuntu下安装mod_python报错（GIT错误）

摘要： Ubuntu下安装mod_python3.4.1版本报出如下错误：已经证实，这是这个版本的bug。网上有说“git init”可解决，我试了并不行，会产生新的报错。我的解决方法是，找到mod_python的dist文件夹下的version.sh文件，注释或者直接删掉：同时修改最后一行为：重新编阅读全文

posted @ 2017-01-02 19:59 蓝鲸王子阅读(490) 评论(0) 推荐(0)

2016年12月19日

Spark优化之三：Kryo序列化

摘要： Spark默认采用Java的序列化器，这里建议采用Kryo序列化提高性能。实测性能最高甚至提高一倍。 Spark之所以不默认使用Kryo序列化，可能的原因是需要对类进行注册。 Java程序中注册很简单：阅读全文

posted @ 2016-12-19 21:52 蓝鲸王子阅读(3505) 评论(0) 推荐(0)

2016年12月18日

Spark优化之二：集群上运行jar程序，状态一直Accepted且不停止不报错

摘要：如果运行Spark集群时状态一直为Accepted且不停止不报错，比如像下面这样的情况：一般是由于有多个用户同时向集群提交任务或一个用户向集群同时提交了多个任务导致Yarn资源的分配错误。解决这个问题，只需要更改Hadoop的配置文件：/etc/hadoop/conf/capacity-sched 阅读全文

posted @ 2016-12-18 19:36 蓝鲸王子阅读(8553) 评论(0) 推荐(0)

2016年12月17日

配置Spark on YARN集群内存

摘要：参考原文：http://blog.javachen.com/2015/06/09/memory-in-spark-on-yarn.html?utm_source=tuicool 运行文件有几个G大，默认的spark的内存设置就不行了，需要重新设置。还没有看Spark源码，只能先搜搜相关的博客解决问题阅读全文

posted @ 2016-12-17 18:37 蓝鲸王子阅读(2500) 评论(0) 推荐(0)

2016年12月15日

Ubuntu14.04或16.04下Hadoop及Spark的开发配置

摘要：对于Hadoop和Spark的开发，最常用的还是Eclipse以及Intellij IDEA. 其中，Eclipse是免费开源的，基于Eclipse集成更多框架配置的还有MyEclipse。Intellij分为Community版和Ultimate版，前者免费，后者付费。付费版同样是集成了更多的框架阅读全文

posted @ 2016-12-15 14:34 蓝鲸王子阅读(522) 评论(0) 推荐(0)

2016年12月14日

JAligner的一个坑

摘要： JAligner是一个集成多个罚分矩阵的蛋白质序列比对工具包，提供充足的API供开发人员调用。但是，不可否认的是，它的结构写得不够规范。以前我是将它放在普通的Java项目里使用，没有问题。但是，今天，放在Maven目录里却出现问题，起初还以为是我的多线程或者是Hadoop部分出错，debug后却发阅读全文

posted @ 2016-12-14 20:24 蓝鲸王子阅读(336) 评论(0) 推荐(0)

2016年12月11日

Ubuntu14.04或16.04下安装JDK1.8+Scala+Hadoop2.7.3+Spark2.0.2

摘要：为了将Hadoop和Spark的安装简单化，今日写下此帖。首先，要看手头有多少机器，要安装伪分布式的Hadoop+Spark还是完全分布式的，这里分别记录。 1. 伪分布式安装伪分布式的Hadoop是将NameNode，SecondaryNameNode，DataNode等都放在一台机器上执行，阅读全文

posted @ 2016-12-11 11:51 蓝鲸王子阅读(2778) 评论(0) 推荐(0)

2016年12月9日

python清华大学镜像

摘要： pip安装的-i参数： https://pypi.tuna.tsinghua.edu.cn/simple conda 设置： conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/con 阅读全文

posted @ 2016-12-09 10:47 蓝鲸王子阅读(6973) 评论(0) 推荐(0)

2016年11月22日

重置Linux MySQL root密码

摘要：很简单，就一行命令： sudo dpkg-reconfigure mysql-server-5.5 来源：https://ubuntuforums.org/showthread.php?t=2296259 阅读全文

posted @ 2016-11-22 10:42 蓝鲸王子阅读(199) 评论(0) 推荐(0)

2016年11月1日

关于英语PETS5备考的一些事

只有注册用户登录后才能阅读该文。阅读全文

posted @ 2016-11-01 12:33 蓝鲸王子阅读(20604) 评论(0) 推荐(0)

公告