2016 年 3月随笔档案 - tneduts

docker

摘要：docker pull centos docker images docker run -ti centos cat /etc/redhat-release ####################################################################### 阅读全文

posted @ 2016-03-27 15:14 tneduts 阅读(281) 评论(3) 推荐(0)

手动处理datanode磁盘间使用不均的问题

摘要：http://wiki.apache.org/hadoop/FAQ#On_an_individual_data_node.2C_how_do_you_balance_the_blocks_on_the_disk.3F 关于这个问题，Hadoop暂时未提供自动解决的方案，已经提上日程，jira上有记录。 hadoop wiki上提到了手动处理的解决方案。如上链接如示。问题描... 阅读全文

posted @ 2016-03-13 08:56 tneduts 阅读(597) 评论(0) 推荐(0)

摘要：设置yarn.scheduler.fair.user-as-default-queue =fasle, 就会阻止每一个用户使用自己默认的队列。设置yarn.scheduler.fair.allow-underclared-pools =true 就允许用户在执行任务的时候创建指定的不存在的队列。存储在sequencefile中的key value不一定需要是实现writable接口的类，所... 阅读全文

posted @ 2016-03-07 13:51 tneduts 阅读(356) 评论(0) 推荐(0)

Python class and function json

摘要：# coding=utf-8 __author__ = 'student' ''' how to define a class how to extend a class how to make a package how to import package how to define a method ''' str = u"我是中国人" print str class Calculat... 阅读全文

posted @ 2016-03-06 11:29 tneduts 阅读(274) 评论(0) 推荐(0)

scala Basic 第三课

摘要：yield 在学习c#的时候学习过这个关键字，和这时的语义是一致的。当你生成一个新的迭代器，而并不是想立刻使用，而是在其他地方使用的时候，可以延迟生成这个集合，这时候yield关键字可以帮你完成这样的功能。这就你是一个支票，可以让你在需要的时候向jvm取到集合数据。它是延迟实现的集合。 val a=for (i "one" case 2 => "... 阅读全文

posted @ 2016-03-05 20:56 tneduts 阅读(220) 评论(0) 推荐(0)

spark streaming kafka example

摘要：// scalastyle:off println package org.apache.spark.examples.streaming import kafka.serializer.StringDecoder import org.apache.spark.SparkConf import org.apache.spark.streaming._ import org.apache.... 阅读全文

posted @ 2016-03-02 19:05 tneduts 阅读(1075) 评论(0) 推荐(0)

hadoop io PART1

摘要：数据正确性检测的技术，通常使用checksum，在数据进行传输前，计算一个checksum值，传输到目标地之后，再根据新的文件计算checksum值，如果不匹配，则说明数据损坏或被改变。只能校验，不提供修复方法。建议使用ECC内存，提高校验正确率,但这又和hadoop的设计初衷违背？常见的错误侦测码是CRC-32,HADOOP的ChecksumFileSystem 使用这个编码。 cod... 阅读全文

posted @ 2016-03-01 14:51 tneduts 阅读(168) 评论(0) 推荐(0)

我的空中楼阁

03 2016 档案