03 2016 档案

docker
摘要:docker pull centos docker images docker run -ti centos cat /etc/redhat-release ####################################################################### 阅读全文

posted @ 2016-03-27 15:14 tneduts 阅读(281) 评论(3) 推荐(0)

手动处理datanode磁盘间使用不均的问题
摘要:http://wiki.apache.org/hadoop/FAQ#On_an_individual_data_node.2C_how_do_you_balance_the_blocks_on_the_disk.3F 关于这个问题,Hadoop暂时未提供自动解决的方案,已经提上日程,jira上有记录。 hadoop wiki上提到了手动处理的解决方案。如上链接如示。 问题描... 阅读全文

posted @ 2016-03-13 08:56 tneduts 阅读(597) 评论(0) 推荐(0)

Hadoop op 1)
摘要:设置yarn.scheduler.fair.user-as-default-queue =fasle, 就会阻止每一个用户使用自己默认的队列。 设置yarn.scheduler.fair.allow-underclared-pools =true 就允许用户在执行任务的时候创建指定的不存在的队列。 存储在sequencefile中的key value不一定需要是实现writable接口的类,所... 阅读全文

posted @ 2016-03-07 13:51 tneduts 阅读(356) 评论(0) 推荐(0)

Python class and function json
摘要:# coding=utf-8 __author__ = 'student' ''' how to define a class how to extend a class how to make a package how to import package how to define a method ''' str = u"我是中国人" print str class Calculat... 阅读全文

posted @ 2016-03-06 11:29 tneduts 阅读(274) 评论(0) 推荐(0)

scala Basic 第三课
摘要:yield 在学习c#的时候学习过这个关键字,和这时的语义是一致的。 当你生成一个新的迭代器,而并不是想立刻使用,而是在其他地方使用的时候,可以延迟生成这个集合, 这时候yield关键字可以帮你完成这样的功能。 这就你是一个支票,可以让你在需要的时候向jvm取到集合数据。它是延迟实现的集合。 val a=for (i "one" case 2 => "... 阅读全文

posted @ 2016-03-05 20:56 tneduts 阅读(220) 评论(0) 推荐(0)

spark streaming kafka example
摘要:// scalastyle:off println package org.apache.spark.examples.streaming import kafka.serializer.StringDecoder import org.apache.spark.SparkConf import org.apache.spark.streaming._ import org.apache.... 阅读全文

posted @ 2016-03-02 19:05 tneduts 阅读(1075) 评论(0) 推荐(0)

hadoop io PART1
摘要:数据正确性检测的技术,通常使用checksum,在数据进行传输前,计算一个checksum值,传输到目标地之后,再根据新的文件计算checksum值,如果不匹配,则说明数据损坏或被改变。只能校验,不提供修复方法。 建议使用ECC内存,提高校验正确率,但这又和hadoop的设计初衷违背? 常见的错误侦测码是CRC-32,HADOOP的ChecksumFileSystem 使用这个编码。 cod... 阅读全文

posted @ 2016-03-01 14:51 tneduts 阅读(168) 评论(0) 推荐(0)

导航