上一页 1 ··· 3 4 5 6 7 8 9 10 11 12 下一页

2019年1月6日

Apache Flink 分布式运行时环境

摘要: Tasks and Operator Chains(任务及操作链) 在分布式环境下,Flink将操作的子任务链在一起组成一个任务,每一个任务在一个线程中执行。将操作链在一起是一个不错的优化:它减少了线程间的切换和缓冲,提升了吞吐量同时减低了时延。这些链式行为是可配置的,详情请见: " chainin 阅读全文

posted @ 2019-01-06 10:20 chaplinthink 阅读(1059) 评论(0) 推荐(0)

2019年1月5日

Apache Flink 数据流编程模型

摘要: 抽象等级(Levels of Abstraction) Flink提供不同级别的抽象来开发流/批处理应用程序。 Statefule Stream Processing: 是最低级别(底层)的抽象,只提供有状态的流。它通过ProcessFunction嵌入到DataStream API之中。它使得用户 阅读全文

posted @ 2019-01-05 12:06 chaplinthink 阅读(568) 评论(0) 推荐(0)

2017年11月19日

关于技术学习

摘要: 最近自己就在思考关于技术的学习,比如一项新的技术我们需要学习,我们做的动作通常是以下的步骤: 1.看官方文档或者查阅相关的文本资料或者博客 2.搭建安装相应的编译环境 3.照着资料的例子在编译工具上实验 4.自己觉得学差不多了,然后等着如果项目需要的话去应用,其实大多数情况下,我们只是为了学习下这项 阅读全文

posted @ 2017-11-19 18:43 chaplinthink 阅读(173) 评论(0) 推荐(0)

2017年6月8日

Scala学习笔记(二)

摘要: Scala面向对象: 类: 声明类(一个源文件中可以包含很多public的类) getter和setter 构造函数(主构造器和附属构造器) 继承(extends) 重写父类方法(override def) 重写字段(override val,override var) 1.声明类 /** * * 阅读全文

posted @ 2017-06-08 22:04 chaplinthink 阅读(192) 评论(0) 推荐(0)

2017年6月1日

Scala学习笔记(一)

摘要: scala 版HelloWorrld object HelloWorld{ def main(args:Array[String]){ println("Hello World!!!"); } } 1.使用scalac HelloWorld.scala 编译下: 2.运行scala程序:scala 阅读全文

posted @ 2017-06-01 21:30 chaplinthink 阅读(169) 评论(0) 推荐(0)

2017年3月24日

kill 掉所有正在运行的hadoop jobs

摘要: get list of job's process IDs JOB_LIST=$(hadoop job -list 2> /dev/null | grep job_ | awk '{print $1}') kill all jobs for JOB in $JOB_LIST do hadoop jo 阅读全文

posted @ 2017-03-24 09:49 chaplinthink 阅读(238) 评论(0) 推荐(0)

2017年3月4日

Spark2.1.0官方文档

摘要: Spark 概述 Apache Spark是一个快速和通用的集群计算系统。它提供Java,scala,Python、R语言的APIs,以及支持一般执行图形的优化引擎。 它还支持一组丰富的高级工具,包括用于SQL和结构化数据处理的Spark SQL,用于机器学习的MLlib,用于图形处理的GraphX 阅读全文

posted @ 2017-03-04 15:14 chaplinthink 阅读(227) 评论(0) 推荐(0)

2017年2月7日

MapReduce并行编程模型和框架

摘要: 传统的串行处理方式 有四组文本数据: “the weather is good”, “today is good”, “good weather is good”, “today has good weather” 对这些文本数据进行词频统计: import java.util.Hashtable; 阅读全文

posted @ 2017-02-07 10:09 chaplinthink 阅读(493) 评论(0) 推荐(0)

2017年1月20日

分布式协调服务-Zookeeper

摘要: 什么是 zookeeper? Zookeeper 是google的chubby一个开源实现,是hadoop的分布式协调服务 它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等。 在Hbase中会用到。 Zk(zookeeper简称)可以用来保证数据在zk集群之间的数据 阅读全文

posted @ 2017-01-20 09:47 chaplinthink 阅读(165) 评论(0) 推荐(0)

2017年1月15日

Hadoop2.x 体系结构和源码编译

摘要: 体系结构 Hadoop1的核心组成包括HDFS和MapReduce。HDFS和MapReduce的共同点就是他们都是分布式的。 HDFS是包括主节点NameNode,只有一个,还有很多从节点DataNode,还有很多个。 NameNode含有我们用户存储的元数据的信息,把这些数据存储在硬盘上,但是在 阅读全文

posted @ 2017-01-15 11:07 chaplinthink 阅读(3466) 评论(0) 推荐(0)

上一页 1 ··· 3 4 5 6 7 8 9 10 11 12 下一页

导航