10 2017 档案

摘要:键值对RDD是Spark中许多操作所需要的常见数据类型。 “分区”是用来让我们控制键值对RDD在各节点上分布情况的高级特性。使用可控的分区方式把常在一起被访问的数据放在同一个节点上,可以大大减少应用的通信开销,带来明显的性能提升。 4.1 动机 Spark为pair RDD提供了并行操作各个键或跨节 阅读全文
posted @ 2017-10-24 15:29 右介
摘要:登陆连接centos系统,输入 ifconfig 可以查看到当前本机的IP地址信息 一 临时修改IP地址: 1.假如查询IP为1.118,输入 ifconfig eth0 (默认是第一个网卡) 后面接IP地址, 网络掩码和 网关,如果不设置,就使用默认的掩码 2.再次查看IP就已经变成1.118了 阅读全文
posted @ 2017-10-23 10:24 右介
摘要:Windows下升级了pandas,但是发现scipy包随后引用出错,后来确认需重新安装scipy, 在用pip安装scipy出现no lapack/blas resources found的错误。 后来找到一种简便的解决方案,只要在网站 Unofficial Windows Binaries fo 阅读全文
posted @ 2017-10-23 10:07 右介
摘要:^M字符的来历和作用:在DOS/Windows里,文本文件的换行符为\r\n,而在*nix系统里则为\n,所以DOS/Windows里编辑过的文本文件到了*nix里,每一行都多了个^M。所以^M只是一个换行符号,没有实际的用处,我们可以将它保留,也可以将它删除。下面我们介绍如何在Linux中删掉^M 阅读全文
posted @ 2017-10-23 09:56 右介
摘要:3.5 常见的转化操作和行动操作 3.5.1 基本RDD 1. 针对各个元素的转化操作 两个最常用的转化操作是map()和filter()。转化操作map()接受一个函数,把这个函数用于RDD中的每个元素,将函数的返回结果作为结果RDD中对应元素的值。而转化操作filter()则接收一个函数,并将R 阅读全文
posted @ 2017-10-20 11:47 右介
摘要:弹性分布式数据集(简称RDD)是Spark对数据的核心抽象。RDD其实就是分布式的元素集合。在Spark中,对数据的操作不外乎创建RDD、转化已有RDD以及调用RDD操作进行求值。而在这一切背后,Spark会自动将RDD中的数据分发到集群上,并将操作并行化执行。 3.1 RDD基础 Spark中的R 阅读全文
posted @ 2017-10-18 17:33 右介
摘要:本地Consumer和Producer无法使用远程Kafka服务器的解决方法: 分别修改各台服务器Kafka配置文件server.properties, 在#listeners=PLAINTEXT://:9092下添加如下一行: advertised.listeners=PLAINTEXT://x. 阅读全文
posted @ 2017-10-18 16:00 右介
摘要:kafka 异常退出后重启时遇到的问题解决: 执行 netstat -lnp|grep 9092 在执行结果中找到进程号执行 kill -9 进程号再尝试启动Kafka 阅读全文
posted @ 2017-10-18 15:11 右介
摘要:生产者代码: 消费者代码: 阅读全文
posted @ 2017-10-18 14:59 右介
摘要:Zookeeper集群搭建 1、软件环境 (3台服务器-测试环境) 192.168.56.9 192.168.56.6 192.168.56.7 1、Linux服务器一台、三台、五台、(2*n+1),Zookeeper集群的工作是超过半数才能对外提供服务,3台中超过两台超过半数,允许1台挂掉 ,是否 阅读全文
posted @ 2017-10-18 14:21 右介
摘要:Apache Kafka 是什么? Kafka 是一个开源的分布式流处理平台,其简化了不同数据系统的集成。流指的是一个数据管道,应用能够通过流不断地接收数据。Kafka 作为流处理系统主要有两个用处: 相比于其它技术,Kafka 拥有更高的吞吐量,内置分区,副本和容错率。这些使得 Kafka 成为大 阅读全文
posted @ 2017-10-12 14:23 右介
摘要:Apache Kafka - 安装步骤 步骤1 - Java安装 希望您现在已经在您的计算机上安装了Java,因此您只需使用以下命令进行验证。 如果您的计算机上成功安装了Java,则可以看到已安装的Java版本。 步骤1.1 - 下载JDK 如果未下载Java,请通过以下链接下载最新版本的JDK,并 阅读全文
posted @ 2017-10-12 13:58 右介
摘要:2.1 下载Spark 略 2.2 Spark中Python和Scala的shell Spark shell可用来与分布式存储在许多机器的内存或者硬盘上的数据进行交互,并且处理过程的分发由Spark自动控制完成。 降低shell日志级别:conf目录下创建名为log4j.properties文件,将 阅读全文
posted @ 2017-10-11 14:46 右介
摘要:1.1 Spark是什么? Spark是一个用来实现快速而通用的集群计算的平台。 1.2 一个大一统的软件栈 Spark项目包含多个紧密集成的组件。 1.2.1 Spark Core Spark Core实现了Spark的基本功能, 包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark 阅读全文
posted @ 2017-10-10 15:11 右介