随笔档案「2017年10月」 - 右介

键值对操作上（Spark自学五）

摘要：键值对RDD是Spark中许多操作所需要的常见数据类型。 “分区”是用来让我们控制键值对RDD在各节点上分布情况的高级特性。使用可控的分区方式把常在一起被访问的数据放在同一个节点上，可以大大减少应用的通信开销，带来明显的性能提升。 4.1 动机 Spark为pair RDD提供了并行操作各个键或跨节阅读全文

posted @ 2017-10-24 15:29 右介

Linux（CentOS）修改IP地址

摘要：登陆连接centos系统，输入 ifconfig 可以查看到当前本机的IP地址信息一临时修改IP地址： 1.假如查询IP为1.118，输入 ifconfig eth0 （默认是第一个网卡）后面接IP地址，网络掩码和网关，如果不设置，就使用默认的掩码 2.再次查看IP就已经变成1.118了阅读全文

posted @ 2017-10-23 10:24 右介

Windows下pip安装scipy报错no lapack/blas resources found

摘要：Windows下升级了pandas，但是发现scipy包随后引用出错，后来确认需重新安装scipy，在用pip安装scipy出现no lapack/blas resources found的错误。后来找到一种简便的解决方案，只要在网站 Unofficial Windows Binaries fo 阅读全文

posted @ 2017-10-23 10:07 右介

vim删除文本文件中末行^M

摘要：^M字符的来历和作用：在DOS/Windows里，文本文件的换行符为\r\n，而在*nix系统里则为\n，所以DOS/Windows里编辑过的文本文件到了*nix里，每一行都多了个^M。所以^M只是一个换行符号，没有实际的用处，我们可以将它保留，也可以将它删除。下面我们介绍如何在Linux中删掉^M 阅读全文

posted @ 2017-10-23 09:56 右介

RDD编程下（Spark自学四）

摘要：3.5 常见的转化操作和行动操作 3.5.1 基本RDD 1. 针对各个元素的转化操作两个最常用的转化操作是map()和filter()。转化操作map()接受一个函数，把这个函数用于RDD中的每个元素，将函数的返回结果作为结果RDD中对应元素的值。而转化操作filter()则接收一个函数，并将R 阅读全文

posted @ 2017-10-20 11:47 右介

RDD编程上（Spark自学三）

摘要：弹性分布式数据集（简称RDD）是Spark对数据的核心抽象。RDD其实就是分布式的元素集合。在Spark中，对数据的操作不外乎创建RDD、转化已有RDD以及调用RDD操作进行求值。而在这一切背后，Spark会自动将RDD中的数据分发到集群上，并将操作并行化执行。 3.1 RDD基础 Spark中的R 阅读全文

posted @ 2017-10-18 17:33 右介

外网无法连接Kafka集群（报错：NoBrokersAvailable）

摘要：本地Consumer和Producer无法使用远程Kafka服务器的解决方法：分别修改各台服务器Kafka配置文件server.properties，在#listeners=PLAINTEXT://:9092下添加如下一行： advertised.listeners=PLAINTEXT://x. 阅读全文

posted @ 2017-10-18 16:00 右介

kafka启动报错：kafka.common.KafkaException: Failed to acquire lock on file .lock

摘要：kafka 异常退出后重启时遇到的问题解决：执行 netstat -lnp|grep 9092 在执行结果中找到进程号执行 kill -9 进程号再尝试启动Kafka 阅读全文

posted @ 2017-10-18 15:11 右介

Python测试Kafka集群(kafka-python)

摘要：生产者代码：消费者代码：阅读全文

posted @ 2017-10-18 14:59 右介

Kafka 集群搭建（自用）

摘要：Zookeeper集群搭建 1、软件环境（3台服务器-测试环境） 192.168.56.9 192.168.56.6 192.168.56.7 1、Linux服务器一台、三台、五台、（2*n+1），Zookeeper集群的工作是超过半数才能对外提供服务，3台中超过两台超过半数，允许1台挂掉，是否阅读全文

posted @ 2017-10-18 14:21 右介

Kafka 简单实验二（Python实现简单生产者消费者）

摘要：Apache Kafka 是什么？ Kafka 是一个开源的分布式流处理平台，其简化了不同数据系统的集成。流指的是一个数据管道，应用能够通过流不断地接收数据。Kafka 作为流处理系统主要有两个用处：相比于其它技术，Kafka 拥有更高的吞吐量，内置分区，副本和容错率。这些使得 Kafka 成为大阅读全文

posted @ 2017-10-12 14:23 右介

Kafka 简单实验一（安装Kafka）

摘要：Apache Kafka - 安装步骤步骤1 - Java安装希望您现在已经在您的计算机上安装了Java，因此您只需使用以下命令进行验证。如果您的计算机上成功安装了Java，则可以看到已安装的Java版本。步骤1.1 - 下载JDK 如果未下载Java，请通过以下链接下载最新版本的JDK，并阅读全文

posted @ 2017-10-12 13:58 右介

Spark下载与入门（Spark自学二）

摘要：2.1 下载Spark 略 2.2 Spark中Python和Scala的shell Spark shell可用来与分布式存储在许多机器的内存或者硬盘上的数据进行交互，并且处理过程的分发由Spark自动控制完成。降低shell日志级别：conf目录下创建名为log4j.properties文件，将阅读全文

posted @ 2017-10-11 14:46 右介

Spark导论（Spark自学一）

摘要：1.1 Spark是什么？ Spark是一个用来实现快速而通用的集群计算的平台。 1.2 一个大一统的软件栈 Spark项目包含多个紧密集成的组件。 1.2.1 Spark Core Spark Core实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark 阅读全文

posted @ 2017-10-10 15:11 右介

右介

10 2017 档案

公告