BigData-Hadoop - 随笔分类 - cctext

Spark2.2出现异常：ERROR SparkUI: Failed to bind SparkUI

摘要：详细错误信息如下：错误原因：每一个Spark任务都会占用一个SparkUI端口，默认为4040，如果被占用则依次递增端口重试。但是有个默认重试次数，为16次。16次重试都失败后，会放弃该任务的运行。解决方法初始化SparkConf时，添加conf.set(“spark.port.maxRet 阅读全文

posted @ 2019-03-19 14:16 cctext 阅读(2672) 评论(0) 推荐(0) 编辑

Spark：实现行转列

摘要：示例JAVA代码： MyEntity.java import java.io.Serializable; public class MyEntity implements Serializable{ private String id; private String name; private St 阅读全文

posted @ 2018-12-05 17:33 cctext 阅读(4618) 评论(0) 推荐(0) 编辑

CDH：cdh5环境搭建

摘要：安装环境三台centos7 vmw: 1）[各节点]使用本地yum repo进行安装时: 需要在各个节点(192.168.0.141,192.168.0.142,192.168.0.143)上设置本地repo(/etc/yum.repos.d/) 2）[主节点]需要安装httpd,并在/var/ww 阅读全文

posted @ 2018-11-15 10:36 cctext 阅读(2973) 评论(0) 推荐(0) 编辑

CDH：cdh5环境mkdir: Permission denied: user=root, access=WRITE, inode="/user":hdfs:hadoop:drwxr-xr-x

摘要：产生问题原因：环境hadoop2，cdh5创建使用hadoop fs -mdkir /use/xxx创建文件路径时，出现权限问题前提我们已经把当前用户zhangsan和root放到/etc/suders中。创建目录/user/zhangsan抛出异常：解决步骤： 1.查看/user目录的用阅读全文

posted @ 2018-11-13 17:03 cctext 阅读(3475) 评论(0) 推荐(0) 编辑

Spark：几种给Dataset增加列的方式、Dataset删除列、Dataset替换null列

摘要：几种给Dataset增加列的方式首先创建一个DF对象：第一种方式：使用lit()增加常量（固定值）可以是字符串类型，整型注意： lit()是spark自带的函数，需要import org.apache.spark.sql.functions Since 1.3.0def lit(litera 阅读全文

posted @ 2018-10-29 18:54 cctext 阅读(18370) 评论(0) 推荐(0) 编辑

Spark：java api读取hdfs目录下多个文件

摘要：需求：由于一个大文件，在spark中加载性能比较差。于是把一个大文件拆分为多个小文件后上传到hdfs，然而在spark2.2下如何加载某个目录下多个文件呢? 测试结果：阅读全文

posted @ 2018-10-19 15:57 cctext 阅读(11559) 评论(0) 推荐(0) 编辑

Spark Structured Streaming：将数据落地按照数据字段进行分区方案

摘要：方案一（使用ForeachWriter Sink方式）：方案二(ds.writeStream().partitionBy("field"))： java代码：更多方式，请参考《在Spark结构化流readStream、writeStream 输入输出，及过程ETL》阅读全文

posted @ 2018-10-12 10:53 cctext 阅读(1830) 评论(0) 推荐(0) 编辑

Spark中使用Dataset的groupBy/agg/join/broadcast hasjoin/sql broadcast hashjoin示例(java api)

摘要：Dataset的groupBy agg示例 Dataset Join示例： join condition另外一种方式: BroadcastHashJoin示例：打印结果： SparkSQL Broadcast HashJoin 打印日志阅读全文

posted @ 2018-10-12 10:04 cctext 阅读(3978) 评论(0) 推荐(1) 编辑

Structured Streaming编程向导

摘要：简介 Structured Streaming is a scalable and fault-tolerant stream processing engine built on the Spark SQL engine. You can express your streaming comput 阅读全文

posted @ 2018-08-12 16:37 cctext 阅读(1482) 评论(0) 推荐(0) 编辑

Spark参数设置的方式

摘要：可以通过以下几种方式设置： 1）bin/spark-submit 可以直接读取conf/spark-defaults.conf文件每一行为一个key和valuespark.master spark://5.6.7.8:7077spark.executor.memory 4gspark.eventL 阅读全文

posted @ 2018-07-31 09:35 cctext 阅读(6507) 评论(0) 推荐(0) 编辑

Spark：java api实现word count统计

摘要：方案一：使用reduceByKey 数据word.txt 代码：输出：方案二：使用spark sql 使用spark sql实现代码：结果：方案二：使用spark streaming实时流分析参考《http://spark.apache.org/docs/latest/streaming- 阅读全文

posted @ 2018-07-26 10:46 cctext 阅读(1180) 评论(0) 推荐(0) 编辑

Spark：JavaRDD 转化为 Dataset<Row>的两种方案

摘要：JavaRDD 转化为 Dataset<Row>方案一：实体类作为schema定义规范，使用反射，实现JavaRDD转化为Dataset<Row> Student.java实体类：实现代码： JavaRDD 转化为 Dataset<Row>方案二：使用schema生成方案阅读全文

posted @ 2018-07-25 14:38 cctext 阅读(13832) 评论(0) 推荐(2) 编辑

Spark：求出分组内的TopN

摘要：制作测试数据源： spark scala实现代码：打印结果： spark java代码实现：输出结果同上边输出结果。 Java 中使用combineByKey实现TopN: 输出： Spark使用combineByKeyWithClassTag函数实现TopN combineByKeyWithC 阅读全文

posted @ 2018-07-24 23:57 cctext 阅读(2562) 评论(0) 推荐(1) 编辑

Hadoop：安装ftp over hdfs

摘要：https://blog.csdn.net/sptoor/article/details/11484855 https://blog.csdn.net/tengxing007/article/details/53241169d账户名可以自己设置，也可以修改hadoop-core的版本 https:/ 阅读全文

posted @ 2018-07-05 00:06 cctext 阅读(958) 评论(0) 推荐(0) 编辑

Hadoop：开发机运行spark程序，抛出异常：ERROR Shell: Failed to locate the winutils binary in the hadoop binary path

摘要：问题： windows开发机运行spark程序，抛出异常：ERROR Shell: Failed to locate the winutils binary in the hadoop binary path，但是可以正常执行，并不影响结果。这里所执行的程序是：解决方案： 1.下载winutil 阅读全文

posted @ 2018-07-02 19:57 cctext 阅读(2603) 评论(0) 推荐(0) 编辑

Hive：针对一个分组排序（row_number() over (partition by xx order by y)）业务优化方案

该文被密码保护。

posted @ 2018-05-25 16:40 cctext 阅读(3) 评论(0) 推荐(0) 编辑

SPARK：作业基本运行原理

摘要：Spark作业基本运行原理：我们使用spark-submit提交一个spark作业之后，这个作业就会启动一个对应的Driver进程。根据你使用的部署模式（deploy-mode）不同：1）Driver进程可能在本地启动，也可能在集群中的某个工作节点上启动；2）Driver进程本身会根据我们设置的参阅读全文

posted @ 2018-05-09 14:48 cctext 阅读(619) 评论(0) 推荐(0) 编辑

Spark MLib：梯度下降算法实现

摘要：声明：本文参考《大数据：Spark mlib(三) GradientDescent梯度下降算法之Spark实现》 1. 什么是梯度下降？梯度下降法（英语：Gradient descent）是一个一阶最优化算法，通常也称为最速下降法。要使用梯度下降法找到一个函数的局部极小值，必须向函数上当前点对阅读全文

posted @ 2018-03-31 14:28 cctext 阅读(1093) 评论(0) 推荐(0) 编辑

Hive函数：SUM,AVG,MIN,MAX

摘要：转自：http://lxw1234.com/archives/2015/04/176.htm，Hive分析窗口函数(一) SUM,AVG,MIN,MAX 之前看到大数据田地有关于max()over(partition by)的用法，今天恰好工作中用到了它，但是使用中遇到了一个问题：在max(rsrp 阅读全文

posted @ 2018-03-28 22:45 cctext 阅读(17329) 评论(0) 推荐(0) 编辑

TSQL：判定一段数组连续的数字段有多少的方案

摘要：给定了一列数字，需要判定该列中连续的数据字有多少条记录：阅读全文

posted @ 2018-03-26 14:33 cctext 阅读(183) 评论(0) 推荐(0) 编辑

yy

基础才是编程人员应该深入研究的问题，警告自己问题解决不了时，多从运行原理底层研究后再考虑方案。

随笔分类 - BigData-Hadoop

公告