spark-sql中视图关联表结果不匹配问题
摘要:在sparkSQL 中将计算结果保存为视图,关联其他表后出现结果匹配错误,通过分析发现,是因为sql语句中使用了表达式 row_number() over(order by 1) 其实该表达式并没有执行,真正执行的时候是需要触发action (例如 show, count, top .......)
阅读全文
posted @
2020-06-30 10:51
脆皮软心
阅读(592)
推荐(0)
HFDS命令行操作
摘要:https://blog.csdn.net/qq_41544550/article/details/90383790 1、基本语法 bin/hadoop fs 具体命令 2、参数大全 bin/hadoop fs [-appendToFile <localsrc> ... <dst>] [-cat [
阅读全文
IsolationForest算法spark实现
摘要:/* Notice: 需要事先将IsolationForest算法源码利用mvn方式jar包,才可以使用import org.apache.spark.ml.iforest.IForest scala源代码地址:https://github.com/titicaca/spark-iforest py
阅读全文
IDEA创建本地Spark程序,并本地运行
摘要:1 IDEA创建maven项目进行测试 v创建一个新项目,步骤如下: 选择“Enable Auto-Import”,加载完后:选择“Enable Auto-Import”,加载完后: 添加SDK依赖: 点击OK ok 可以看到scala包加载成功 再修改pox.xml文件 新建“Demo1.scal
阅读全文
posted @
2019-12-07 16:05
脆皮软心
阅读(2095)
推荐(0)
Spark运行原理【史上最详细】
摘要:https://blog.csdn.net/lovechendongxing/article/details/81746988 Spark应用程序以进程集合为单位在分布式集群上运行,通过driver程序的main方法创建的SparkContext对象与集群交互。 1、Spark通过SparkCont
阅读全文
posted @
2019-06-17 11:46
脆皮软心
阅读(2040)
推荐(0)
Spark报错
摘要:【1】 Expected only partition pruning predicates 解决方案:设置spark.sql.hive.metastorePartitionPruning=false 【2】 Error in query: Detected cartesian product fo
阅读全文
posted @
2019-05-17 10:45
脆皮软心
阅读(593)
推荐(0)
Spark:用Scala和Java实现WordCount 并打包
摘要:http://www.cnblogs.com/byrhuangqiang/p/4017725.html
阅读全文
posted @
2018-12-11 15:13
脆皮软心
阅读(185)
推荐(0)
使用sparkMLlib 做kMeans聚类
摘要:https://blog.csdn.net/chivalrousli/article/details/72639972?utm_source=blogxgwz5
阅读全文
posted @
2018-12-11 15:12
脆皮软心
阅读(150)
推荐(0)
Scala中的Map使用例子
摘要:Map结构是一种非常常见的结构,在各种程序语言都有对应的api,由于Spark的底层语言是Scala,所以有必要来了解下Scala中的Map使用方法。 (1)不可变Map特点: api不太丰富 如果是var修饰,引用可变,支持读写 如果是val修饰,引用不可变,只能写入一次值,其后只读 (2)可变M
阅读全文
posted @
2018-12-10 14:08
脆皮软心
阅读(361)
推荐(0)
HBase 的Get(读),Put(写),Delete(删),Scan(扫描)和Increment(列值递增)
摘要:一、HBase介绍 1、基本概念 HBase是一种Hadoop数据库,经常被描述为一种稀疏的,分布式的,持久化的,多维有序映射,它基于行键、列键和时间戳建立索引,是一个可以随机访问的存储和检索数据的平台。HBase不限制存储的数据的种类,允许动态的、灵活的数据模型,不用SQL语言,也不强调数据之间的
阅读全文
posted @
2018-11-09 15:52
脆皮软心
阅读(2977)
推荐(1)
hadoop和spark比较
摘要:http://blog.51cto.com/13943588/2165946 3、hadoop和spark的都是并行计算,那么他们有什么相同和区别? 两者都是用mr模型来进行并行计算,hadoop的一个作业称为job,job里面分为map task和reduce task,每个task都是在自己的进
阅读全文
posted @
2018-11-08 16:47
脆皮软心
阅读(2915)
推荐(0)
Spark为什么比Hadoop好?
摘要:(1)Spark计算速度远胜于Hadoop的原因之一就在于中间结果是缓存在内存而不是直接写入到disk Hadoop每次计算先写磁盘,下次计算先从磁盘读,计算结果再写磁盘,如此往复。这对于迭代计算,是个噩梦 Spark为每个应用程序在worker上开启一个进程,而一个Job中的Task会在同一个线程
阅读全文
posted @
2018-11-08 16:20
脆皮软心
阅读(910)
推荐(0)
Spark机器学习库(MLlib)官方指南手册中文版
摘要:中文https://blog.csdn.net/liulingyuan6/article/details/53582300 https://yq.aliyun.com/articles/608083 英文http://spark.apache.org/docs/latest/mllib-linear
阅读全文
posted @
2018-10-30 16:19
脆皮软心
阅读(1594)
推荐(0)
Spark常用机器学习算法代码 (scala+java)
摘要:http://www.bubuko.com/infodetail-2436275.html
阅读全文
posted @
2018-10-25 17:01
脆皮软心
阅读(285)
推荐(0)
Spark RDD算子
摘要:https://www.cnblogs.com/sharpxiajun/p/5510215.html
阅读全文
posted @
2018-10-23 11:08
脆皮软心
阅读(154)
推荐(0)
sqoop导出数据
摘要:export是HDFS里的文件导出到RDBMS的工具,不能从hive、hbase导出数据,且HDFS文件只能是文本格式。如果要把hive表数据导出到RDBMS,可以先把hive表通过查询写入到一个临时表,临时用文本格式,然后再从该临时表目录里export数据。 HDFS导出数据到MySQL 说明:
阅读全文
posted @
2018-09-18 15:51
脆皮软心
阅读(631)
推荐(0)
sqoop导入数据
摘要:来源https://www.cnblogs.com/qingyunzong/p/8807252.html 一、概述 sqoop 是 apache 旗下一款“Hadoop 和关系数据库服务器之间传送数据”的工具。 核心的功能有两个: 导入、迁入 导出、迁出 导入数据:MySQL,Oracle 导入数据
阅读全文
posted @
2018-09-18 15:44
脆皮软心
阅读(1268)
推荐(0)
各个版本的集群安装包地址
摘要:1、各个版本的集群安装包地址 http://archive.apache.org/dist/ 2、Hbase官方地址 http://hbase.apache.org/ 3、Hive官方地址 https://hive.apache.org/ 4、zookepper官方地址 http://zookeep
阅读全文
posted @
2018-09-18 10:41
脆皮软心
阅读(211)
推荐(0)
HDFS读写文件流程
摘要:1详细的读写流程 https://blog.csdn.net/qq_41544550/article/details/90412767 2. 读取: 写入: https://www.imooc.com/article/70527
阅读全文
posted @
2018-09-17 15:45
脆皮软心
阅读(157)
推荐(0)
Hadoop常见问题
摘要:1、列出Hadoop集群的Hadoop守护进程和相关的角色。 Namenode:它运行上Master节点(主节点)上,负责存储的文件和目录所有元数据。它管理文件的块信息,以及块在集群中分布的信息。(管理文件系统的命名空间和客户端对文件的访问操作) Datanode:它是一个存储实际数据的Slave节
阅读全文
posted @
2018-09-17 15:36
脆皮软心
阅读(282)
推荐(0)