hadoop+Spark - 随笔分类 - 脆皮软心

spark-sql中视图关联表结果不匹配问题

摘要：在sparkSQL 中将计算结果保存为视图，关联其他表后出现结果匹配错误，通过分析发现，是因为sql语句中使用了表达式 row_number() over(order by 1) 其实该表达式并没有执行，真正执行的时候是需要触发action (例如 show, count, top .......) 阅读全文

posted @ 2020-06-30 10:51 脆皮软心阅读(607) 评论(0) 推荐(0)

HFDS命令行操作

摘要：https://blog.csdn.net/qq_41544550/article/details/90383790 1、基本语法 bin/hadoop fs 具体命令 2、参数大全 bin/hadoop fs [-appendToFile <localsrc> ... <dst>] [-cat [ 阅读全文

posted @ 2020-04-10 10:55 脆皮软心

IsolationForest算法spark实现

摘要：/* Notice: 需要事先将IsolationForest算法源码利用mvn方式jar包，才可以使用import org.apache.spark.ml.iforest.IForest scala源代码地址：https://github.com/titicaca/spark-iforest py 阅读全文

posted @ 2020-04-07 16:04 脆皮软心

IDEA创建本地Spark程序，并本地运行

摘要：1 IDEA创建maven项目进行测试 v创建一个新项目，步骤如下：选择“Enable Auto-Import”，加载完后：选择“Enable Auto-Import”，加载完后：添加SDK依赖：点击OK ok 可以看到scala包加载成功再修改pox.xml文件新建“Demo1.scal 阅读全文

posted @ 2019-12-07 16:05 脆皮软心阅读(2097) 评论(0) 推荐(0)

Spark运行原理【史上最详细】

摘要：https://blog.csdn.net/lovechendongxing/article/details/81746988 Spark应用程序以进程集合为单位在分布式集群上运行，通过driver程序的main方法创建的SparkContext对象与集群交互。 1、Spark通过SparkCont 阅读全文

posted @ 2019-06-17 11:46 脆皮软心阅读(2041) 评论(0) 推荐(0)

Spark报错

摘要：【1】 Expected only partition pruning predicates 解决方案：设置spark.sql.hive.metastorePartitionPruning=false 【2】 Error in query: Detected cartesian product fo 阅读全文

posted @ 2019-05-17 10:45 脆皮软心阅读(597) 评论(0) 推荐(0)

Spark：用Scala和Java实现WordCount 并打包

摘要：http://www.cnblogs.com/byrhuangqiang/p/4017725.html 阅读全文

posted @ 2018-12-11 15:13 脆皮软心阅读(187) 评论(0) 推荐(0)

使用sparkMLlib 做kMeans聚类

摘要：https://blog.csdn.net/chivalrousli/article/details/72639972?utm_source=blogxgwz5 阅读全文

posted @ 2018-12-11 15:12 脆皮软心阅读(150) 评论(0) 推荐(0)

Scala中的Map使用例子

摘要：Map结构是一种非常常见的结构，在各种程序语言都有对应的api，由于Spark的底层语言是Scala，所以有必要来了解下Scala中的Map使用方法。（1）不可变Map特点： api不太丰富如果是var修饰，引用可变，支持读写如果是val修饰，引用不可变，只能写入一次值，其后只读（2）可变M 阅读全文

posted @ 2018-12-10 14:08 脆皮软心阅读(364) 评论(0) 推荐(0)

HBase 的Get(读)，Put(写)，Delete(删)，Scan(扫描)和Increment(列值递增)

摘要：一、HBase介绍 1、基本概念 HBase是一种Hadoop数据库，经常被描述为一种稀疏的，分布式的，持久化的，多维有序映射，它基于行键、列键和时间戳建立索引，是一个可以随机访问的存储和检索数据的平台。HBase不限制存储的数据的种类，允许动态的、灵活的数据模型，不用SQL语言，也不强调数据之间的阅读全文

posted @ 2018-11-09 15:52 脆皮软心阅读(2983) 评论(0) 推荐(1)

hadoop和spark比较

摘要：http://blog.51cto.com/13943588/2165946 3、hadoop和spark的都是并行计算，那么他们有什么相同和区别？两者都是用mr模型来进行并行计算，hadoop的一个作业称为job，job里面分为map task和reduce task，每个task都是在自己的进阅读全文

posted @ 2018-11-08 16:47 脆皮软心阅读(2919) 评论(0) 推荐(0)

Spark为什么比Hadoop好？

摘要：（1）Spark计算速度远胜于Hadoop的原因之一就在于中间结果是缓存在内存而不是直接写入到disk Hadoop每次计算先写磁盘，下次计算先从磁盘读，计算结果再写磁盘，如此往复。这对于迭代计算，是个噩梦 Spark为每个应用程序在worker上开启一个进程，而一个Job中的Task会在同一个线程阅读全文

posted @ 2018-11-08 16:20 脆皮软心阅读(914) 评论(0) 推荐(0)

Spark机器学习库（MLlib）官方指南手册中文版

摘要：中文https://blog.csdn.net/liulingyuan6/article/details/53582300 https://yq.aliyun.com/articles/608083 英文http://spark.apache.org/docs/latest/mllib-linear 阅读全文

posted @ 2018-10-30 16:19 脆皮软心阅读(1597) 评论(0) 推荐(0)

Spark常用机器学习算法代码 (scala+java)

摘要：http://www.bubuko.com/infodetail-2436275.html 阅读全文

posted @ 2018-10-25 17:01 脆皮软心阅读(290) 评论(0) 推荐(0)

Spark RDD算子

摘要：https://www.cnblogs.com/sharpxiajun/p/5510215.html 阅读全文

posted @ 2018-10-23 11:08 脆皮软心阅读(154) 评论(0) 推荐(0)

sqoop导出数据

摘要：export是HDFS里的文件导出到RDBMS的工具，不能从hive、hbase导出数据，且HDFS文件只能是文本格式。如果要把hive表数据导出到RDBMS，可以先把hive表通过查询写入到一个临时表，临时用文本格式，然后再从该临时表目录里export数据。 HDFS导出数据到MySQL 说明：阅读全文

posted @ 2018-09-18 15:51 脆皮软心阅读(634) 评论(0) 推荐(0)

sqoop导入数据

摘要：来源https://www.cnblogs.com/qingyunzong/p/8807252.html 一、概述 sqoop 是 apache 旗下一款“Hadoop 和关系数据库服务器之间传送数据”的工具。核心的功能有两个：导入、迁入导出、迁出导入数据：MySQL，Oracle 导入数据阅读全文

posted @ 2018-09-18 15:44 脆皮软心阅读(1269) 评论(0) 推荐(0)

各个版本的集群安装包地址

摘要：1、各个版本的集群安装包地址 http://archive.apache.org/dist/ 2、Hbase官方地址 http://hbase.apache.org/ 3、Hive官方地址 https://hive.apache.org/ 4、zookepper官方地址 http://zookeep 阅读全文

posted @ 2018-09-18 10:41 脆皮软心阅读(212) 评论(0) 推荐(0)

HDFS读写文件流程

摘要：1详细的读写流程 https://blog.csdn.net/qq_41544550/article/details/90412767 2. 读取：写入： https://www.imooc.com/article/70527 阅读全文

posted @ 2018-09-17 15:45 脆皮软心阅读(160) 评论(0) 推荐(0)

Hadoop常见问题

摘要：1、列出Hadoop集群的Hadoop守护进程和相关的角色。 Namenode：它运行上Master节点（主节点）上，负责存储的文件和目录所有元数据。它管理文件的块信息，以及块在集群中分布的信息。（管理文件系统的命名空间和客户端对文件的访问操作） Datanode：它是一个存储实际数据的Slave节阅读全文

posted @ 2018-09-17 15:36 脆皮软心阅读(286) 评论(0) 推荐(0)

随笔分类 - hadoop+Spark