随笔分类 - spark
摘要:一、使用sbt引入hbase依赖包 二、检查hbase中是否存在某表 三、将dataframe写入hbase
阅读全文
posted @ 2018-11-23 09:31
飞末
摘要:第一种方式 操作:将第三方jar文件打包到最终形成的spark应用程序jar文件中 应用场景:第三方jar文件比较小,应用的地方比较少 第二种方式 操作:使用spark-submit提交命令的参数: --jars 要求: 1、使用spark-submit命令的机器上存在对应的jar文件 2、至于集群
阅读全文
posted @ 2018-08-10 17:59
飞末
摘要:训练语料格式 自定义五个类别及其标签:0 运费、1 寄件、2 人工、3 改单、4 催单、5 其他业务类。 从原数据中挑选一部分作为训练语料和测试语料 建立模型测试并保存 模型评估: 使用模型预测 结果:
阅读全文
posted @ 2018-06-26 17:22
飞末
摘要:一、ML组件 ML的标准API使用管道(pipeline)这样的方式,可以将多个算法或者数据处理过程整合到一个管道或者一个流程里运行,其中包含下面几个部分: 1. dataFrame:用于ML的dataset,保存数据 2. transformer:将一个dataFrame按照某种计算转换成另外一个
阅读全文
posted @ 2018-06-26 16:59
飞末
摘要:转载请注明转自:http://www.cnblogs.com/feiyumo/p/8763186.html 1.concat对于字符串进行拼接 concat(str1, str2, ..., strN) - Returns the concatenation of str1, str2, ...,
阅读全文
posted @ 2018-04-09 23:37
飞末
摘要:转载请注明转自:http://www.cnblogs.com/feiyumo/p/8760846.html 一、获取当前时间 1.current_date获取当前日期 2018-04-09 2.current_timestamp/now()获取当前时间 2018-04-09 15:20:49.247
阅读全文
posted @ 2018-04-09 16:26
飞末
摘要:SparkNLP的官方文档 1>sbt引入: 2>maven引入: 3>直接下载jar包,然后运行:spark-submit --packages JohnSnowLabs:spark-nlp:1.4.2 一、该库的主要内容: 标记生成器 规范化 词干提取 Lemmatizer 实体提取器 日期提取
阅读全文
posted @ 2018-03-19 16:58
飞末
摘要:Apache Spark 内存管理详解 Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的
阅读全文
posted @ 2018-02-09 16:25
飞末
摘要:本文持续更新中。。。 Spark Session中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现。 可以参考,Scala提供的DataFrame API。本文将使用SparkSession进行操作。 一、Da
阅读全文
posted @ 2017-11-22 15:00
飞末
摘要:0、操作系统 centos:6.4 hadoop:2.5.0-cdh5.3.6 1、为什么要编译 spark 源码? 学习spark的第一步 就应该是编译源码,后期修改和调试,扩展集成的功能模块 2、Spark 源码编译的三种形式? a.maven 编译 # export MAVEN_OPTS="-
阅读全文
posted @ 2017-09-05 23:04
飞末
摘要:1.小表对大表(broadcast join) 将小表的数据分发到每个节点上,供大表使用。executor存储小表的全部数据,一定程度上牺牲了空间,换取shuffle操作大量的耗时,这在SparkSQL中称作Broadcast Join Broadcast Join的条件有以下几个: *被广播的表需
阅读全文
posted @ 2017-08-23 14:06
飞末
摘要:1.windows中以本地模式运行spark遇到“Could not locate executable null\bin\winutils.exe in the Hadoop binarie”有效解决方案: 版本:idea2017.1.1+scala2.11.8+spark2.1 搞了一下午终于解
阅读全文
posted @ 2017-08-11 10:15
飞末

浙公网安备 33010602011771号