随笔分类 - 技术
技术文档
摘要:类加载器的父亲委托机制 在父亲委托机制中,各个类加载器按照父子关系形成了树形结构,除了根类加载器之外,其余的类加载器都有且只有一个父加载器。 先让最顶层可以加在的父加载器加栽(所有可加载的加载器中,处于最顶层的那一个加载器加载,如果都不能加载,则失败) Bootstrap ClassLoader 启
阅读全文
摘要:这篇文章主要是对官网内容学习过程的总结,大部分是原文,加上自己的学习笔记!!! spark 2.0+内存模型 调优内存使用时需要考虑三个因素: 1. 对象使用的内存数量(您可能希望您的整个数据集都能装入内存); 2. 访问这些对象的成本 3. 垃圾收集的开销(如果对象的周转率很高)。 默认情况下,J
阅读全文
摘要:需求 将本地创建的一个项目上到SVN 网上很多从SVN下载到idea,提交、更新、删除等操作。 但是少有从本地上传一个项目到svn管理的案例 本文参考 "https://blog.csdn.net/caojidasabi/article/details/79480376" 根据自己的需求修改了某些步
阅读全文
摘要:安装环境或方式 环境: centos7_64 安装方式:官网下载安装mysql server ps:mysql安装其实不难,但是并没有把步骤记下来,所以我把安装的步骤整理出来方便以后使用 安装mysql 顺序执行下列语句 配置mysql 1. 配置编码格式 /etc/my.cnf 最后面添加 def
阅读全文
摘要:ketlle基本介绍 kettle是纯java开发,开源的etl工具。可以在Linux、windows、unix中运行。有图形界面,也有命令脚本还可以二次开发。 kettle其实是以前的叫法,现在官方称为:PDI(Pentaho Data Integeration) Pentaho产品是一个用于访问
阅读全文
摘要:RDD,重新分区,repartition,coalesce,Spark,大数据,源码
阅读全文
摘要:DataFrame、大数据、优化、Scala、coalesce、repartition
阅读全文
摘要:Spark 开发环境搭建,包括IDEA、Scala、Svn、SBT、Java等安装配置
阅读全文
摘要:Spark处理后的结果数据resultDataFrame可以有多种存储介质,比较常见是存储为文件、关系型数据库,非关系行数据库。 各种方式有各自的特点,对于海量数据而言,如果想要达到实时查询的目的,使用HBase作为存储的介质是非常不错的选择。 现需求是:Spark对Hive、mysql数据源进行处
阅读全文
摘要:Spark:DataFrame写文件,追加,覆盖
阅读全文
摘要:Spark将DataFrame进行一些列处理后,需要将之写入mysql,下面是实现过程 1.mysql的信息 mysql的信息我保存在了外部的配置文件,这样方便后续的配置添加。 1 //配置文件示例: 2 [hdfs@iptve2e03 tmp_lillcol]$ cat job.propertie
阅读全文

浙公网安备 33010602011771号