| | | |

2018年2月1日

摘要： 1.终端启动MySQL：/etc/init.d/mysql start； 2.登录MySQL：mysql -uroot -p (用root账户登录),然后输入密码； 3.查看所有的数据库名字：show databases; 4.选择一个数据库操作： use database_name; 5.查看当前阅读全文

posted @ 2018-02-01 10:56 何建新阅读(10711) 评论(0) 推荐(0)

2018年1月18日

Spark性能调优之Shuffle调优

摘要： • shuffle过程中常出现的问题常见问题一：reduce oom? 问题原因： reduce task 去map端获取数据，reduce一边拉取数据一边聚合，reduce端有一块聚合内存（executor memory * 0.2）,也就是这块内存不够解决办法： 1.增加reduce 聚合操阅读全文

posted @ 2018-01-18 15:47 何建新阅读(305) 评论(0) 推荐(0)

2017年12月21日

数据仓库的架构以及数据分层

摘要：数据仓库分层的原因 1通过数据预处理提高效率，因为预处理，所以会存在冗余数据 2如果不分层而业务系统的业务规则发生变化，就会影响整个数据清洗过程，工作量巨大 3通过分层管理来实现分步完成工作，这样每一层的处理逻辑就简单了标准的数据仓库分层：ods（临时存储层），pdw（数据仓库层），mid（数据集阅读全文

posted @ 2017-12-21 16:01 何建新阅读(4694) 评论(0) 推荐(0)

2017年12月19日

spark处理mongodb数据

摘要： mongodb是一种文档型数据库，作为一个适用于敏捷开发的数据库，mongodb的数据模式可以随着应用程序的发展而灵活地更新。但是mongodb适合一次查询的需求，对于统计、分析（尤其是在需要跨表、跨库的情况下）并不是太方便，我们可以用spark来处理mongodb数据。架构图如下：我使用的spa 阅读全文

posted @ 2017-12-19 17:11 何建新阅读(3016) 评论(0) 推荐(1)

sparksql加载mongodb指定字段，并对加载进来的json做解析

摘要：如果是要读取mongo全表的数据的话，推荐使用mongo-spark,更简单方便我个人的需求是要读取mongo的指定列，因为全表数据量太大，并对加载进来的json数据进行解析，解析框架用的是alibaba封装的fastjson框架。 package spark_read;import java. 阅读全文

posted @ 2017-12-19 17:03 何建新阅读(985) 评论(0) 推荐(0)

spark读取mongodb 并使用fastjson对读取json进行处理

摘要： package spark_read;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.api.java.function.VoidF 阅读全文

posted @ 2017-12-19 14:29 何建新阅读(3418) 评论(0) 推荐(0)

JSON转换处理器fastjson

摘要： Fastjson介绍 Fastjson是一个Java语言编写的JSON处理器。 1、遵循http://json.org标准，为其官方网站收录的参考实现之一。 2、功能qiang打，支持JDK的各种类型，包括基本的JavaBean、Collection、Map、Date、Enum、泛型。 3、无依赖，阅读全文

posted @ 2017-12-19 14:25 何建新阅读(759) 评论(0) 推荐(0)

2017年11月20日

Python的可变类型与不可变类型

摘要： Python的每个对象都分为可变和不可变，主要的核心类型中，数字、字符串、元组是不可变的，列表、字典是可变的。对不可变类型的变量重新赋值，实际上是重新创建一个不可变类型的对象，并将原来的变量重新指向新创建的对象（如果没有其他变量引用原有对象的话（即引用计数为0），原有对象就会被回收）。对于不可变阅读全文

posted @ 2017-11-20 15:00 何建新阅读(300) 评论(0) 推荐(0)

2017年11月16日

Spark面对OOM问题的解决方法及优化总结 (转载)

摘要： Spark中的OOM问题不外乎以下两种情况 map执行中内存溢出 shuffle后内存溢出 map执行中内存溢出代表了所有map类型的操作，包括：flatMap，filter，mapPatitions等。shuffle后内存溢出的shuffle操作包括join，reduceByKey，reparti 阅读全文

posted @ 2017-11-16 15:48 何建新阅读(849) 评论(0) 推荐(0)

2017年10月26日

hive元数据存储到mysql后因字符集原因导致的中文乱码解决方法

摘要：一.个人初始开发环境的基本情况以及Hive元数据库说明 ①hive的元数据库改成了mysql(安装完mysql之后也没有进行其它别的设置) ②hive-site.xml中设置元数据库对应的配置为 jdbc:mysql://crxy99:3306/hive_cz3q?createDatabaseIfN 阅读全文

posted @ 2017-10-26 17:43 何建新阅读(3449) 评论(0) 推荐(0)