• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
 






何建新

 
 

Powered by 博客园
博客园 | 首页 | 新随笔 | 联系 | 订阅 订阅 | 管理
上一页 1 2 3 下一页

2018年2月1日

linux系统操作mysql常用指令
摘要: 1.终端启动MySQL:/etc/init.d/mysql start; 2.登录MySQL:mysql -uroot -p (用root账户登录),然后输入密码; 3.查看所有的数据库名字:show databases; 4.选择一个数据库操作: use database_name; 5.查看当前 阅读全文
posted @ 2018-02-01 10:56 何建新 阅读(10708) 评论(0) 推荐(0)
 

2018年1月18日

Spark性能调优之Shuffle调优
摘要: • shuffle过程中常出现的问题 常见问题一:reduce oom? 问题原因: reduce task 去map端获取数据,reduce一边拉取数据一边聚合,reduce端有一块聚合内存(executor memory * 0.2),也就是这块内存不够 解决办法: 1.增加reduce 聚合操 阅读全文
posted @ 2018-01-18 15:47 何建新 阅读(303) 评论(0) 推荐(0)
 

2017年12月21日

数据仓库的架构以及数据分层
摘要: 数据仓库分层的原因 1通过数据预处理提高效率,因为预处理,所以会存在冗余数据 2如果不分层而业务系统的业务规则发生变化,就会影响整个数据清洗过程,工作量巨大 3通过分层管理来实现分步完成工作,这样每一层的处理逻辑就简单了 标准的数据仓库分层:ods(临时存储层),pdw(数据仓库层),mid(数据集 阅读全文
posted @ 2017-12-21 16:01 何建新 阅读(4689) 评论(0) 推荐(0)
 

2017年12月19日

spark处理mongodb数据
摘要: mongodb是一种文档型数据库,作为一个适用于敏捷开发的数据库,mongodb的数据模式可以随着应用程序的发展而灵活地更新。但是mongodb适合一次查询的需求,对于统计、分析(尤其是在需要跨表、跨库的情况下)并不是太方便,我们可以用spark来处理mongodb数据。架构图如下: 我使用的spa 阅读全文
posted @ 2017-12-19 17:11 何建新 阅读(3014) 评论(0) 推荐(1)
 
sparksql加载mongodb指定字段,并对加载进来的json做解析
摘要: 如果是要读取mongo全表的数据的话,推荐使用mongo-spark,更简单方便 我个人的需求是要读取mongo的指定列,因为全表数据量太大, 并对加载进来的json数据进行解析,解析框架用的是alibaba封装的fastjson框架。 package spark_read;import java. 阅读全文
posted @ 2017-12-19 17:03 何建新 阅读(982) 评论(0) 推荐(0)
 
spark读取mongodb 并使用fastjson对读取json进行处理
摘要: package spark_read;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.api.java.function.VoidF 阅读全文
posted @ 2017-12-19 14:29 何建新 阅读(3416) 评论(0) 推荐(0)
 
JSON转换处理器fastjson
摘要: Fastjson介绍 Fastjson是一个Java语言编写的JSON处理器。 1、遵循http://json.org标准,为其官方网站收录的参考实现之一。 2、功能qiang打,支持JDK的各种类型,包括基本的JavaBean、Collection、Map、Date、Enum、泛型。 3、无依赖, 阅读全文
posted @ 2017-12-19 14:25 何建新 阅读(755) 评论(0) 推荐(0)
 

2017年11月20日

Python的可变类型与不可变类型
摘要: Python的每个对象都分为可变和不可变,主要的核心类型中,数字、字符串、元组是不可变的,列表、字典是可变的。 对不可变类型的变量重新赋值,实际上是重新创建一个不可变类型的对象,并将原来的变量重新指向新创建的对象(如果没有其他变量引用原有对象的话(即引用计数为0),原有对象就会被回收)。 对于不可变 阅读全文
posted @ 2017-11-20 15:00 何建新 阅读(298) 评论(0) 推荐(0)
 

2017年11月16日

Spark面对OOM问题的解决方法及优化总结 (转载)
摘要: Spark中的OOM问题不外乎以下两种情况 map执行中内存溢出 shuffle后内存溢出 map执行中内存溢出代表了所有map类型的操作,包括:flatMap,filter,mapPatitions等。shuffle后内存溢出的shuffle操作包括join,reduceByKey,reparti 阅读全文
posted @ 2017-11-16 15:48 何建新 阅读(847) 评论(0) 推荐(0)
 

2017年10月26日

hive元数据存储到mysql后因字符集原因导致的中文乱码解决方法
摘要: 一.个人初始开发环境的基本情况以及Hive元数据库说明 ①hive的元数据库改成了mysql(安装完mysql之后也没有进行其它别的设置) ②hive-site.xml中设置元数据库对应的配置为 jdbc:mysql://crxy99:3306/hive_cz3q?createDatabaseIfN 阅读全文
posted @ 2017-10-26 17:43 何建新 阅读(3443) 评论(0) 推荐(0)
 
上一页 1 2 3 下一页