AzkaBan  

随笔分类 -  Java Scala 大数据项目

  • HBase 使用与原理总结
    摘要:window启动: 点击 bin/start-hbase.cmd 即可; UI: 16010 创建连接:public static Connection Conn() { Configuration config = HBaseConfiguration.create(); // 本地测试 conf 阅读全文
    posted @ 2019-09-17 15:46 AzkaBan 阅读(293) 评论(0) 推荐(0)
  • Java8 的一些使用总结
    摘要:nohup java -jar -Xmx1024M china-map.jar > log.txt & 在ssh退出后, 也不会终止进程; Object[] a = IntStream.range(0,100). map(i->String.valueOf(i).hashCode()). mapTo 阅读全文
    posted @ 2019-09-17 14:32 AzkaBan 阅读(186) 评论(0) 推荐(0)
  • SparkStreaming架构梳理
    摘要:1. 主要记录了 SparkStreaming的设计结构 以及 SparkStreaming 对Kafka的两种接收处理数据的流程, 希望对有需要的人可以提供帮助。 -> SparkStreaming整体架构 阅读全文
    posted @ 2019-06-17 17:03 AzkaBan 阅读(419) 评论(0) 推荐(0)
  • Spark架构梳理
    摘要:以下是对Spark总体架构 - 内存模型 - 算子的一些总结与理解, 希望能对需要的人能提供帮助。 1. Spark整体架构 2. Spark内存模型 3. 对算子的理解 阅读全文
    posted @ 2019-06-17 17:00 AzkaBan 阅读(276) 评论(0) 推荐(0)
  • 项目中遇到的一些迭代解析问题
    摘要:1. // 迭代删除 ()...()...() 2. // 迭代删除 (..(..)..).. (..) n重嵌套结构 阅读全文
    posted @ 2019-06-02 21:10 AzkaBan 阅读(244) 评论(0) 推荐(0)
  • HBase 与 ES 框架总结
    摘要:1. 从框架结构上而言, HBase - ES -Redis 的设计模式有很多共同点, 只是对于Redis来说, 默认使用16个库, 不需要使用者考虑如何定义rowkey进行分库; 对于HBase而言, 一种比较常见的Rowkey设计模式是, hash_库数 + 时间倒叙 + 业务ID编码 的形式设 阅读全文
    posted @ 2019-06-02 21:03 AzkaBan 阅读(2616) 评论(0) 推荐(0)
  • Hadoop 架构梳理
    摘要:1. Hadoop 设计流程 2. Shuffle 计算流程 3. 存储设计框架 4. 存储元数据合并流程 5. 面试中的一些问题 阅读全文
    posted @ 2019-06-02 20:51 AzkaBan 阅读(207) 评论(0) 推荐(0)
  • Redis 安装与使用
    摘要:redis安装指南: 特点: 最主要特点是 操作是原子性的;使用: 用来作为队列使用, 用来共享session, 用来作为聊天存储, 用来作为预存储; 1. 下载 http://www.redis.cn/documentation.html 2. mv redis-4.0.11.tar.gz /us 阅读全文
    posted @ 2019-05-27 17:01 AzkaBan 阅读(156) 评论(0) 推荐(0)
  • scala总结
    摘要:1. 循环 9*9乘法表 for(i for(i val a3 = for(b =0 ) yield{if(a(i) println("HELLO"+name) //返回值为Unit 4. 内置函数 // sortWith: 对元素进行两两相比,进行排序 Array(3, 2, 5, 4, 10, 1).sortWith(_ print("excellent") ca... 阅读全文
    posted @ 2019-05-25 16:59 AzkaBan 阅读(321) 评论(0) 推荐(0)
  • MySQL 与 Hive 逻辑相关
    摘要:MYSQL: 1. 每一个逗号, 相当于一个中间表, 而且hive的groupby 更为严格 ; -> 计算占比SELECT branch_company, ROUND(SUM(pass_flag) / (SELECT SUM(pass_flag) FROM wr_test),2) rate FRO 阅读全文
    posted @ 2019-05-07 15:32 AzkaBan 阅读(233) 评论(0) 推荐(0)
  • Win10 + MySQL + Tableu + PPT + 可视化方案
    摘要:1. 官网下MySQL 2. 解压到硬盘, 新建my.ini文件: [mysql] ; 设置mysql客户端默认字符集 default-character-set=utf8 [mysqld] ;设置3306端口 port = 3306 ; 设置mysql的安装目录 basedir=E:/softwa 阅读全文
    posted @ 2019-04-13 22:26 AzkaBan 阅读(1460) 评论(0) 推荐(0)
  • Hadoop集群指令 Hue 操作Oozie 指令 aws操作指令
    摘要:连接aws集群命令 C:\Users\rui.li1>aws configureAWS Access Key ID [None]: **************************AWS Secret Access Key [None]: *********************Default 阅读全文
    posted @ 2019-03-20 10:39 AzkaBan 阅读(367) 评论(0) 推荐(0)
  • ES 应用
    摘要:1. ES的不同之处: 全文检索、处理同义词、通过相关性给文档评分, 从同样的数据中生成分析与聚合数据, 实时大型批处理。 安装es与kibana 1、下载:https://www.elastic.co/downloads/elasticsearch 2、解压到d:\elasticsearch-2. 阅读全文
    posted @ 2019-01-29 16:25 AzkaBan 阅读(431) 评论(0) 推荐(0)
  • SparkStreaming+Kafa+HBase
    摘要:1. 总结一些概念: 安装zookeeper3.4.6 tickTime=2000initLimit=10syncLimit=5dataDir=/opt/software/zookeeper-3.4.6/datadataLogDir=/opt/software/zookeeper-3.4.6/log 阅读全文
    posted @ 2018-12-01 17:25 AzkaBan 阅读(275) 评论(0) 推荐(0)
  • 使用IDEA2017在Windows下编程并测试Hadoop2.7+Spark2.2+Azkaban
    摘要:1. 下载好IDEA HADOOP SPARK 首先,配置IDEA, 在插件管理中使用IDEA在线库安装scala插件, 在在线库直接搜索即可; 其次,配置Maven选项, 将Maven添加到IDEA; 最后,将windows依赖覆盖原先的linux依赖, 如下图; 将其中的hadoop.dll 拷 阅读全文
    posted @ 2018-11-30 19:27 AzkaBan 阅读(505) 评论(0) 推荐(0)
  • 基本环境安装: Centos7+Java+Hadoop+Spark+HBase+ES+Azkaban
    摘要:1. 安装VM14的方法在 人工智能标签中的《跨平台踩的大坑有提到》 2. CentOS分区设置: /boot:1024M,标准分区格式创建。 swap:4096M,标准分区格式创建。 /:剩余所有空间,采用lvm卷组格式创建 其他按需要设置就好, 配置好后使用 vi /etc/sysconfig/ 阅读全文
    posted @ 2018-11-26 18:12 AzkaBan 阅读(719) 评论(0) 推荐(0)
  • KafKa记录
    摘要:Kafka Kafka 1 kafka中的数据单位也被称为message, 如果你以数据库的方式理解kafka的话, 你也许会以为message类似于数据库中的行或者记录. message在kafka看来仅仅不过是一系列的字节, 所以对于kafka来说message中的data并没有特别的格式, 也 阅读全文
    posted @ 2018-08-24 16:52 AzkaBan 阅读(379) 评论(0) 推荐(0)