Java Scala 大数据项目 - 随笔分类 - AzkaBan

HBase 使用与原理总结

摘要：window启动：点击 bin/start-hbase.cmd 即可; UI： 16010 创建连接：public static Connection Conn() { Configuration config = HBaseConfiguration.create(); // 本地测试 conf 阅读全文

posted @ 2019-09-17 15:46 AzkaBan 阅读(294) 评论(0) 推荐(0)

Java8 的一些使用总结

摘要：nohup java -jar -Xmx1024M china-map.jar > log.txt & 在ssh退出后，也不会终止进程； Object[] a = IntStream.range(0,100). map(i->String.valueOf(i).hashCode()). mapTo 阅读全文

posted @ 2019-09-17 14:32 AzkaBan 阅读(187) 评论(0) 推荐(0)

SparkStreaming架构梳理

摘要：1. 主要记录了 SparkStreaming的设计结构以及 SparkStreaming 对Kafka的两种接收处理数据的流程，希望对有需要的人可以提供帮助。 -> SparkStreaming整体架构阅读全文

posted @ 2019-06-17 17:03 AzkaBan 阅读(420) 评论(0) 推荐(0)

Spark架构梳理

摘要：以下是对Spark总体架构 - 内存模型 - 算子的一些总结与理解，希望能对需要的人能提供帮助。 1. Spark整体架构 2. Spark内存模型 3. 对算子的理解阅读全文

posted @ 2019-06-17 17:00 AzkaBan 阅读(276) 评论(0) 推荐(0)

项目中遇到的一些迭代解析问题

摘要：1. // 迭代删除 ()...()...() 2. // 迭代删除 (..(..)..).. (..) n重嵌套结构阅读全文

posted @ 2019-06-02 21:10 AzkaBan 阅读(244) 评论(0) 推荐(0)

HBase 与 ES 框架总结

摘要：1. 从框架结构上而言, HBase - ES -Redis 的设计模式有很多共同点，只是对于Redis来说，默认使用16个库，不需要使用者考虑如何定义rowkey进行分库; 对于HBase而言, 一种比较常见的Rowkey设计模式是， hash_库数 + 时间倒叙 + 业务ID编码的形式设阅读全文

posted @ 2019-06-02 21:03 AzkaBan 阅读(2616) 评论(0) 推荐(0)

Hadoop 架构梳理

摘要：1. Hadoop 设计流程 2. Shuffle 计算流程 3. 存储设计框架 4. 存储元数据合并流程 5. 面试中的一些问题阅读全文

posted @ 2019-06-02 20:51 AzkaBan 阅读(208) 评论(0) 推荐(0)

Redis 安装与使用

摘要：redis安装指南: 特点: 最主要特点是操作是原子性的;使用: 用来作为队列使用, 用来共享session, 用来作为聊天存储, 用来作为预存储; 1. 下载 http://www.redis.cn/documentation.html 2. mv redis-4.0.11.tar.gz /us 阅读全文

posted @ 2019-05-27 17:01 AzkaBan 阅读(156) 评论(0) 推荐(0)

scala总结

摘要：1. 循环 9*9乘法表 for(i for(i val a3 = for(b =0 ) yield{if(a(i) println("HELLO"+name) //返回值为Unit 4. 内置函数 // sortWith: 对元素进行两两相比，进行排序 Array(3, 2, 5, 4, 10, 1).sortWith(_ print("excellent") ca... 阅读全文

posted @ 2019-05-25 16:59 AzkaBan 阅读(321) 评论(0) 推荐(0)

MySQL 与 Hive 逻辑相关

摘要：MYSQL: 1. 每一个逗号, 相当于一个中间表, 而且hive的groupby 更为严格 ; -> 计算占比SELECT branch_company, ROUND(SUM(pass_flag) / (SELECT SUM(pass_flag) FROM wr_test),2) rate FRO 阅读全文

posted @ 2019-05-07 15:32 AzkaBan 阅读(236) 评论(0) 推荐(0)

Win10 + MySQL + Tableu + PPT + 可视化方案

摘要：1. 官网下MySQL 2. 解压到硬盘，新建my.ini文件： [mysql] ; 设置mysql客户端默认字符集 default-character-set=utf8 [mysqld] ;设置3306端口 port = 3306 ; 设置mysql的安装目录 basedir=E:/softwa 阅读全文

posted @ 2019-04-13 22:26 AzkaBan 阅读(1465) 评论(0) 推荐(0)

Hadoop集群指令 Hue 操作Oozie 指令 aws操作指令

摘要：连接aws集群命令 C:\Users\rui.li1>aws configureAWS Access Key ID [None]: **************************AWS Secret Access Key [None]: *********************Default 阅读全文

posted @ 2019-03-20 10:39 AzkaBan 阅读(368) 评论(0) 推荐(0)

ES 应用

摘要：1. ES的不同之处：全文检索、处理同义词、通过相关性给文档评分，从同样的数据中生成分析与聚合数据，实时大型批处理。安装es与kibana 1、下载：https://www.elastic.co/downloads/elasticsearch 2、解压到d:\elasticsearch-2. 阅读全文

posted @ 2019-01-29 16:25 AzkaBan 阅读(431) 评论(0) 推荐(0)

SparkStreaming+Kafa+HBase

摘要：1. 总结一些概念: 安装zookeeper3.4.6 tickTime=2000initLimit=10syncLimit=5dataDir=/opt/software/zookeeper-3.4.6/datadataLogDir=/opt/software/zookeeper-3.4.6/log 阅读全文

posted @ 2018-12-01 17:25 AzkaBan 阅读(277) 评论(0) 推荐(0)

使用IDEA2017在Windows下编程并测试Hadoop2.7+Spark2.2+Azkaban

摘要：1. 下载好IDEA HADOOP SPARK 首先，配置IDEA，在插件管理中使用IDEA在线库安装scala插件, 在在线库直接搜索即可; 其次，配置Maven选项，将Maven添加到IDEA; 最后，将windows依赖覆盖原先的linux依赖, 如下图; 将其中的hadoop.dll 拷阅读全文

posted @ 2018-11-30 19:27 AzkaBan 阅读(507) 评论(0) 推荐(0)

基本环境安装: Centos7+Java+Hadoop+Spark+HBase+ES+Azkaban

摘要：1. 安装VM14的方法在人工智能标签中的《跨平台踩的大坑有提到》 2. CentOS分区设置: /boot：1024M，标准分区格式创建。 swap：4096M，标准分区格式创建。 /：剩余所有空间，采用lvm卷组格式创建其他按需要设置就好，配置好后使用 vi /etc/sysconfig/ 阅读全文

posted @ 2018-11-26 18:12 AzkaBan 阅读(722) 评论(0) 推荐(0)

KafKa记录

摘要：Kafka Kafka 1 kafka中的数据单位也被称为message, 如果你以数据库的方式理解kafka的话, 你也许会以为message类似于数据库中的行或者记录. message在kafka看来仅仅不过是一系列的字节, 所以对于kafka来说message中的data并没有特别的格式, 也阅读全文

posted @ 2018-08-24 16:52 AzkaBan 阅读(380) 评论(0) 推荐(0)

导航

随笔分类 - Java Scala 大数据项目


博客园 © 2004-2026 浙公网安备 33010602011771号浙ICP备2021040463号-3