摘要: Hadoop 框架自带的 InputFormat 类型不能满足所有应用场景,需要自定义 InputFormat 来解决实际问题。 无论 HDFS 还是 MapReduce,在处理小文件时效率都非常低,但又难免面临处理大量小文件的场景,此时,就需要有相应解决方案。可以自定义 InputFormat 实 阅读全文
posted @ 2019-04-30 14:55 江湖小小白 阅读(766) 评论(0) 推荐(0)
摘要: 在使用 BytesWritable 进行小文件合并时,发现长度与原类容不一致,会多出一些空格 测试代码 结果,看到多出了一个空格 查看 BytesWritable 源码,发现复制后数组大小会被处理,真正存储类容长度的为 size 属性 既然知道长度,在转换时设置上就好了 http://hadoop. 阅读全文
posted @ 2019-04-30 14:36 江湖小小白 阅读(601) 评论(0) 推荐(0)
摘要: 在运行 MapReduce 程序时,输入的文件格式包括:基于行的日志文件、二进制格式文件、数据库表等。那么,针对不同的数据类型,MapReduce 是如何读取这些数据? 1.TextInputFormat 与 CombineTextInputFormat 类似,都是按行读取,键为偏移量,值为当前行的 阅读全文
posted @ 2019-04-29 19:20 江湖小小白 阅读(833) 评论(0) 推荐(0)
摘要: MapReduce 框架默认的 TextInputFormat 切片机制是对任务按文件规划切片,如果有大量小文件,就会产生大量的 MapTask,处理小文件效率非常低。 CombineTextInputFormat:用于小文件过多的场景,它可以将多个小文件从逻辑上规划到一个切片中,这样,多个小文件就 阅读全文
posted @ 2019-04-29 17:08 江湖小小白 阅读(2915) 评论(0) 推荐(1)
摘要: MapReduce 默认使用 TextInputFormat 进行切片,其机制如下 测试读取数据的方式 输入数据(中间为空格,末尾为换行符) map 阶段的 k-v 可以看出 k 为偏移量,v 为一行的值,即 TextInputFormat 按行读取 以 WordCount 为例进行测试,测试切片数 阅读全文
posted @ 2019-04-29 15:48 江湖小小白 阅读(1802) 评论(0) 推荐(0)
摘要: 要导出的数据:https://examples.bootstrap-table.com/json/data1.json?order=asc 使用的插件(注意插件版本依赖):tableExport.jquery.plugin 代码 <!DOCTYPE html> <html lang="en"> <h 阅读全文
posted @ 2019-04-29 14:51 江湖小小白 阅读(22760) 评论(5) 推荐(1)
摘要: 要加载的数据:https://examples.wenzhixin.net.cn/examples/bootstrap_table/data?search=&order=asc&offset=0&limit=10 代码 <!DOCTYPE html> <html lang="zh"> <head> 阅读全文
posted @ 2019-04-28 17:20 江湖小小白 阅读(11266) 评论(0) 推荐(0)
摘要: js、css 等静态资源可以放在自己的服务器上,或者引用网络上的公共库使用(CDN) CDN 读取失败时从本地加载 <script src="https://code.jquery.com/jquery-3.4.0.min.js"></script> <script> if (!window.jQu 阅读全文
posted @ 2019-04-28 14:52 江湖小小白 阅读(4145) 评论(0) 推荐(0)
摘要: 下载源码 Source download:https://hadoop.apache.org/releases.html & https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop 这里以 2.9.2 为例,查看源码中的编译说明文件 BUILDING.t 阅读全文
posted @ 2019-04-26 08:39 江湖小小白 阅读(4186) 评论(0) 推荐(0)
摘要: 源码下载(以 9 为例):https://tomcat.apache.org/download-90.cgi tomcat、servlet 和 jdk 之间的版本对应关系:http://tomcat.apache.org/whichversion.html 附上搭建好的环境:https://gite 阅读全文
posted @ 2019-04-25 15:13 江湖小小白 阅读(5241) 评论(0) 推荐(3)
摘要: 以服务动态上下线通知为例 Client 监听服务器状态 public class DistributeClient { private String connectString = "127.0.0.1:2181"; private int sessionTimeout = 2000; privat 阅读全文
posted @ 2019-04-23 23:32 江湖小小白 阅读(2050) 评论(1) 推荐(0)
摘要: ZooKeeper Java API pom.xml 依赖 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2 阅读全文
posted @ 2019-04-23 22:53 江湖小小白 阅读(291) 评论(0) 推荐(0)
摘要: 一、使用动态SQL 中的 Foreach 批量插入 1.MySQL // 实体类 public class MyUser { private Integer id; private String name; private Integer age; private Dept dept; public 阅读全文
posted @ 2019-04-22 19:35 江湖小小白 阅读(2905) 评论(0) 推荐(0)
摘要: 执行 bin/zkCli 文件进入客户端 查看帮助 help ZooKeeper -server host:port cmd args stat path [watch] set path data [version] ls path [watch] delquota [-n|-b] path ls 阅读全文
posted @ 2019-04-22 00:14 江湖小小白 阅读(9514) 评论(0) 推荐(0)
摘要: ZooKeeper:分布式应用程序的分布式协调服务 特点 数据结构 常见应用场景 https://zookeeper.apache.org/doc/current/zookeeperOver.html 阅读全文
posted @ 2019-04-21 12:35 江湖小小白 阅读(440) 评论(0) 推荐(0)