上一页 1 ··· 22 23 24 25 26 27 28 29 30 ··· 39 下一页
摘要: 1.1.1 全排序 (1)全排序概述 指的是让所有的输出结果都是有序的,最简单的方法就是用一个reduce任务,但是这样处理大型文件时效率极低,失去的并行架构的意义。所以可以采用分组排序的方法来实现全局排序,例如现在要实现按键的全局的排序,可以将键值按照取值范围分为n个分组,<-10℃,-10℃~0 阅读全文
posted @ 2020-02-15 23:40 一字千金 阅读(525) 评论(0) 推荐(0)
摘要: 1.1.1 辅助排序(二次排序) (1)二次排序定义 通常情况下我们只对键进行排序,例如(年份,温度)组成的键值对,我们通常只对key年份进行排序,如果先按照年份排好序,还要求年份相同的再按照温度进行进行逆序排列,像这样先按照第一字段进行排序,然后再对第一字段相同的行按照第二字段排序,我们称为二次排 阅读全文
posted @ 2020-02-15 21:57 一字千金 阅读(626) 评论(0) 推荐(0)
摘要: 1.1 计数器 计数器的作用是用来统计数量的,用于记录特定事件的次数,分为内置计数器、自定义java枚举计数器、自定义Stream计数器三大类。用于质量分析,或应用级统计。分析计数器的值比分析一堆日志更高效。 计数器名称 计数器介绍 内置计数器 Hadoop自带的计数器,有特定的计数器名称。例如统计 阅读全文
posted @ 2020-02-12 09:17 一字千金 阅读(986) 评论(0) 推荐(0)
摘要: 1.1 输出格式 1.1.1 TextOutputFormat文本输出 默认输出格式,键值通toString()转为文本,Tab键分隔,属性mapreduce.putput. textoutputformat.separator属性设置分隔符。 1.1.2 二进制输出 (1) SequenceFil 阅读全文
posted @ 2020-02-08 23:53 一字千金 阅读(714) 评论(0) 推荐(0)
摘要: top 显示CPU占用情况,查找进程PID号 top -H -p 进程号PID 查看异常线程lwd strace 线程id 显示线程的信息 gdb attach 1162 自己开发了一个股票智能分析软件,功能很强大,需要的点击下面的链接获取: https://www.cnblogs.com/bcls 阅读全文
posted @ 2020-02-03 20:00 一字千金 阅读(1104) 评论(0) 推荐(0)
摘要: 如果不希望文件被切分,例如判断文件中记录是否有序,可以让minimumSize值大于最大文件的大小,但是文件的大小不能超过blockSize,或者重写FileInputFormat方法isSplitable()返回为false。下面介绍将多个小文件合成一个大的序列文件的例子: 1)自定义完整文件输入 阅读全文
posted @ 2020-02-03 13:05 一字千金 阅读(422) 评论(0) 推荐(0)
摘要: 1.1.1 输入分片和记录 (1)输入分片InputSplit接口 输入分片一般是文件,也可以数据库中的若干行。记录对应一行数据。输入分片在java表示为InputSplit接口,getlength函数返回大小,用于分片排序,大的先处理。Getlocation函数返回分片位置,让map任务尽量本地化 阅读全文
posted @ 2020-02-03 10:50 一字千金 阅读(560) 评论(0) 推荐(0)
摘要: 第一章 Java语言概述与开发环境 一、java程序的运行机制 1.语言的分类 编译型语言:如C++等,在特定的操作系统上编译为机器语言,执行效率高,但是通常无法在系统间移植,需要重新修改并编译。 解释型语言:如ruby、Python,用专用的解释器对源程序逐行解释成特定平台的机器码并立即执行,不是 阅读全文
posted @ 2020-02-03 09:50 一字千金 阅读(1267) 评论(0) 推荐(0)
摘要: 1.1.1 Stream 作业 (1)hadoop streaming Hadoop streaming是hadoop的一个工具,用于运行费java的maper或reducer作业,例如maper和reducer是C++编写的可执行程序或者脚本文件。同时也可以是java类。 HADOOP_HOME/ 阅读全文
posted @ 2020-01-30 09:58 一字千金 阅读(566) 评论(0) 推荐(0)
摘要: 1.1.1 默认的map函数和reduce函数 (1)Maper和Reuducer默认类 如果没有指定maper类和reduce类,则会用默认的Maper和Reuducer类去处理数据。也可以显示的将处理类设置为Maper和Reducer类。默认的Maper类和reduce类是将输入原封不动的输出。 阅读全文
posted @ 2020-01-30 09:56 一字千金 阅读(376) 评论(0) 推荐(0)
上一页 1 ··· 22 23 24 25 26 27 28 29 30 ··· 39 下一页