摘要: C++ 参数初始化 为 const 成员变量初始化 参数初始化顺序与初始化表列出表量的顺序无关,参数初始化顺序只与成员变量在类中声明的顺序有关 class book { public: book(char* a, double p); private: const char* title; doub 阅读全文
posted @ 2022-06-16 09:24 某某人8265 阅读(46) 评论(0) 推荐(0)
摘要: Spark 一个用于大规模数据处理的统一计算引擎,相当于Hadoop中的MapReduce。但除最终计算结果外其他数据都保存在内存,且任务切分比单一的Map+Reduce更加灵活。 基于内存计算,它的速度可以达到MapReduce的上百倍 Spark vs Hadoop 综合能力:Spark是一个综 阅读全文
posted @ 2022-06-12 21:40 某某人8265 阅读(770) 评论(0) 推荐(0)
摘要: Scala 默认不需要语句终结符”;“,它将每一行作为一个语句。如果一行放多条语句,则要使用语句终结符。 变量 可变变量,使用 var 定义;不可变变量,使用 val 定义。可以手动指定,不指定时自动推导。 var a = 2; val b = 4; var c: Int = 1; 数据类型 基本数 阅读全文
posted @ 2022-06-10 11:52 某某人8265 阅读(116) 评论(0) 推荐(0)
摘要: Hive Hive是建立在Hadoop上的数据仓库基础构架,它提供了一系列的工具,可以进行数据提取、转化、加载(ETL)。Hive定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL的用户直接查询Hadoop中的数据。Hive包含SQL解析引擎,它会将SQL语句转译成MR Job,然后在Had 阅读全文
posted @ 2022-06-09 15:28 某某人8265 阅读(200) 评论(0) 推荐(0)
摘要: Elasticsearch 一个开源的分布式搜索和分析引擎。可以快速存储、搜索、分析数据。提供服务的http端口为 9200,集群间通信端口为 9300。kibana的http服务端口为 5601。 基本概念 index 索引当动词时类似mysql的 insert,当名词类似mysql的 datab 阅读全文
posted @ 2022-06-09 07:52 某某人8265 阅读(76) 评论(0) 推荐(0)
摘要: Flume Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 他有一个简单、灵活的基于流的数据结构 具有负载均衡 阅读全文
posted @ 2022-06-07 20:50 某某人8265 阅读(126) 评论(0) 推荐(0)
摘要: yarn 调度器 FIFO Scheduler:先进先出(first in, first out)调度策略 Capacity Scheduler:FIFO Scheduler的多队列版本(默认,常用) Fair Scheduler:多队列,多用户共享资源。第一个任务占用所有资源,第二个任务到达之后第 阅读全文
posted @ 2022-06-04 09:27 某某人8265 阅读(51) 评论(0) 推荐(0)
摘要: Hadoop 性能优化 小文件问题 HDFS和MapReduce是针对大文件设计的,在小文件处理上效率低下,且十分消耗内存资源。每个小文件都会占用一个block、产生一个InputSplit、产生一个Map任务,这样map任务的启动时间很长,执行任务的时间很短。解决方法是使用容器将小文件组织起来,H 阅读全文
posted @ 2022-06-04 08:29 某某人8265 阅读(106) 评论(0) 推荐(0)
摘要: Shuffle 将数据从map端拷贝到reduce端的过程。 map生成的数据会放入内存缓冲区,大小为100M,当达到80M时溢写到磁盘中。直到map把数据计算完,然后将缓存中数据也保存到磁盘中。当map生成的数据存在分区时,磁盘中保存的数据也会分区。 本地文件合并,图中存在3个分区。 这3个分区会 阅读全文
posted @ 2022-05-30 16:44 某某人8265 阅读(418) 评论(0) 推荐(0)
摘要: MapReduce hdfs用于存储海量数据,mapreduce则用于处理数据,是一种分布式计算模型。MapReduce的思想:将任务切割为多个小任务进行并行计算(Map),然后将得到的局部结果进行汇总(Reduce)。 网络io的耗时远大于磁盘io。当计算程序和数据分别在不同机器上时,将计算程序移 阅读全文
posted @ 2022-05-29 10:51 某某人8265 阅读(155) 评论(0) 推荐(0)