Impala
Impala简介及架构:
1、Impala直接在Apache Hadoop数据中提供快速、交互式SQL查询,这些数据存储在HDFS、HBase或Amazon S3中。
除了使用相同的统一存储平台之外,Impala还与Hive使用相同的元数据、SQL语法(Hive SQL)、ODBC驱动程序和用户界面(Hue中的查询UI)。
这为实时或面向批的查询提供了一个熟悉和统一的平台。
2、Impala是大数据查询工具的补充。Impala不取代基于MapReduce的批处理框架,如Hive。
在MapReduce上构建的Hive和其他框架最适合于长时间运行的批处理作业,例如涉及抽取、转换和装载(ETL)类型作业的批处理。
3、Impala最早由Cloudera开发,后成为Apache顶级项目。
Impala的优点:
1、数据科学家和分析家已经熟悉的SQL接口。
2、在Apache Hadoop中查询大量数据(“大数据”)的能力。
3、在集群环境中进行分布式查询,以方便伸缩和使用商用硬件。
4、在不同组件之间不用复制或导出/导入步骤共享数据文件的能力;例如,用Pig写数据,用Hive进行转换,用Impala查询。Impala可以读取和写入Hive表,从而实现简单的数据交换。
5、一套系统实现大数据处理和分析,因此客户可以避免仅为分析进行昂贵的建模和ETL。
Impala架构:
Impala包含以下三种不同的守护进程:
1、Impala Daemon
在集群的每个DataNode上运行,进程名为impalad。其读写数据文件;接受来自命令行、Hue、JDBC或ODBC的查询;在集群上并行化查询和分发工作;将中间查询结果返回给中央协调器节点。
2、Impala Statestore
检查集群所有节点上Impala Daemons的状态,持续将该状态广播给每个节点。进程名为statestored。
只需要在集群一个节点上运行该进程。如果有Impala Daemon故障,Statestore会通知其它Daemon不要向故障节点发送查询。
如果Statestore本身故障,Impala Daemons上运行的任务不会受到影响,只是当有Impala Daemon故障时会降低集群的鲁棒性。
只要及时将Impala Statestore启动,恢复对Daemons的监控即可。
3、Impala Catalog Service
将Impala SQL语句中对元数据的改变广播给集群中所有Impala Daemons。进程名为catalogd。
只需要在集群一个节点上运行该进程。因为需要通过Statestore来广播元数据,通常将statestored和catalogd服务运行在同一个节点上。
浙公网安备 33010602011771号