Impala简介及架构：

1、Impala直接在Apache Hadoop数据中提供快速、交互式SQL查询，这些数据存储在HDFS、HBase或Amazon S3中。

除了使用相同的统一存储平台之外，Impala还与Hive使用相同的元数据、SQL语法（Hive SQL）、ODBC驱动程序和用户界面（Hue中的查询UI）。

这为实时或面向批的查询提供了一个熟悉和统一的平台。

2、Impala是大数据查询工具的补充。Impala不取代基于MapReduce的批处理框架，如Hive。

在MapReduce上构建的Hive和其他框架最适合于长时间运行的批处理作业，例如涉及抽取、转换和装载（ETL）类型作业的批处理。

3、Impala最早由Cloudera开发，后成为Apache顶级项目。

Impala的优点：

1、数据科学家和分析家已经熟悉的SQL接口。

2、在Apache Hadoop中查询大量数据（“大数据”）的能力。

3、在集群环境中进行分布式查询，以方便伸缩和使用商用硬件。

4、在不同组件之间不用复制或导出/导入步骤共享数据文件的能力；例如，用Pig写数据，用Hive进行转换，用Impala查询。Impala可以读取和写入Hive表，从而实现简单的数据交换。

5、一套系统实现大数据处理和分析，因此客户可以避免仅为分析进行昂贵的建模和ETL。

Impala包含以下三种不同的守护进程：

1、Impala Daemon

在集群的每个DataNode上运行，进程名为impalad。其读写数据文件；接受来自命令行、Hue、JDBC或ODBC的查询；在集群上并行化查询和分发工作；将中间查询结果返回给中央协调器节点。

2、Impala Statestore

检查集群所有节点上Impala Daemons的状态，持续将该状态广播给每个节点。进程名为statestored。

只需要在集群一个节点上运行该进程。如果有Impala Daemon故障，Statestore会通知其它Daemon不要向故障节点发送查询。

如果Statestore本身故障，Impala Daemons上运行的任务不会受到影响，只是当有Impala Daemon故障时会降低集群的鲁棒性。

只要及时将Impala Statestore启动，恢复对Daemons的监控即可。

3、Impala Catalog Service

将Impala SQL语句中对元数据的改变广播给集群中所有Impala Daemons。进程名为catalogd。

只需要在集群一个节点上运行该进程。因为需要通过Statestore来广播元数据，通常将statestored和catalogd服务运行在同一个节点上。