当前位置:首页>开发>正文

impala工作原理

2024-07-31 11:37:16 互联网 未知 开发

impala工作原理?

impala工作原理

Imapala是一款开源的MPP架构的SQL查询引擎,它提供在hadoop环境上的低延迟、高并发的BI/数据分析。

Impala是一款开源、与Hadoop高度集成,灵活可扩展的查询分析引擎,目标是基于SQL提供高并发的即席查询。

在平时的使用当中,Impala能跟很多Hadoop的组件集成,实现类似数据库查询的功能,但是底层其实还是有很大区别的。也可以通过create table来创建一个表的逻辑结构,并配置对应的存储的文件格式、hdfs存储的目录等。

对于分区表,文件存储在分区值对应的子目录下。注意分区后的数据并不一定存储在一台机器,他们底层都是由Block组成,存储在多个节点上。对于底层存储的格式也非常灵活,甚至不同的分区可以设置不同的文件格式。一个典型的应用场景就是点击流的数据存储:当天的数据用csv,历史数据用parquet 这样就完成了一套最简单的Lambda架构。

随便看看