drill的定义
Drill,中文名叫钻,是一款由Apache开发的分布式SQL查询引擎,能够通过高效的查询大数据,支持在PB级别以上的数据进行分析处理,可以同时连接多个数据源,如HDFS、Apache HBase、Amazon S3、Azure Blob Storage、Google Cloud Storage、Swift等。
通过自身的优化特性,Drill能够快速完成分布式数据分析、探索和查询。用户可以使用SQL语言直接在数据源上查询,不用关注数据自身的格式和分布式在哪里计算的细节。
Drill的优势
针对大数据集成支持更全面,Drill的查询可以访问Hadoop上大部 分的文件格式,包括JSON、Parquet、Avro、CSV、TSV、PSP、PBF、Text等,同时支持直接查 其他Hadoop生态圈的存储和分析工具,例如Hive、Hbase,而无需导入数据。
查询效率高,Drill的查询性能相比其他分布式查询引擎更高,因为它利用了多核CP Us以及每个节点上的机器内存,即使是大数据量的查询也可以在秒级别完成。
使用方便,Drill不用在任务项中定义数据模式,也不需要定义任何加载或操作命令, 用户只需要指定查询就可以进行查询。