Java开发者必知必会的工具之Apache Drill
导读:前段时间公司业务需要,需要对现有用户数据进行简单的商业分析,因此找到了Apache Drill。本文将对Apache Drill进行简单的说明,希望能够帮助读者理解并使用到实际项目中。
使用场景
Aache Drill 是一个用来分析大数据的工具,使用标准SQL查询语句(即select语句)来完成数据查询的java框架,主要用于:
- 跨数据库查询:比如mysql不同库联查
- 跨数据源查询:比如mysql与oracle数据库联查、mysql与mongodb数据库联查,当然还支持更多的数据源。
如果你有以上的使用场景,那么它将会给你带来强大的震撼。
介绍
Apache Drill 是一个分布式查询引擎,实际上是GoolDremal的开源实现。
特点:
- 低延迟
- 支持SQL
- 学习成本低
- 支持jdbc
- 高性能
基于以上特点,我在使用过程中,发现非常简单,很容易和现在的框架集成(springboot+mybatis),几乎零成本,唯一的成本就是配置数据源,这块成本也很小,因为Apache Drill提供了web ui操作。
基本用法
在这里我就不讲具体安装步骤了,我用docker来代替。
- 通过apache/drill官方镜像安装并启动
- 浏览器打开localhost:8047(web ui 默认端口,别忘记修改容器port)
- 配置数据源
- 点击Storage,可以看到下图
- 通过create创建数据源
配置代码如下(这里是以mysql为例,mac系统)
{
"type": "jdbc",
"driver": "com.mysql.cj.jdbc.Driver",
"url": "jdbc:mysql://docker.for.mac.host.internal:3306?serverTimezone=Asia/Shanghai",
"username": "root",
"password": "java",
"caseInsensitiveTableNames": false,
"enabled": true
}
- 测试
使用需要注意一点:
SQL查询语句比我们直接使用mysql等数据库SQL,多了一个命名空间,也就是我们在创建数据圆的时候的名字,下面SQL中的mysql。
SELECT * from mysql.gadmins.sys_admin_function
5. jdbc client
pom.xml 添加依赖
<dependency>
<groupId>org.apache.drill.exec</groupId>
<artifactId>drill-jdbc-all</artifactId>
<version>1.17.0</version>
</dependency>
java代码
Class.forName("org.apache.drill.jdbc.Driver");
Connection connection =DriverManager.getConnection("jdbc:drill:zk=
node3.mynode.com:2181/drill/my_cluster_com-drillbits");
Statement st = connection.createStatement();
ResultSet rs = st.executeQuery("SELECT * from mysql.gadmins.`sys_admin_function`");
while(rs.next()){
System.out.println(rs.getString(1));
}
拓展使用
由于我主要用来做数据查询,最关键的就是SQL语句了,那么有2个拓展场景
- 通过自建web 管理SQL语句,执行测试、发布
- 通过结合DataQL引擎,可以让SQL语句数据动起来,进一步对SQL查询出来的数据进行转化
总结
在调研的过程中,Apache Drill 给我的感觉就很来电,很有眼缘,当然也很符合我们的业务需要。在技术方案选型的过程中,是一个循序渐进的过程,未来还需要更多的调研,或许到一定阶段,就需要其他框架来支撑业务,这也是程序员的最大乐趣之一。