Hadoop日渐势微,湖仓一体兴起,为什么?

Hadoop日渐势微,湖仓一体兴起,为什么?

经验文章nimo972025-02-06 11:34:568A+A-

前言

随着数据量爆炸式增长,以及越来越多的企业上云,数据平台在数据存储及处理方面遇到的挑战越来越大,采用何种技术来更好的构建和迭代,一直是业界研究的热点。湖仓一体(Lakehouse)作为新一代大数据技术架构,正快速取代Hadoop框架,成为新一代大数据架构的演进方向。

数据架构的演进

七十年代,关系型数据库诞生,以满足企业针对二维数据表格的增删查改,就是通常所说的OLTP(联机事务处理),其中SQL就是基于关系型数据库的结构化查询语言。

1991年,数据仓库之父比尔·恩门(Bill Inmon)提出了数据仓库的概念,强调其数据分析能力,即OLAP(联机分析处理),目的是辅助企业决策。现代数据仓库的主要特点是分布式、列式存储、MPP 计算引擎。用户发起计算任务后,数据仓库的MPP 计算引擎将计算进行分拆,每个节点负责处理一部分,节点间并行计算,将最终汇总结果输出给用户。

2012 年,互联网的发展让数据体量得到了前所未有飞速增长,非结构化数据大量出现,企业对于数据处理的实时性和易用性也有了更高的要求。企业开始大规模使用 Hadoop 存算融合大数据,也称为数据湖,其底层存储是 HDFS高可用廉价存储,用来保存海量数据;MapReduce实现并行计算;Hive则作为Hadoop的数据仓库工具;Yarn则实现集群计算资源调度。

Hadoop遭遇瓶颈

Hadoop计算和存储无法分开扩容,而现实中大部分用户对这两种资源的需求是不匹配的,存算一体架构必然会导致其中一种资源的浪费。

随着数据量的爆炸式增长,HDFS 的 NameNode 单点架构遇到了元数据性能的瓶颈。同时,HDFS 的 3 副本机制存储利用率低,成本较高;并不适合存储冷数据,且成本比纠删码机制高出至少一倍;在云上还面临副本放大的问题,云厂商提供的云磁盘本身就有副本机制,使用云磁盘搭建 HDFS 的实际副本数更高,可能高达 9 副本。

Hadoop存算融合架构遇到的另外一个挑战是,Spark/Flink正取代MapReduce成为主流大数据处理框架。由于其支持数据转换、流式处理和SQL,迅速获得了广泛的认可。然而,它并未能与现有的Hadoop数据湖环境友好共存,因此通常需要额外的专用计算集群才能运行Spark与Flink。与MapReduce无法处理实时数据不同,Spark Streaming、Flink 让大数据平台具备了实时处理数据能力。

在Hadoop大数据湖中, Hive用于建造数据仓库,主要存在三大痛点:第一、不支持 ACID,即不支持 Upsert 场景;也不支持 Row-level delete,数据更新成本高。第二、时效性难以提升,难以做到数据准实时可见;无法增量读取,无法实现存储层面的流批统一;无法支持分钟级延迟的数据分析场景。第三、对 Schema 变更支持不好;对Partition Spec 变更支持同样不友好。

什么是湖仓一体?

湖仓一体是在数据湖的基本架构上,通过开放式表格格式如Delta Lake/Apache Hudi/Apache Iceberg 为代表的新技术解决了传统数据湖的各种痛点,为数据湖的基本架构带来了 ACID 事务支持,提供了对记录级别的增删改的支持,对多作业并发读写同一个表或同一个分区的支持,以及流批接口支持,从而将数据仓库和数据湖功能融合在一起,使其具有了数据仓库在数据管理方面的各种优点,并直接支持 BI 和 AI 的各种数据分析场景。

道熵Visionary(远见)湖仓一体数据平台采用高扩展全闪/混闪分布式对象存储,提供S3接口高可靠、高性能存储,以及高并发访问,依托Hudi或Iceberg 开放式表格格式实现元数据共享,使用Presto、Spark、Flink在统一的数据平台上进行查询计算,包括SQL、数据科学、转换和流处理。

道熵Visionary湖仓一台数据平台具有以下技术特点:

1.具备弹性和可扩展的S3对象存储,能够满足日益增长的数据规模需求

2.采用开放的Hudi或Iceberg数据格式,使数据对所有计算引擎都可访问,同时针对小文件访问进行优化,并具备良好定义的结构

3.开放的元数据(可共享),能够支持多种消费引擎或框架,如Spark、Flink、Tensorflow、PyTorch

4.支持数据更新(ACID特性)和事务并发处理。

5.综合的数据安全和数据治理(如数据血缘、完整的数据访问策略定义和执行)。

结束语

随着数字化转型的进一步推进,BI 和 AI 等各类数据分析需求日益递增。为更好地支撑各种数据存储与处理需求,湖仓一体作为企业级数据平台将是必然选择。道熵Visionary湖仓一体数据平台帮助客户从其拥有的数据中获取商业洞察,简化业务流程,降低成本,加速创新以获得行业竞争优势。

点击这里复制本文地址 以上内容由nimo97整理呈现,请务必在转载分享时注明本文地址!如对内容有疑问,请联系我们,谢谢!
qrcode

尼墨宝库 © All Rights Reserved.  蜀ICP备2024111239号-7