-
10本Apache Spark不同阶段层次自学书籍最佳推荐
Apache Spark是一个开源的、强大的分布式查询和处理引擎。它提供MapReduce的灵活性和可扩展性,但速度明显更高:当数据存储在内存中时,它比Apache Hadoop快100倍,访问磁盘时高达10倍。它于2010年开源,从一开始就对大数据和相关技术产生了明显影响,因为它很快吸引了250多...
02月25日[经验文章]浏览:11
-
-
搞流式计算,大厂也没有什么神话_流式计算概念
抖音、今日头条,是字节跳动旗下最受用户欢迎的两款产品,也是字节跳动的门面。而在这背后,是众多技术团队在支撑,流式计算就是其中一支。...
02月25日[经验文章]浏览:9
-
Hadoop大数据分析及数据挖掘读书笔记,一文总结
个人看完这一章,对于数据挖掘的落地有了一个大概得了解,我们选择、使用、学习这些大数据的技术应该是结果导向的,这里会让人更清晰去选择技术,使用技术。作者:Python工程师...
02月25日[经验文章]浏览:14
-
-
-
后Hadoop时代的大数据架构_hadoop大数据平台的基本构架和工作原理
提到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年的历史了,很多东西发生了变化,版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平台时代,这不是说不用Hadoop,而是像NoSQL (Not Only SQL)那样,有其他的选型补充。我在知乎上也写...
02月25日[经验文章]浏览:7
-
-
百万级数据导入导出,EasyExcel 才是 yyds
在项目开发中往往需要使用到数据的导入和导出,导入就是从Excel中导入到DB中,而导出就是从DB中查询数据然后使用POI写到Excel上。...
02月25日[经验文章]浏览:6
-
Apache Doris 介绍_apache doris使用
Apache Doris 是一个基于 MPP 架构的高性能、实时的分析型数据库,以极速易用的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。基于此,Apache Doris 能够较好的满足报表分析、即席查询、统一数仓构建...
02月25日[经验文章]浏览:8