走进大数据丨 MapReduce之分组

走进大数据丨 MapReduce之分组

经验文章nimo972025-04-03 23:15:1318A+A-

基本概念

分组和分区类似,是根据Map中的key进行分组。在同一个分区中,相同key的值记录是属于同一个分组的,相当于groupby key的功能。将相同的key2进行合并,value形成一个集合。也就是用来划分数据的,只不过更加细致,如果不使用自定义分组而是使用默认分组的话,和分区类似,也就是通过对比Key来进行分组逻辑。


分区与分组的区别

分区:决定我们的数据究竟去往哪一个reduceTask,发生在mapTask后面,决定mapTask里面的数据,去往哪一个reduceTask

分组:合并相同的k2 作用在每一个reduceTask上面


自定义分组

(1).自定义分组比较器继承RawComparator,实现compare()方法。

(2).设置
job.setGroupingComparatorClass()。

如果你想要进阶大数据开发,且目前已掌握Hadoop基本概念、scala语言基础语法和Spark基础知识,这份学习资料将特别适合您!本资料免费领取名额仅有100名哦(超额之后需要付费观看)!


「大数据零基础入门」


「大数据架构系统组件」


「大数据全套系统工具安装包」

Java必备工具


大数据必备工具


「大数据行业必备知资讯」


「大数据精品实战案例」


「大数据就业指导方案」

最后说一下的,也就是以上教程的获取方式!

领取方法:

还是那个万年不变的老规矩

1.评论文章,没字数限制,一个字都行!

2.成为小编成为的粉丝!

3.私信小编:“大数据开发教程”即可!

谢谢大家,祝大家学习愉快!(拿到教程后一定要好好学习,多练习哦!)

点击这里复制本文地址 以上内容由nimo97整理呈现,请务必在转载分享时注明本文地址!如对内容有疑问,请联系我们,谢谢!
qrcode

尼墨宝库 © All Rights Reserved.  蜀ICP备2024111239号-7