本篇内容介绍了“hadoop下怎么计算MapReduce过程中需要的缓冲区大小”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!
本篇内容介绍了“hadoop下怎么计算MapReduce过程中需要的缓冲区大小”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!
创新新互联,凭借十余年的成都网站设计、网站制作经验,本着真心·诚心服务的企业理念服务于成都中小企业设计网站有近千家案例。做网站建设,选成都创新互联。
在Map阶段,map函数会产生中间数据输出并保存在内存缓冲区中(缓冲区大小由io.sort.mb参数指定)。一旦达到占用阈值(默认是80%),缓冲区的内容就会写入本地磁盘,这也就是所谓的溢写(spill)。
缓冲区内会存储溢写记录的元数据(每条数据元数据长度为16字节)和溢写记录。
分配给元数据的空间由参数io.sort.record.percent指定,默认5%,其余分配给溢写记录使用。
要确定缓冲区所需的内存空间,需要计算溢写记录和元数据分别所占空间大小。
具体计算方法如下:
Record length = Map output bytes / Map output records = 68022178 / 472293 = 144bytes
Spilled Records Size = Spilled Records * Record length = 144 * 472293 = 68022178 = 64M
Metadata Size = Metadata length * Spilled Records = 16 * 472293 = 7556688 = 7M
io.sort.record.percent = 16 / (16 + 144) = 0.1
io.sort.mb = Metadata size + Spilled Records size = 64 + 7 = 71M
文章题目:hadoop下怎么计算MapReduce过程中需要的缓冲区大小
标题链接:https://www.cdcxhl.com/article48/sdhhp.html
成都网站建设公司_创新互联,为您提供关键词优化、网站收录、静态网站、营销型网站建设、小程序开发、网站内链
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联