中国IDC圈4月22日报道,这篇文章算是个科普贴。如果已经熟悉Spark的就略过吧。

spark

前言

很多初学者其实对Spark的编程模式还是RDD这个概念理解不到位,就会产生一些误解。

比如,很多时候我们常常以为一个文件是会被完整读入到内存,然后做各种变换,这很可能是受两个概念的误导:

RDD的定义,RDD是一个分布式的不可变数据集合

Spark 是一个内存处理引擎

如果你没有主动对RDDCache/Persist,它不过是一个概念上存在的虚拟数据集,你实际上是看不到这个RDD的数据的全集的(他不会真的都放到内存里)。

RDD的本质是什么

一个RDD 本质上是一个函数,而RDD的变换不过是函数的嵌套。RDD我认为有两类:

输入RDD,典型如KafkaRDD,JdbcRDD

转换RDD,如MapPartitionsRDD

我们以下面的代码为例做分析:

sc.textFile(“abc.log”).map().saveAsTextFile(“”)

textFile 会构建出一个NewHadoopRDD,

map函数运行后会构建出一个MapPartitionsRDD

saveAsTextFile触发了实际流程代码的执行

所以RDD不过是对一个函数的封装,当一个函数对数据处理完成后,我们就得到一个RDD的数据集(是一个虚拟的,后续会解释)。

NewHadoopRDD是数据来源,每个parition负责获取数据,获得过程是通过iterator.next 获得一条一条记录的。假设某个时刻拿到了一条数据A,这个A会立刻被map里的函数处理得到B(完成了转换),然后开始写入到HDFS上。其他数据重复如此。所以整个过程:

理论上某个MapPartitionsRDD里实际在内存里的数据等于其Partition的数目,是个非常小的数值。

NewHadoopRDD则会略多些,因为属于数据源,读取文件,假设读取文件的buffer是1M,那么最多也就是partitionNum*1M 数据在内存里

saveAsTextFile也是一样的,往HDFS写文件,需要buffer,最多数据量为 buffer* partitionNum

所以整个过程其实是流式的过程,一条数据被各个RDD所包裹的函数处理。

刚才我反复提到了嵌套函数,怎么知道它是嵌套的呢?

如果你写了这样一个代码:

sc.textFile(“abc.log”).map().map()………map().saveAsTextFile(“”)

有成千上万个map,很可能就堆栈溢出了。为啥?实际上是函数嵌套太深了。

按上面的逻辑,内存使用其实是非常小的,10G内存跑100T数据也不是难事。但是为什么Spark常常因为内存问题挂掉呢? 我们接着往下看。

Shuffle的本质是什么?

这就是为什么要分Stage了。每个Stage其实就是我上面说的那样,一套数据被N个嵌套的函数处理(也就是你的transform动作)。遇到了Shuffle,就被切开来,所谓的Shuffle,本质上是把数据按规则临时都落到磁盘上,相当于完成了一个saveAsTextFile的动作,不过是存本地磁盘。然后被切开的下一个Stage则以本地磁盘的这些数据作为数据源,重新走上面描述的流程。

我们再做一次描述:

所谓Shuffle不过是把处理流程切分,给切分的上一段(我们称为Stage M)加个存储到磁盘的Action动作,把切分的下一段(Stage M+1)数据源变成Stage M存储的磁盘文件。每个Stage都可以走我上面的描述,让每条数据都可以被N个嵌套的函数处理,最后通过用户指定的动作进行存储。

为什么Shuffle 容易导致Spark挂掉

前面我们提到,Shuffle不过是偷偷的帮你加上了个类似saveAsLocalDiskFile的动作。然而,写磁盘是一个高昂的动作。所以我们尽可能的把数据先放到内存,再批量写到文件里,还有读磁盘文件也是给费内存的动作。把数据放内存,就遇到个问题,比如10000条数据,到底会占用多少内存?这个其实很难预估的。所以一不小心,就容易导致内存溢出了。这其实也是一个很无奈的事情。

我们做Cache/Persist意味着什么?

其实就是给某个Stage加上了一个saveAsMemoryBlockFile的动作,然后下次再要数据的时候,就不用算了。这些存在内存的数据就表示了某个RDD处理后的结果。这个才是说为啥Spark是内存计算引擎的地方。在MR里,你是要放到HDFS里的,但Spark允许你把中间结果放内存里。

总结

我们从一个较新的角度解释了RDD 和Shuffle 都是一个什么样的东西。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-04-11 11:16:48
国际资讯 新西兰电信公司Spark斥资2.21亿美元用于数据中心和5G新计划
Spark主席史密斯在当地时间5日的简报会上公布了新战略,他表示 Spark 在过去三年中通过新技术和简化实现了增长,现在能够为未来的扩张进行投资。 <详情>
2019-11-14 15:13:38
云技术 Spark SQL性能提升17.7倍是如何实现的?
在互联网运营商等大规模、超大规模用户中,Spark是最受欢迎的大数据系统,Spark对于内存依赖性很强,所以当负载提高时,硬件平台的内存挑战就会十分明显 <详情>
2019-08-27 15:38:57
大数据资讯 Hive和Spark究竟是凭借什么优势而大获成功?
Hive和Spark凭借其在处理大规模数据方面的优势大获成功,换句话说,它们是做大数据分析的。本文重点阐述这两种产品的发展史和各种特性,通过对其能力的比较,来说明这两个 <详情>
2019-07-22 16:47:56
大数据技术 Hadoop与 Spark - 选择正确的大数据框架
我们被各方的数据所包围。随着数据每两年增加一倍,数字世界正在快速追逐物理世界。据估计,到2020年,数字宇宙将达到44个zettabytes - 与宇宙中的恒星一样多的数字位。 <详情>
2019-07-17 16:42:54
大数据应用 Spark和Hadoop的架构区别解读
总的来说,Spark采用更先进的架构,使得灵活性、易用性、性能等方面都比Hadoop更有优势,有取代Hadoop的趋势,但其稳定性有待进一步提高。我总结,具体表现在如下几个方面 <详情>
议程揭晓丨12月20日算力技术创新与应用系列论坛
2024-12-09 15:47:29
采访普洛斯数据中心郭仁声:智算时代 我们需要怎样的算力与数据中心
2024-12-09 11:44:05
5040机架 内蒙古云著智算产业园项目一期封顶
2024-12-06 14:24:19
马斯克超级计算集群再升级:xAI扩大GPU规模至百万
2024-12-06 14:21:34
未来10年的智算中心应该怎么建?|12月20日北京,AI算力建设系列论坛将启
2024-12-06 11:44:36
亚马逊发布超级计算机集群和新型AI芯片服务器
2024-12-05 14:54:16
12月20日北京,聚焦区域算力生态|2024算力产业生态高质量发展大会
2024-12-05 11:27:14
以用户需求为核心,科华数据领航高端定制数据中心新赛道
2024-12-04 15:52:50
英特尔CEO突然宣布退休 数据中心芯片竞争力不足或是主因
2024-12-04 10:12:00
莲花控股终止与新华三6.93亿订单:已自持700台算力服务器
2024-12-04 10:06:00
头部算力企业将悉数亮相、大咖云集,完整议程重磅公布|12月19-20日,北京,第十九届中国IDC产业年度大典重磅启幕
2024-12-04 09:54:00
总机柜1.8万个 兴业银行贵安新区数据中心开工
2024-12-03 10:07:00
SUSE推出一站式可观测性平台SUSE Cloud Observability 助力Rancher社区用户告别多工具监控
2024-11-28 15:19:38
800亿 17座数据中心落地马来西亚雪州
2024-11-28 14:53:32
5万机架 中国移动高原大数据中心(二期)开工
2024-11-28 14:47:35