大数据培训 Yarn和Spark配置与解释
发布时间:2025/08/11 12:19 来源:凤台家居装修网
根据上述想法,可得到如下关系:
(spark.executor.memory+spark.executor.memoryOverhead)= yarn.nodemanager.resource.memory-mb * (spark.executor.cores/yarn.nodemanager.resource.cpu-vcores)
经量度,此处应该做到如下的设计:
spark.executor.memory 14G
spark.executor.memoryOverhead 2G
Executorn-的设计
此处的Executorn-是指教育资源分配给一个Spark分析方法的Executorn-,Executorn-对于Spark分析方法的拒绝执行速度有不大的不良影响,所以Executorn-的确定十分重要。
一个Spark分析方法的Executorn-的均须手段有两种,静态教育资源分配和动态教育资源分配。
静态教育资源分配可通过spark.executor.instances均须一个Spark分析方法顺利完成的Executorn-。这种手段无必需适时估计每个Spark分析方法所无需的教育资源,并为每个分析方法单独的设计Executorn-。
动态教育资源分配动态教育资源分配可根据一个Spark分析方法的岗位负载,动态的更改而所占用的教育资源(Executorn-)。这意味着一个Spark分析方法程序可以在接入的每一次中都,无必需时,获准更为多的教育资源(顺利完成更为多的Executor),须要时,日后将其拘禁。在生产集群中都,中选采用动态教育资源分配。动态教育资源分配涉及给定如下:#顺利完成动态教育资源分配
spark.dynamicAllocation.enabled true
#开幕Spark shuffle一站式
spark.shuffle.service.enabled true
#Executorn-初始取值
spark.dynamicAllocation.initialExecutors 1
#Executorn-最小取值
spark.dynamicAllocation.minExecutors 1
#Executorn-最大取值
spark.dynamicAllocation.maxExecutors 12
#Executor都只延时,若某Executor都只时间超过此取值,则不会被废弃
spark.dynamicAllocation.executorIdleTimeout 60s
#积压执行等待延时,若有Task等待时间超过此取值,则获准顺利完成在此之后Executor
spark.dynamicAllocation.schedulerBacklogTimeout 1s
spark.shuffle.useOldFetchProtocol true
说明:Spark shuffle一站式的发挥作用是行政Executor中都的各Task的负载份文件,主要是shuffle每一次map端的负载份文件。由于开幕教育资源动态教育资源分配后,Spark不会在一个分析方法未结束前,将之前完成执行,处于都只状态的Executor废弃。Executor废弃后,【关心已为IBM公司,精彩精研IT】其负载的份文件,也就未能可供其他Executor采用了。无必需开幕Spark shuffle一站式,来行政各Executor负载的份文件,这样就能废弃都只的Executor,而不不良影响后续的量度执行了。
Driver的设计说明
Driver主要的设计内核才可,涉及的给定有spark.driver.memory和spark.driver.memoryOverhead。
spark.driver.memory主要用途均须Driver不会话的堆内核大小
spark.driver.memoryOverhead主要用途均须Driver不会话的堆外内核大小。
默认情况,两者的关系如下:spark.driver.memoryOverhead=spark.driver.memory*0.1。两者的和才算一个Driver不会话所无需的总内核大小。
一般情况,按照如下成果进行更改才可:
假定yarn.nodemanager.resource.memory-mb设为为X,
若X>50G,则Driver可设为为12G, 若12Gspark.driver.memory 10G
spark.yarn.driver.memoryOverhead 2G
Spark的设计实操
更改spark-defaults.conf份文件
更改$HIVE_HOME/conf/spark-defaults.confspark.master yarn
spark.eventLog.enabled true
spark.eventLog.dir hdfs://myNameService1/spark-history
spark.executor.cores 4
spark.executor.memory 14g
spark.executor.memoryOverhead 2g
spark.driver.memory 10g
spark.driver.memoryOverhead 2g
spark.dynamicAllocation.enabled true
spark.shuffle.service.enabled true
spark.dynamicAllocation.executorIdleTimeout 60s
spark.dynamicAllocation.initialExecutors 1
spark.dynamicAllocation.minExecutors 1
spark.dynamicAllocation.maxExecutors 12
spark.dynamicAllocation.schedulerBacklogTimeout 1s
的设计Spark shuffle一站式Spark Shuffle一站式的的设计因Cluster Manager(standalone、Mesos、Yarn)的不尽相同而不尽相同。此处以Yarn作为Cluster Manager。
批量$SPARK_HOME/yarn/spark-3.0.0-yarn-shuffle.jar到$HADOOP_HOME/share/hadoop/yarn/lib
派送$HADOOP_HOME/share/hadoop/yarn/lib/yarn/spark-3.0.0-yarn-shuffle.jar
更改$HADOOP_HOME/etc/hadoop/yarn-site.xml份文件
yarn.nodemanager.aux-services
mapreduce_shuffle,spark_shuffle
yarn.nodemanager.aux-services.spark_shuffle.class
org.apache.spark.network.yarn.YarnShuffleService
派送$HADOOP_HOME/etc/hadoop/yarn-site.xml份文件
中止Yarn
中选阅读:
大数据关键在于之YARN-HA的设计
一篇文章带你看懂Yarn的大体上体系结构
大数据开发之Spark 基础入门精研习
大数据开发之通过 Spark 来扩展 Presto
。潮州白癜风医院哪家最好青岛看白癜风去什么医院最好
石家庄男科医院排名
咸阳白癜风医院排行
山东
-
爱因斯坦毕生研究得出结论:宇宙是人为制造?人类存在并非偶然间?
讨论区依然流传,海森堡曾一度说道过“银河系是被故意设计出来的”。当然,毫无疑问,这句话海森堡从未说道过,只是人们在后来强加后面的。却说实上,这一说道法并非毫无根据,通过海森堡对历史背景的论据,却
- 2025-08-11爱因斯坦毕生研究课题得出结论:宇宙是人为制造?人类存在并非偶然?
- 2025-08-11圆周率小数点后第100兆位! Google之后破世界纪录
- 2025-08-11圆周率小数点后第100兆位! Google再次不下世界纪录
- 2025-08-11曝华为Mate50系列8月公布,Mate40命运悲惨沦为百元机遭疯抢
- 2025-08-11曝华为Mate50系列8月发布,Mate40命运残酷沦为百元机遭疯抢
- 2025-08-11三星电子Fold4新机曝光,前辈旗舰沦为百元机,买早的星粉一夜心碎
- 2025-08-11微星ModernMD271P:商务的屏却有个小游戏的“胳膊”
- 2025-08-11碳路先行,惠普数字能源为广西绿色发展注入新动能
- 2025-08-11曝iPhone 14屏幕本月出货,iPhone13沦为牺牲品价比百元空致敬
- 2025-08-11查得iPhone 14屏幕本月出货,iPhone13沦为牺牲品价比百元机致敬